三藏在马上欢喜道:“徒弟,我一向西来,经历许多山水,都是那嵯峨险峻之处,更不似此山好景,果然的幽趣非常。若是相近雷音不远路,我们好整肃端严见世尊。”行者笑道:“早哩,早哩!正好不得到哩!”沙僧道:“师兄,我们到雷音有多少远?”行者道:“十万八千里,十停中还不曾走了一停哩。”八戒道:“哥啊,要走几年才得到?”行者道:“这些路,若论二位贤弟,便十来日也可到;若论我走,一日也好走五十遭,还见日色;若论师父走,莫想,莫想!”唐僧道:“悟空,你说得几时方可到?”行者道:“你自小时走到老,老了再小,老小千番也还难。只要你见性志诚,念念回首处,即是灵山。”沙僧道:“师兄,此间虽不是雷音,观此景致,必有个好人居止。”行者道:“此言却当。这里决无邪祟,一定是个圣僧仙辈之乡,我们游玩慢行。”不题。
分类归档:Uncategorized
提升英语水平的十个步骤
前置条件
你的英文词汇量已经达到高三人教版教材要求的水平,也就是掌握英文常用单词数目2000个。如果你还没达到,建议你退学重读高一。我有很多高中可以推荐,例如郴州市明星学校。需要的可以私信我。
这2000个单词,我分为如下几个部分:
- 1000个名词;重要生活物件的名词,表述思维的抽象名词等。apple,orange 当然是需要的;inspiration, sabotage 也是需要的。
- 250个动词;描述任意动作和抽象动作。do,make是需要的;reinforce, heighten 更是需要的。
- 250个副词;修辞动作。happily, luckily 当然是需要的;figuratively, ubiquitously 也是需要的;
- 500个形容词;修辞名词。big,large当然是需要的;blunt, riveting 更是需要的。
步骤一
学会基本的语法。我建议买一本【薄冰英语语法】来看。千万不要听高中老师胡说八道。
下面是几个例子:
- 理解为什么 there is a woman swallowing banana 里面的swallowing 必须是ing形式;
- 理解为什么 Do you know where he heads 里面的 heads 后面为什么不加 to;
- 理解为什么 Given time, we would heal 里面的 given 为什么不是 giving;
- 理解为什么 Why you always take things for granted 里面的 granted 要用被动。
步骤二
买一本英英词典(例如牛津词典),并且把你的汉英、英汉词典烧掉;该辞典的好处是用2000个常用字解释所有词条。每次看见新单词请打开这本辞典找到词条,用你的语法知识和单词量理解这个词。
步骤三
使用学会的单词;看到一个学会的新单词,例如unanimously,你觉得太罕见不会用;不是的,请看他在词典中的例句,把例句背下来。
步骤四
参加校园英语角,在英语角里面疯狂使用辞典例句,并且虚构故事,吓死他们。。逃(
步骤五
上一个步骤是虚构的;在现实生活中,充分使用学习到的例句;例如早上起来了你要说什么?交作业忘记写了你要说什么?食堂打饭你要说什么?洗澡你要说什么?OOXX你要说什么?就这个意思。
步骤六
用英文的逻辑改造你的思维。基于步骤五,你已经可以完全使用英文进行思考了。语言决定了你的思维能力;在思考的过程中,你会进一步具象化英文中的名词,动词,词组等;并且连接你听说读写之功能。因为说白了,听说读写的核心其实是让你用英文想。如果你都必须用中文想,说一口标准的大白东北英语,那你还是放弃治疗吧。
步骤七
准备一个记录本,把你认为有用的动词,副词,形容词和名词按照这样的顺序(动副形名的顺序,因为他们在语言中的重要性依次递减)记录下来;方便日后参照。使用任何一种记忆法防止你忘记(一般来说忘记3次之后你就不会忘记了)。除非你过目不忘,这种形式还是很重要的。
步骤八
买一本适合自己词汇量的英文杂志,例如空中英语教室。另外找一本新概念英语或者本科英语教材每天早上按照要求背诵一下。其实这都不重要,关键是把你字典上学会的东西找个地方用起来。
步骤九
买一本Economist自己看,或者看Friends的英文原版英文字幕。尝试用英文开始写总结。其实这都不重要。对于程序员来说,能看懂就可以了,不需要写==
步骤十
坚持1年。学完一年之后,相信你就可以自己去看C++ PRIMER了。另外,你不会还不知道PRIMER啥意思把。去看牛津词典,然后找那个例句自己练习100次。。
文本分析处理
1. 背景知识
1.1 自然语言处理
1.1.1 文本向量化
文本向量化(又称“词向量模型”、“向量空间模型”)即将文本表示成计算机可识别的实数向量,根据粒度大小不同可将文本特征表示分为字、词、句子或篇章几个层次。文本向量化的方法主要分为离散表示和分布式表示。
1.1.1.1 离散表示
一种基于规则和统计的向量化方式,常用的方法包括词集模型和词袋模型,都是基于词之间保持独立性、没有关联为前提,将所有文本中单词形成一个字典,然后根据字典来统计单词出现频数,不同的是:
- 词集模型:例如One-Hot Representation,只要单个文本中单词出现在字典中,就将其置为1,不管出现多少次
- 词袋模型:只要单个文本中单词出现在字典中,就将其向量值加1,出现多少次就加多少次。
其基本的特点是忽略了文本信息中的语序信息和语境信息,仅将其反映为若干维度的独立概念,这种情况有着因为模型本身原因而无法解决的问题,比如主语和宾语的顺序问题,词袋模型天然无法理解诸如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。
One-Hot Representation
将每个词都表示成一个长向量,向量的维度是词表的大小,词的当前位置用1表示,其他位置用0表示。
import numpy as np
import pandas as pd
import jieba
def doc2onthot_matrix(file_path):
# 读取待编码的文件
with open(file_path, encoding="utf-8") as f:
docs = f.readlines()
with open(file_path1, encoding="utf-8") as f:
docs1 = f.readlines()
# 将文件每行分词,分词后的词语放入words中
words=[]
for i in range(len(docs)):
docs[i] = jieba.cut(docs[i].strip("\n"))
words += docs[i]
# 找出分词后不重复的词语,作为词袋,是后续onehot编码的维度
vocab = sorted(set(words), key=words.index)
# 建立一个M行V列的全0矩阵,M是文档样本数,这里是行数,V为不重复词语数,即编码维度
V = len(vocab)
M = len(docs)
onehot = np.zeros((M,V))
for i,doc in enumerate(docs1):
words = ""
for word in doc:
if word != " ":
words = words + word
continue
if words in vocab:
pos = vocab.index(words)
onehot[i][pos] = 1
words = ""
else:
words = ""
continue
onehot=pd.DataFrame(onehot, columns=vocab)
return onehot
file_path = "./test.txt"
file_path1 = "./word.txt"
onehot = doc2onthot_matrix(file_path)
onehot
One-Hot编码的优点是简单快捷,缺点是数据稀疏、耗时耗空间、不能很好地展示词与词之间的相似关系,且还未考虑到词出现的频率,因而无法区别词的重要性。
1.2 特征提取
特征提取(英语:Feature extraction)在机器学习、模式识别和图像处理中有很多的应用。特征提取是从一个初始测量的资料集合中开始做,然后建构出富含资讯性而且不冗余的导出值,称为特征值(feature)。它可以帮助接续的学习过程和归纳的步骤,在某些情况下可以让人更容易对资料做出较好的诠释。特征提取是一个降低维度的步骤,初始的资料集合被降到更容易管理的族群(特征)以便于学习,同时保持描述原始资料集的精准性与完整性。
当一个算法的输入资料太过于庞大冗余以至于不便处理(如:一样的测量方法但是分别使用英尺和米表示,或是影像中像素的重复性),这些资料可以被转换成化简后的特征集合,也称作特征向量(feature vector),决定这些原始资料子集的步骤称为特征提取 。成功的情形下,被选择的特征包含跟输入资料相关的资讯,因此这些被化简后的特征能够被用来做理想的任务,而不使用原始完整的初始资料来做这个任务。
1.2.1 概论
相较于原始庞大的资料集合需要很大量的资源来描述,特征提取可以减少需要描述这些资料的资源。当我们分析复杂资料时,其中一个主要的问题是源自于变数的数量过多。分析很多个变数一般来说需要很大量的内存以及计算能力,同时太多变数也可能造成分类问题的算法有过度拟合于训练资料的现象,因此对新的采样无法有效地归纳。特征提取是处理变数组合并维持资料充足的准确性时,常通称的术语。很多机器学习的实作者认为适当的特征提取是有效模型构建的关键。[3]
可以利用已经建构好的应用相关的特征集合来改善结果,通常这样的特征集合是被专家所建构。其中一种此类处理被叫做特征工程师。除此之外,我们也可以使用一般的降维技术,如下:
- 独立成分分析
- 等距特征映射
- 核主成分分析
- 潜在语义学
- 偏最小二乘回归
- 主成分分析
- 多因子降维法
- 非线性降维
- 多线性主成分分析
- 半定式嵌入
- 自编码器
1.2.2 图像处理
特征提取其中一个非常重要的应用领域为图像处理,其中的算法可以被用来侦测跟分离数位影像跟影片串流中,想要提取的部分或形状(特征)。常见的影像处理相关的特征处理如下:
低阶的特征
- 边缘检测
- 角检测
- 斑点检测
- 脊检测
- 尺度不变特征转换
曲率 - 边缘方向
- 改变强度
- 自相关
影像动作 - 移动侦测
- 微分方法
- 光流法
形状相关 - 二值化
- 连通分量标记
- 模板匹配
- 霍夫变换
- 广义霍夫变换
1.2.3 深度学习的特征提取
以往主成分分析为特征提取极常使用的降维方法,近来利用深度学习神经网络的自编码器则相当常被使用。他可以跟深度学习中的各种技术(例如:深度神经网络,卷积神经网络)结合。其中,卷积神经网络能十分有效的撷取影像中的特征,因此对于影像的资料降维撷取特征的效果特别杰出。此外,卷积神经网络在大型数据库中影像辨识相关的议题上(例如:物件分类)取得相当杰出的成果。因此也有人使用在大型数据库上预先训练好的卷积神经网络来做特征提取。
2. 文本分析简介
Hello world!
Welcome to WordPress. This is your first post. Edit or delete it, then start writing!