您好、欢迎来到现金彩票网!
当前位置:盛宏彩票 > 方向向量 >

用深度学习获取文本语义:词向量应用于自然语言处理

发布时间:2019-04-26 00:31 来源:未知 编辑:admin

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

  【新智元导读】词向量是一种把词处理成向量的技术,并且保证向量间的相对相似度和语义相似度是相关的。这个技术是在无监督学习方面最成功的应用之一。本文作者作为机器学习实践者,在文中介绍了如何编写一个神经网络模型来计算词间的关系并提高效率。结果表明,词向量确实能找到词汇之间的语义关系,还可以应用于更多领域。

  词向量是一种把词处理成向量的技术,并且保证向量间的相对相似度和语义相似度是相关的。这个技术是在无监督学习方面最成功的应用之一。传统上,系统把词编码成字符串。这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是NLP领域的一个替代方案。它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。

  例如,让我们看看四个词:“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化,再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后,这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近(参见图1)。

  有很多不同的模型可以被用来把词转换成实数性的向量,包括和。这些模型背后的思路是:相关的词汇一般都会在相同的文档里同时出现。例如,backpack(背包)、school(学校)、notebook(笔记本)和teacher(教师)一般都会一起出现。而school(学校)、tiger(老虎)、apple(苹果)和basketball(篮球)一般都不会持续同时出现。基于这个相关的词会在相关的文档里出现的基本假设,为了把词转化为向量,LSA会构建一个矩阵。矩阵的行是(语料库或数据里)所有出现过的词,而列则是对应于文档里的一个段落。LSA使用的方法,在保存列之间相似性的同时降低矩阵的行数。不过这些模型的主要问题是:在数据量非常大的时候,计算量也非常得大。

  为了避免计算和存储大量的数据,我们试图创造一个神经网络模型来计算词间的关系,并提高效率。

  目前最流行的词向量模型是由在2013年提出的。这个模型的效果很好,且计算效率有了很大的提升。Mikolov等提出的负采样方法是一个更有效的产生词向量的方法。更多的信息可以在找到。

  在CBOW架构里,模型根据目标词的上下文来预测目标词。因此,Mikolov等使用了目标词w的前n个词和后n个词。

  一个序列的词等同于一个物品集。因此,就可以把“词”理解为“物品”。对于“物品”我们可以使用以及里的方法。CBOW模型的训练速度是跳跃元语法模型的七倍,而且预测准确性也稍好(参见图2)。

  与使用目标词的上下文的方法不同,连续跳跃元语法模型是使用目标词去预测它的前后词(参见图3)。据Mikolov等的论文,在训练数据量比较小的时候,跳跃元语法模型比较好,且对于罕见的词和短语的处理较好。

  我们可以从维基百科里面找到很多语言的数据。用下面的步骤就可以获得一个大数据集。

  接着,为了让后续的事情变简单,我们会安装。它是一个实现了word2vec的Python库。

  我们需要用维基百科的下载文件来创建语料库,以用于后续的word2vec模型的训练。下面这段代码的输出就是一个“wiki..text”的文件。其中包括了维基百科的所有文章的所有词汇,并按照语言分开。

  实验室最近发布了。它是基于的论文《》所开发的模型。与word2vec不同,fastText把词表示成一个n元的字母袋。每个向量代表字符袋里的一个n元字母,而一个词则是这些向量的和。

  我们的评估例子里,测试词汇是整个词汇表。代码的最后是打印出和正词与负词的加权平均值的余弦相似度最高的词。

  我们这里所介绍的模型的基本思路可以被运用到很多的应用场景。如、、、做等。

  【作者介绍】Lior Shkiller是Deep Solution的联合创始人。作为一个机器学习的实践者,他积极热忱地投身于人工智能和认知科学。Lior拥有以色列特拉维夫大学的计算机科学与心理学学位,并有超过10年的软件开发经验。Deep Solutions提供端到端的软件解决方案,其中包括为计算机视觉、自然语言处理、异常检测和推荐系统等应用所开发的创新的深度学习的新算法。

  负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。返回搜狐,查看更多

http://monokkeli.net/fangxiangxiangliang/34.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有