facebook fasttext 训练集每次训练都不一样 是为什么

文 | 云行 摘要: Facebook最近开源了beringei时序数据库,其是用来解决其内部监控数据存储和查询需求的数据库,特点是读写速度快。beringei在压缩算法上有哪些独到之处?本文中阿里云数据库高级专家叶翔将为大家深度解读。 Facebook最近开源了beringei时序数据库。beringei是用来解决其内部监控数据存储和查询需求的数据库,其特点是读写速度快,属于内存数据库。 beringei是如何做到的呢,其压缩算法上有哪些独到之处? 阿里云数据库高级专家叶翔借着源代码和论文,对beringei原理进行了解读,同时也介绍了它在Facebook的应用情况。
End. 转载请注明来自36大数据(36dsj.com):
相关 [深度 facebook 开源] 推荐:
- IT瘾-bigdata
摘要: Facebook最近开源了beringei时序数据库,其是用来解决其内部监控数据存储和查询需求的数据库,特点是读写速度快. beringei在压缩算法上有哪些独到之处?本文中阿里云数据库高级专家叶翔将为大家深度解读. Facebook最近开源了beringei时序数据库. beringei是用来解决其内部监控数据存储和查询需求的数据库,其特点是读写速度快,属于内存数据库.
- 最新更新 – Solidot
Facebook 在 Apache 2.0 许可证下 开源了它的目标识别平台
Detectron, 源代码托管在 GitHub 上. Detectron 用 Python 开发,基于 Caffe2 深度学习框架. Facebook 同时公开了超过 70 个预先训练的模型. Detectron 项目始于 2016 年,实现了一系列最新的目标识别算法如 Mask R-CNN,该软件平台在社交巨人的视觉感知系统的进步上扮演了重要角色.
- IT经理网
本周四Facebook宣布开源其嵌入式数据库
RocksDB(一种嵌入式Key-value存储系统),该数据库能够充分利用闪存的性能,大大提升应用服务器的速度. Facebook用RocksDB来驱动一些面向用户的应用,这些应用由于需要通过网络访问外部存储而性能低下,此外Facebook还用RocksDB来解决固态硬盘IO利用率不高相关的一些问题.
- 外刊IT评论
在OSCON的第三天,来自Facebook的James Pearce带来了一场主题演讲,我也有幸在场. Pearce解释了Facebook为何大规模开源其软件. 他告诉我们,Facebook每个月都会发布数个开源项目,并且有数百个工程师会持续地支持这些项目——他们参与全世界的各个开源社区,改进软件的体验.
- dylan - ITeye资讯频道
Facebook是全球首屈一指的社交网络平台,该网站采用了很多开源软件,Facebook采用的编程语言包括:Java, Ruby, PHP, Python, Objective-C. 下面是Facebook正在使用或者贡献的开源软件详细列表和介绍:. Apache Cassandra是一套开源分布式Key-Value存储系统.
- 幻幽 or A書 - cnBeta.COM
美国科技博客BusinessInsider近日对红帽CEO吉姆?怀特赫斯特(Jim Whitehurst)进行了采访,怀特赫斯特称,如今开源应用几乎无处不在,科技公司、银行和股票交易所等都是使用. 没有开源,谷歌和Facebook根本不可能继续存在.
- 博客 - 伯乐在线
自从 Facebook 的第一行PHP代码,第一句 MySQL 的 INSERT 语句,开源就已经是我们工程哲学中的一个重要的部分. 现在,我们使用、维护并为大量的主要项目做出了贡献——涉及多种领域如手机工具、大数据系统、客户端的web库、后端的运行库和基础架构,也涉及到开放计算项目,服务器和存储硬件.
来自Facebook的开源分布式查询引擎. Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析. 它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions). 下图中展现了简化的Presto系统架构.
- CSDN博客推荐文章
本文来源于我在InfoQ中文站翻译的文章,原文地址是:http://www.infoq.com/cn/news/2016/01/facebook-open-source-projects. Facebook坚信开源的力量. 当社区集合起来编写代码时,其好处是不可估量的. 有人能指出问题所在,同时解决方案也会很快跟进.
- heiyeluren的blog(黑夜路人的开源世界)
比深度学习快几个数量级,详解Facebook最新开源工具——fastText. 导读:Facebook声称fastText比其他学习方法要快得多,能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”,特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟. Facebook FAIR实验室在最新博客中宣布将开源资料库fastText,声称相比深度模型,fastText能将训练时间由数天缩短到几秒钟.
--> 坚持分享优质有趣的原创文章,并保留作者信息和版权声明,任何问题请联系:itarea.。巨头竞相押宝人工智能,下一个十年该看谁?
  苹果、谷歌还有Facebook都在投资人工智能,它们的计划是什么?还有哪些重量级玩家?
  很难确切地说人工智能(AI)究竟会沿着哪条路继续往下走,但是随着像Google、Facebook以及谷歌大举进军该领域,还有霍金(Stephen Hawking)与Elon Musk一直在呼吁对AI研究进行规范与监控,有关它的话题绝必将持续激烈地争论下去。
  本文中我们将对目前投资人工智能领域的几大巨头进行介绍:
  Facebook
  据消息称,Facebook正在使用人工智能技术帮助盲人通过ios手机应用看&看见&照片里的内容。通过使用神经网络,Facebook开发的应用可以对每张照片生成一个描述,如:&有三名女性正拿着香槟笑&。
  另外,据报道Facebook也使用人工智能技术来建立详细的人口密度地图并且替全球提供互联网接入服务。这应该能帮助Facebook将互联网带到世界上那些还没有网络接入的地方,为了实现这个Facebook已经分析了20个国家和2.16亿平方千米土地&&总计350TB的数据。
  Facebook另外还创立了深度学习人工智能来寻找对于Facebook用户来说什么最重要。对于人工智能领域来说Facebook绝对不是新玩家。在2010年Facebook就发布了面部识别技术,它能在发布照片中识别出人,2013年Mark Zuckerberg建立了专门的AI实验室&&Facebook FAIR RESEARCH。为了建立该实验室,Zuckerberg招募了深度学习大牛、纽约大学教授Yann Lecun来进行组建。之后Facebook陆续开源了一系列的工具以及资料库,包括Torch、Chef、fastText等。举例来说,Torch是一个有大量机器学习算法支持的科学计算框架,其诞生已经有十年之久,但是真正起势得益于Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了编程语言Lua(该语言曾被用来开发视频游戏)。另外,Facebook声称fastText比其他学习方法要快得多,能够训练模型&在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇&,特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟。
  Facebook称对于其对于人工智能方面的计划是实现对每个用户的个性化推荐,在用户间线上推荐他们真正关心、感兴趣的,而不是那些他们并不像看到的内容。
责编:陶宗瑶(实习生)
环球时报系产品
扫描关注环球网官方微信
扫描关注 这里是美国微信公众号
扫描关注更多环球微信公众号PaperWeekly 第五期------从Word2Vec到FastTexta year ago184收藏分享举报文章被以下专栏收录欢迎关注同名微信公众号:PaperWeekly{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[{&sourceColumn&:{&lastUpdated&:,&description&:&PaperWeekly是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。&,&permission&:&COLUMN_PUBLIC&,&memberId&:113930,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&欢迎关注同名微信公众号:PaperWeekly&,&urlToken&:&paperweekly&,&id&:15418,&imagePath&:&v2-8ae80aa47b414fc5dcce.jpg&,&slug&:&paperweekly&,&applyReason&:&0&,&name&:&PaperWeekly&,&title&:&PaperWeekly&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fpaperweekly&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:12092,&avatar&:{&id&:&v2-8ae80aa47b414fc5dcce&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-8ae80aa47b414fc5dcce_l.jpg&,&articlesCount&:228},&state&:&accepted&,&targetPost&:{&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002Fded3556dca46e452ac525a5b7beecf3c_r.jpg&,&lastUpdated&:,&imagePath&:&ded3556dca46e452ac525a5b7beecf3c.png&,&permission&:&ARTICLE_PUBLIC&,&topics&:[,3084],&summary&:&引Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从R…&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T12:49:32+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:1171544,&withContent&:false,&slug&:,&bigTitleImage&:false,&title&:&PaperWeekly 第五期------从Word2Vec到FastText&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:15418,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&https:\u002F\u002Fpic3.zhimg.com\u002Fded3556dca46e452ac525a5b7beecf3c_r.jpg&,&author&:{&bio&:&微信公众号PaperWeekly&,&isFollowing&:false,&hash&:&23dc6eb1f8f&,&uid&:20,&isOrg&:false,&slug&:&zhang-jun-87-61&,&isFollowed&:false,&description&:&厚积薄发&,&name&:&张俊&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhang-jun-87-61&,&avatar&:{&id&:&a4a0b508f7b0ecbd6ed744&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:113930,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:432687}],&title&:&PaperWeekly 第五期------从Word2Vec到FastText&,&author&:&zhang-jun-87-61&,&content&:&\u003Ch1\u003E引\u003C\u002Fh1\u003E\u003Cp\u003EWord2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再到最近流行的FastText都与他息息相关。一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发,本期的PaperWeekly将会分享其中三篇代表作,分别是:\u003C\u002Fp\u003E\u003Cp\u003E1、Efficient Estimation of Word Representation in Vector Space, Cbr\u003E2、Distributed Representations of Sentences and Documents, Cbr\u003E3、Enriching Word Vectors with Subword Information, C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fpdf\u002F.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EEfficient Estimation of Word Representation in Vector Space\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Ch2\u003E作者\u003C\u002Fh2\u003E\u003Cp\u003ETomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean\u003C\u002Fp\u003E\u003Ch2\u003E单位\u003C\u002Fh2\u003E\u003Cp\u003EGoogle Inc., Mountain View, CA\u003C\u002Fp\u003E\u003Ch2\u003E关键词\u003C\u002Fh2\u003E\u003Cp\u003EWord Representation, Word Embedding, Neural Network, Syntactic Similarity, and Semantic Similarity\u003C\u002Fp\u003E\u003Ch2\u003E来源\u003C\u002Fh2\u003E\u003Cp\u003EarXiv, 3C\u002Fp\u003E\u003Ch2\u003E问题\u003C\u002Fh2\u003E\u003Cp\u003E如何在一个大型数据集上快速、准确地学习出词表示?\u003C\u002Fp\u003E\u003Ch2\u003E模型\u003C\u002Fh2\u003E\u003Cp\u003E传统的NNLM模型包含四层,即输入层、映射层、隐含层和输出层,计算复杂度很大程度上依赖于映射层到隐含层之间的计算,而且需要指定上下文的长度。RNNLM模型被提出用来改进NNLM模型,去掉了映射层,只有输入层、隐含层和输出层,计算复杂度来源于上一层的隐含层到下一层隐含层之间的计算。\u003C\u002Fp\u003E\u003Cp\u003E本文提出的两个模型CBOW (Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model)结合了上面两个模型的特点,都是只有三层,即输入层、映射层和输出层。CBOW模型与NNLM模型类似,用上下文的词向量作为输入,映射层在所有的词间共享,输出层为一个分类器,目标是使当前词的概率最大。Skip-gram模型与CBOW的输入跟输出恰好相反,输入层为当前词向量,输出层是使得上下文的预测概率最大,如下图所示。训练采用SGD。\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002F3b66c499eaff3e04df65_b.jpg\& data-rawwidth=\&362\& data-rawheight=\&223\& class=\&content_image\& width=\&362\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='362'%20height='223'&&\u002Fsvg&\& data-rawwidth=\&362\& data-rawheight=\&223\& class=\&content_image lazy\& width=\&362\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002F3b66c499eaff3e04df65_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003C\u002Fp\u003E\u003Ch2\u003E资源\u003C\u002Fh2\u003E\u003Cp\u003ECode: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fcode.google.com\u002Farchive\u002Fp\u002Fword2vec\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EC++代码\u003C\u002Fa\u003E\u003Cbr\u003EDataset: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fsites.google.com\u002Fsite\u002Fsemeval2012task2\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ESemEval-C\u002Fa\u003E,用来评估语义相关性。\u003C\u002Fp\u003E\u003Ch2\u003E相关工作\u003C\u002Fh2\u003E\u003Cp\u003EBengio[1]在2003年就提出了language model的思路,同样是三层(输入层,隐含层和输出层)用上下文的词向量来预测中间词,但是计算复杂度较高,对于较大的数据集运行效率低;实验中也发现将上下文的n-gram出现的频率结合进去会提高性能,这个优点体现在CBOW和Skip-gram模型的输出层中,用hierarchical softmax(with huffman trees)来计算词概率。\u003C\u002Fp\u003E\u003Ch2\u003E简评\u003C\u002Fh2\u003E\u003Cp\u003E本文的实验结果显示CBOW比NNLM在syntactic和semantic上的预测都要好,而Skip-gram在semantic上的性能要优于CBOW,但是其计算速度要低于CBOW。结果显示用较大的数据集和较少的epoch,可以取得较好的效果,并且在速度上有所提升。与LSI和LDA相比,word2vec利用了词的上下文,语义信息更加丰富。基于word2vec,出现了phrase2vec, sentence2vec和doc2vec,仿佛一下子进入了embedding的世界。NLP的这些思想也在用于recommendation等方面,并且与image结合,将image跟text之间进行转换。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.76\u002Farxiv.org\u002Fpdf\u002F.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EDistributed Representations of Sentences and Documents\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Ch2\u003E作者\u003C\u002Fh2\u003E\u003Cp\u003EQuoc V. Le, Tomas Mikolov\u003C\u002Fp\u003E\u003Ch2\u003E单位\u003C\u002Fh2\u003E\u003Cp\u003EGoogle Inc, Mountain View, CA\u003C\u002Fp\u003E\u003Ch2\u003E关键词\u003C\u002Fh2\u003E\u003Cp\u003Esentence representation\u003C\u002Fp\u003E\u003Ch2\u003E来源\u003C\u002Fh2\u003E\u003Cp\u003EICML C\u002Fp\u003E\u003Ch2\u003E问题\u003C\u002Fh2\u003E\u003Cp\u003E基于word2vec的思路,如何表示sentence和document?\u003C\u002Fp\u003E\u003Ch2\u003E模型\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fc6dac075c8ed2bb77bb1_b.jpg\& data-rawwidth=\&418\& data-rawheight=\&245\& class=\&content_image\& width=\&418\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='418'%20height='245'&&\u002Fsvg&\& data-rawwidth=\&418\& data-rawheight=\&245\& class=\&content_image lazy\& width=\&418\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fc6dac075c8ed2bb77bb1_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cbr\u003E利用one-hot的表示方法作为网络的输入,乘以词矩阵W,然后将得到的每个向量通过平均或者拼接的方法得到整个句子的表示,最后根据任务要求做一分类,而这过程中得到的W就是词向量矩阵,基本上还是word2vec的思路。\u003C\u002Fp\u003E\u003Cp\u003E接下来是段落的向量表示方法:\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Feff574ab1e41a0f8d3f0eb_b.jpg\& data-rawwidth=\&400\& data-rawheight=\&225\& class=\&content_image\& width=\&400\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='400'%20height='225'&&\u002Fsvg&\& data-rawwidth=\&400\& data-rawheight=\&225\& class=\&content_image lazy\& width=\&400\& data-actualsrc=\&https:\u002F\u002Fpic1.zhimg.com\u002Feff574ab1e41a0f8d3f0eb_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E依旧是相同的方法,只是在这里加上了一个段落矩阵,用以表示每个段落,当这些词输入第i个段落时,通过段落id就可以从这个矩阵中得到相对应的段落表示方法。需要说明的是,在相同的段落中,段落的表示是相同的。文中这样表示的动机就是段落矩阵D可以作为一个memory记住在词的context中遗失的东西,相当于增加了一个额外的信息。这样经过训练之后,我们的就得到了段落表示D,当然这个段落就可以是一段或者一篇文章。\u003C\u002Fp\u003E\u003Cp\u003E最后一种就是没有词序的段落向量表示方法:\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Facbc72d6d372_b.jpg\& data-rawwidth=\&400\& data-rawheight=\&261\& class=\&content_image\& width=\&400\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='400'%20height='261'&&\u002Fsvg&\& data-rawwidth=\&400\& data-rawheight=\&261\& class=\&content_image lazy\& width=\&400\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Facbc72d6d372_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Cbr\u003E从图中就可以感觉到这个方法明显和skip-gram非常相似,这里只是把重点放在了段落的表示中,通过段落的表示,来预测相应的context 词的表示。最后我们依然可以得到段落矩阵D,这样就可以对段落进行向量化表示了。但是输入起码是句子级别的表示,而输出则是词的向量表示,因此个人比较怀疑这种方法的合理性。\u003C\u002Fp\u003E\u003Ch2\u003E简评\u003C\u002Fh2\u003E\u003Cp\u003E这篇文章是word2vec的方法提出一年后提出的方法,因此本文并没有使用目前非常流行的word2vec的训练方法来训练词向量,而是利用word2vec的思路,提出了一种更加简单的网络结构来训练任意长度的文本表示方法。这样一方面好训练,另一方面减少了参数,避免模型过拟合。优点就是在训练paragraph vector的时候加入了一个paragraph matrix,这样在训练过程中保留了一部分段落或者文档信息。这点在目前看来也是有一定优势的。但是目前深度学习发展迅速,可以处理非常大的计算量,同时word2vec以及其变种被应用得非常普遍,因此该文章提出的方法思路大于模型,思路我们可以借鉴,模型就不具有优势了。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.80\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EEnriching Word Vectors with Subword Information\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Ch2\u003E作者\u003C\u002Fh2\u003E\u003Cp\u003EPiotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov\u003C\u002Fp\u003E\u003Ch2\u003E单位\u003C\u002Fh2\u003E\u003Cp\u003EFacebook AI Research\u003C\u002Fp\u003E\u003Ch2\u003E关键词\u003C\u002Fh2\u003E\u003Cp\u003EWord embedding, morphological, character n-gram\u003C\u002Fp\u003E\u003Ch2\u003E来源\u003C\u002Fh2\u003E\u003Cp\u003EarXiv, 3C\u002Fp\u003E\u003Ch2\u003E问题\u003C\u002Fh2\u003E\u003Cp\u003E如何解决word2vec方法中罕见词效果不佳的问题,以及如何提升词形态丰富语言的性能?\u003C\u002Fp\u003E\u003Ch2\u003E模型\u003C\u002Fh2\u003E\u003Cp\u003Eword2vec在词汇建模方面产生了巨大的贡献,然而其依赖于大量的文本数据进行学习,如果一个word出现次数较少那么学到的vector质量也不理想。针对这一问题作者提出使用subword信息来弥补这一问题,简单来说就是通过词缀的vector来表示词。比如unofficial是个低频词,其数据量不足以训练出高质量的vector,但是可以通过un+official这两个高频的词缀学习到不错的vector。\u003C\u002Fp\u003E\u003Cp\u003E方法上,本文沿用了word2vec的skip-gram模型,主要区别体现在特征上。word2vec使用word作为最基本的单位,即通过中心词预测其上下文中的其他词汇。而subword model使用字母n-gram作为单位,本文n取值为3~6。这样每个词汇就可以表示成一串字母n-gram,一个词的embedding表示为其所有n-gram的和。这样我们训练也从用中心词的embedding预测目标词,转变成用中心词的n-gram embedding预测目标词。\u003C\u002Fp\u003E\u003Cp\u003E实验分为三个部分,分别是(1)计算两个词之间的语义相似度,与人类标注的相似度进行相关性比较;(2)与word2vec一样的词类比实验;(3)与其他考虑morphology的方法比较。结果是本文方法在语言形态丰富的语言(土耳其语,法语等)及小数据集上表现优异,与预期一致。\u003C\u002Fp\u003E\u003Ch2\u003E资源\u003C\u002Fh2\u003E\u003Cp\u003E源码公布在Facebook的fastText项目中:\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EGitHub - facebookresearch\u002FfastText: Library for fast text representation and classification.\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Ch2\u003E相关工作\u003C\u002Fh2\u003E\u003Cp\u003E利用语言形态学来改进nlp的研究源远流长,本文提及的许多关于character-level和morphology的有趣工作值得参考。\u003C\u002Fp\u003E\u003Ch2\u003E简评\u003C\u002Fh2\u003E\u003Cp\u003E文章中提出的思路对于morphologically rich languages(例如土耳其语,词缀的使用极为普遍而有趣)来说十分有意义。词缀作为字母与单词之间的中层单位,本身具有一定的语义信息。通过充分利用这种中层语义来表征罕见词汇,直观上讲思路十分合理,也是应用了compositionality的思想。\u003C\u002Fp\u003E\u003Cp\u003E利用形态学改进word embedding的工作十分丰富,但中文NLP似乎很难利用这一思路。其实个人感觉中文中也有类似于词缀的单位,比如偏旁部首等等,只不过不像使用字母系统的语言那样容易处理。期待今后也有闪光的工作出现在中文环境中。\u003C\u002Fp\u003E\u003Ch1\u003E总结\u003C\u002Fh1\u003E\u003Cp\u003E从Word2Vec到FastText,从word representation到sentence classification,Tomas Mikolov的工作影响了很多人。虽然有个别模型和实验结果曾遭受质疑,但终究瑕不掩瑜。word2vec对NLP的研究起到了极大地推动作用,其实不仅仅是在NLP领域中,在其他很多领域中都可以看到word2vec的思想和作用,也正是从word2vec开始,这个世界变得都被vector化了,person2vec,sentence2vec,paragraph2vec,anything2vec,world2vec。\u003C\u002Fp\u003E\u003Cp\u003E以上为本期Paperweekly的主要内容,感谢memray、zhkun、gcyydxf、jell四位同学的整理。\u003C\u002Fp\u003E\u003Ch1\u003E广告时间\u003C\u002Fh1\u003E\u003Cp\u003EPaperWeekly是一个分享知识和交流学问的民间组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。\u003C\u002Fp\u003E\u003Cp\u003E微信公众号:PaperWeekly\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fweixin.qq.com\u002Fr\u002FOUW0rA3ExVC6rUnP9xAr\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eweixin.qq.com\u002Fr\u002FOUW0rA3\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003EExVC6rUnP9xAr\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E (二维码自动识别)\u003C\u002Fp\u003E微博账号:PaperWeekly(\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fweibo.com\u002Fu\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EPaperWeekly的微博\u003C\u002Fa\u003E )\u003Cbr\u003E知乎专栏:PaperWeekly(\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fpaperweekly\& class=\&internal\&\u003EPaperWeekly - 知乎专栏\u003C\u002Fa\u003E )\u003Cbr\u003E微信交流群:微信+ zhangjun168305(请备注:加群 or 加入paperweekly)&,&updated&:new Date(&T04:49:32.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:16,&collapsedCount&:0,&likeCount&:184,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002Fded3556dca46e452ac525a5b7beecf3c_r.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&自然语言处理&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&深度学习(Deep Learning)&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&机器学习&}],&adminClosedComment&:false,&titleImageSize&:{&width&:500,&height&:302},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&column&:{&slug&:&paperweekly&,&name&:&PaperWeekly&},&tipjarState&:&inactivated&,&annotationAction&:[],&sourceUrl&:&&,&pageCommentsCount&:16,&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T12:49:32+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:&更大的世界 然后更安分的自己&,&isFollowing&:false,&hash&:&cdaee7b63d5cd&,&uid&:64,&isOrg&:false,&slug&:&zhangguangyi&,&isFollowed&:false,&description&:&&,&name&:&张广怡&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhangguangyi&,&avatar&:{&id&:&edb96c3d7&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&&,&isFollowing&:false,&hash&:&58fe4b2c3913&,&uid&:84,&isOrg&:false,&slug&:&accuser-the&,&isFollowed&:false,&description&:&&,&name&:&Blingbling&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Faccuser-the&,&avatar&:{&id&:&b506e96dd&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&&,&isFollowing&:false,&hash&:&202db3dc45ddb2b56e2efc&,&uid&:40,&isOrg&:false,&slug&:&charon____&,&isFollowed&:false,&description&:&&,&name&:&一只沉默的辣鸡&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fcharon____&,&avatar&:{&id&:&v2-d9c6ee1dae58&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&mfc&,&isFollowing&:false,&hash&:&d8e23c33ac8bc9c73abe1e4c1f616a7e&,&uid&:00,&isOrg&:false,&slug&:&wei-yuan-88-25&,&isFollowed&:false,&description&:&&,&name&:&Sunnyuanovo&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fwei-yuan-88-25&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&NLP&,&isFollowing&:false,&hash&:&45afc265a554&,&uid&:40,&isOrg&:false,&slug&:&sunsj&,&isFollowed&:false,&description&:&&,&name&:&StJay&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fsunsj&,&avatar&:{&id&:&394ff8a95&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&引Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从R…&,&reviewingCommentsCount&:0,&meta&:{&previous&:{&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic4.zhimg.com\u002F50\u002Fea9f4fe15a56fe56e26e98d_xl.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&自然语言处理&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&深度学习(Deep Learning)&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&机器学习&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&微信公众号PaperWeekly&,&isFollowing&:false,&hash&:&23dc6eb1f8f&,&uid&:20,&isOrg&:false,&slug&:&zhang-jun-87-61&,&isFollowed&:false,&description&:&厚积薄发&,&name&:&张俊&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhang-jun-87-61&,&avatar&:{&id&:&a4a0b508f7b0ecbd6ed744&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&paperweekly&,&name&:&PaperWeekly&},&content&:&\u003Cp\u003E本周(-)质量较高的arXiv cs.CL的paper如下:\u003Cbr\u003E(点击标题可看原文)\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EConvolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-level\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E张潼老师的文章,通过实验对比了shallow word-level CNN(本文工作)和deep char-level CNN模型在而文本分类任务上的表现,结论是本文工作又快又准。\u003C\u002Fp\u003E\u003Cp\u003E(这篇文章对于选择char-level还是word-level做文本分类非常有指导意义)\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ESkipping Word: A Character-Sequential Representation based Framework for Question Answering\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文用char-level CNN模型来做句子表示,然后进行question和answer之间的相关匹配学习,CIKM2016 short paper accepted。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EEnd-to-End Reinforcement Learning of Dialogue Agents for Information Access\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文是微软研究软邓力老师的文章,构建了一种从知识图谱中形成response的聊天机器人KB-InfoBot,并且提出了一种端到端的增强学习训练方案。\u003C\u002Fp\u003E\u003Cp\u003E(本文对于构建一个端到端的KB + task-oriented chatbot非常有启发和指导意义)\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EJoint Online Spoken Language Understanding and Language Modeling with Recurrent Neural Networks\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出一种模型,将intent detection、slot filling和language modeling融合在一起进行学习,用于解决对话系统中的SLU task。本文是SIGDIAL 2016 paper。\u003C\u002Fp\u003E\u003Cp\u003E用到的数据集在Dropbox有一份\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Ft.cn\u002FRcbcpfl\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003Ecopy\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EAttention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E和上一篇paper是同一个作者,解决的是同一个问题。将RNN换成了attention-based RNN,被另外一个会议录取。(有点灌水的意思)\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.77\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EAsk the GRU: Multi-task Learning for Deep Text Recommendations\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出了用端到端的解决方案来做paper的推荐任务,用GRU将文本序列(标题、摘要等)encode到一个latent vector中。并且通过多任务学习来完成内容推荐和条目预测两个task,取得了不错的效果。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E以下内容为arXiv外的优质内容:\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.matthen.com\u002Fresearch\u002Fpapers\u002FDiscriminative_Methods_for_Statistical_Spoken_Dialogue_Systems_Matthew_Henderson_PhD_Thesis.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EDiscriminative Methods for Statistical Spoken Dialogue Systems\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E剑桥大学Spoken Dialogue System组毕业的Matthew Henderson博士,师从于Steve Young教授,研究领域是对话系统中的Dialogue State Tracking,主要特色是用transfer learning来解决discriminative model的扩展性和通用性。\u003C\u002Fp\u003E\u003Cp\u003E如果你对chatbot感兴趣,强烈建议好好研读一下这篇博士论文。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fcs.stanford.edu\u002Fpeople\u002Fkarpathy\u002Fmain.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECONNECTING IMAGES AND NATURAL LANGUAGE\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E斯坦福大学Feifei Li的博士生Andrej Karpathy的PhD thesis,Karpathy维护着几个非常流行的开源代码库,并且有着一个影响力非常大的博客。名师出高徒,这篇博士博士论文值得一看!\u003C\u002Fp\u003E\u003Cp\u003E最近,他更新了一篇博客,谈论了一些自己对读博的思考和建议。 \u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fkarpathy.github.io\u002F\u002F07\u002Fphd\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EA Survival Guide to a PhD\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fpan.baidu.com\u002Fshare\u002Flink%3Fshareid%3Duk%3D\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EMendeley Docs\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003Epaper越看越多,一个优秀的paper管理工具就变得非常必要了,Mendeley是其中最优秀的代表之一。\u003C\u002Fp\u003E\u003Cp\u003EEasily organize your papers, read & annotate your PDFs, collaborate in private or open groups, and securely access your research from everywhere.\u003C\u002Fp\u003E\u003Ch1\u003E广告时间\u003C\u002Fh1\u003E\u003Cp\u003EPaperWeekly是一个分享知识和交流学问的民间组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。\u003C\u002Fp\u003E\u003Cp\u003E微信公众号:PaperWeekly\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fweixin.qq.com\u002Fr\u002FOUW0rA3ExVC6rUnP9xAr\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eweixin.qq.com\u002Fr\u002FOUW0rA3\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003EExVC6rUnP9xAr\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E (二维码自动识别)\u003C\u002Fp\u003E\u003Cp\u003E微博账号:PaperWeekly(\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fweibo.com\u002Fu\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EPaperWeekly的微博\u003C\u002Fa\u003E )\u003Cbr\u003E知乎专栏:PaperWeekly(\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fpaperweekly\& class=\&internal\&\u003EPaperWeekly - 知乎专栏\u003C\u002Fa\u003E )\u003Cbr\u003E微信交流群:微信+ zhangjun168305(请备注:加群 or 加入paperweekly)\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T13:06:12+08:00&,&url&:&\u002Fp\u002F&,&title&:&cs.CL weekly -&,&summary&:&本周(-)质量较高的arXiv cs.CL的paper如下: (点击标题可看原文)\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EConvolutional Neural Networks for Text Categorization: Shallow Word-level vs. Deep Character-level\u003C\u002Fa\u003E张潼老师的文章,通过实验对比了shallow word-level CNN(本…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:0,&likesCount&:14},&next&:{&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic4.zhimg.com\u002F50\u002Fea9f4fe15a56fe56e26e98d_xl.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&自然语言&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&深度学习(Deep Learning)&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&机器学习&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&微信公众号PaperWeekly&,&isFollowing&:false,&hash&:&23dc6eb1f8f&,&uid&:20,&isOrg&:false,&slug&:&zhang-jun-87-61&,&isFollowed&:false,&description&:&厚积薄发&,&name&:&张俊&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhang-jun-87-61&,&avatar&:{&id&:&a4a0b508f7b0ecbd6ed744&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&paperweekly&,&name&:&PaperWeekly&},&content&:&\u003Cp\u003E本周(-)质量较高的arXiv cs.CL的paper如下:\u003Cbr\u003E(点击标题可看原文)\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.75\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EDialogue manager domain adaptation using Gaussian process reinforcement learning\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文是Steve Young组的一篇大作,文中详细介绍了Gaussian process reinforcement learning框架的思路和优势,并且在多个对话领域中进行了实验并得到更好的结果。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EA Hierarchical Model of Reviews for Aspect-based Sentiment Analysis\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出用分层双向LSTM模型对网站评论数据进行观点挖掘,发表在EMNLP 2016。该作者今天在arxiv上提交了三篇同类问题不同解决方案的paper,对评论观点和情感挖掘的童鞋可作参考。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EKnowledge as a Teacher: Knowledge-Guided Structural Attention Networks\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出了用先验知识+attention network的模型,用来解决了自然语言理解存在问题:通过从少量训练数据中捕获重要子结构,来缓解测试集中的unseen data问题,同时提高理解能力。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv2.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EWav2Letter: an End-to-End ConvNet-based Speech Recognition System\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出了一种语音识别的端到端模型,基于CNN和graph decoding,在不依赖因素对齐的前提下,输出letters。本文工作来自Facebook AI。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EMultimodal Attention for Neural Machine Translation\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文通过利用image caption的多模态、多语言数据构建了一个NMT模型,模型的输入不仅是source language,还有所描述的图像,输出是target language。通过输入更多的信息,得到了更好的效果。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EJoint Extraction of Events and Entities within a Document Context\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文针对传统信息抽取方法将event和entity分开考虑的问题,提出了在docuemnt-level context下考虑event和entity之间关系进行信息抽取的新方法,取得了非常好的结果。本文发表在NAACL2016.\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.75\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECharacter-Level Language Modeling with Hierarchical Recurrent Neural Networks\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E语言模型问题上,char-level可以很好地解决OOV的问题,但效果不如word-level,本文针对该问题提出了一种分层模型,同时兼顾word-level和char-level的优势。本文发表在nips2016。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ENeural Machine Translation with Supervised Attention\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003Eattention机制可以动态地对齐source和target words,但准确率不如传统方法。本文提出了用传统方法作为teacher,来“教”model学习alignment,模型称为supervised attention。本文已投稿COLING2016,在审。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.76\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EEfficient softmax approximation for GPUs\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文提出了一种高效的softmax近似方法,并且可以方便地进行并行计算。本文称之为adaptive softmax,根据词分布进行聚类,极大地提高了计算效率并保证了不错的准确率。本文工作来自Facebook AI Research。\u003C\u002Fp\u003E\u003Cp\u003E在自然语言生成任务中常常面临word vocabulary size太大的困境,softmax的效率非常低,本文给出了一种快速计算的方法。Tomas Mikolov之前也提到过类似的思路。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECharacterizing the Language of Online Communities and its Relation to Community Reception\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E本文研究了在线社区语言的style和topic哪个更具代表性,这里style用复合语言模型来表示,topic用LDA来表示,通过Reddit Forum实验得到style比topic更有代表性。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.79\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EFactored Neural Machine Translation\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E针对机器翻译领域中两个常见的问题:1、目标语言词汇表过大;2、OOV问题;利用了单词的词形和语法分解,提出了一种新的NMT模型,并取得了满意的效果。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.78\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EContext Aware Nonnegative Matrix Factorization Clustering\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003E大多数paper都在研究NMF在聚类中的初始化和优化部分,而本文关注的点在于最后的聚类分配上。本文被 ICPR 2016全文收录。\u003C\u002Fp\u003E\u003Cp\u003E以下内容为arXiv外的优质内容:\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.sigdial.org\u002Fworkshops\u002Fconference17\u002Fproceedings\u002FSIGDIAL-2016.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ESIGDIAL 2016 Accepted Paper\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003ESIGdial是ACL下面的一个关于对话系统地特别兴趣小组,每年开一次会。今年的会议最近正在开,会议录用的所有paper都已经放出。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fspeech.sv.cmu.edu\u002Fsoftware.html\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECMU SPEECH Team Homepage\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003ECMU SPEECH Team的主页,包括他们的开源软件Yoda和publication及其开源实现。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.reddit.com\u002Fr\u002FMachineLearning\u002Fcomments\u002F4zcyvk\u002Fmachine_learning_wayr_what_are_you_reading_week_6\u002F%3Fst%3DISZ6YT6D%26sh%3D02bd0722\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EMachine Learning - WAYR (What Are You Reading)\u003C\u002Fa\u003E\u003C\u002Fh1\u003E\u003Cp\u003Ereddit上的这个帖子很有意思,和paperweekly想做的一个事情非常像,就是可以让读类似或者同一篇paper的童鞋得到充分交流。\u003C\u002Fp\u003E\u003Ch1\u003E广告时间\u003C\u002Fh1\u003E\u003Cp\u003EPaperWeekly是一个分享知识和交流学问的民间组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。\u003C\u002Fp\u003E\u003Cp\u003E微信公众号:PaperWeekly\u003Cbr\u003E微博账号:PaperWeekly(\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fweibo.com\u002Fu\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EPaperWeekly的微博\u003C\u002Fa\u003E )每天都会分享当天arXiv cs.CL板块刷新的高质量paper\u003Cbr\u003E知乎专栏:PaperWeekly(\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fpaperweekly\& class=\&internal\&\u003EPaperWeekly - 知乎专栏\u003C\u002Fa\u003E )\u003Cbr\u003E微信交流群:微信+ zhangjun168305(请备注:加群 or 加入paperweekly)\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T08:28:05+08:00&,&url&:&\u002Fp\u002F&,&title&:&cs.CL weekly -&,&summary&:&本周(-)质量较高的arXiv cs.CL的paper如下: (点击标题可看原文)\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002F120.52.73.75\u002Farxiv.org\u002Fpdf\u002Fv1.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EDialogue manager domain adaptation using Gaussian process reinforcement learning\u003C\u002Fa\u003E本文是Steve Young组的一篇大作,文中详细介绍了Gaussian process reinforcemen…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:1,&likesCount&:12}},&annotationDetail&:null,&commentsCount&:16,&likesCount&:184,&FULLINFO&:true}},&User&:{&zhang-jun-87-61&:{&isFollowed&:false,&name&:&张俊&,&headline&:&厚积薄发&,&avatarUrl&:&https:\u002F\u002Fpic1.zhimg.com\u002Fa4a0b508f7b0ecbd6ed744_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&zhang-jun-87-61&,&bio&:&微信公众号PaperWeekly&,&hash&:&23dc6eb1f8f&,&uid&:20,&isOrg&:false,&description&:&厚积薄发&,&badge&:{&identity&:null,&bestAnswerer&:null},&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhang-jun-87-61&,&avatar&:{&id&:&a4a0b508f7b0ecbd6ed744&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&androidPassThroughPush&:&all&,&sEI&:&c&,&nwebQAGrowth&:&experiment&,&qawebRelatedReadingsContentControl&:&close&,&liveStore&:&ls_a2_b2_c1_f2&,&qawebThumbnailAbtest&:&new&,&nwebSearch&:&nweb_search_heifetz&,&rt&:&y&,&showVideoUploadAttention&:&true&,&isOffice&:&false&,&enableTtsPlay&:&post&,&newLiveFeedMediacard&:&new&,&newMobileAppHeader&:&true&,&hybridZhmoreVideo&:&yes&,&nwebGrowthPeople&:&default&,&nwebSearchSuggest&:&default&,&qrcodeLogin&:&qrcode&,&enableVoteDownReasonMenu&:&enable&,&isf8&:&0&,&isShowUnicomFreeEntry&:&unicom_free_entry_off&,&newMobileColumnAppheader&:&new_header&,&androidDbRecommendAction&:&open&,&zcmLighting&:&zcm&,&androidDbFeedHashTagStyle&:&button&,&appStoreRateDialog&:&close&,&default&:&None&,&isNewNotiPanel&:&no&,&adR&:&b&,&wechatShareModal&:&wechat_share_modal_show&,&growthBanner&:&default&,&androidProfilePanel&:&panel_b&}},&columns&:{&next&:{},&paperweekly&:{&following&:false,&canManage&:false,&href&:&\u002Fapi\u002Fcolumns\u002Fpaperweekly&,&name&:&PaperWeekly&,&creator&:{&slug&:&zhang-jun-87-61&},&url&:&\u002Fpaperweekly&,&slug&:&paperweekly&,&avatar&:{&id&:&v2-8ae80aa47b414fc5dcce&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&}}},&columnPosts&:{},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&switches&:{&couldSetPoster&:false},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{&baidu&:false,&yidianzixun&:false,&qqnews&:false},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false,&userAgent&:{&ua&:&Mozilla\u002F5.0 (compatible, MSIE 11, Windows NT 6.3; Trident\u002F7.0; rv:11.0) like Gecko&,&browser&:{&name&:&IE&,&version&:&11&,&major&:&11&},&engine&:{&version&:&7.0&,&name&:&Trident&},&os&:{&name&:&Windows&,&version&:&8.1&},&device&:{},&cpu&:{}}},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}

我要回帖

更多关于 fasttext python 的文章

 

随机推荐