楼主: ReneeBK
787 7

【博文精选】Which Encoding is the Best for Text Classification in Chinese [推广有奖]

  • 1关注
  • 62粉丝

VIP

学术权威

14%

还不是VIP/贵宾

-

TA的文库  其他...

R资源总汇

Panel Data Analysis

Experimental Design

威望
1
论坛币
49422 个
通用积分
52.2304
学术水平
370 点
热心指数
273 点
信用等级
335 点
经验
57815 点
帖子
4006
精华
21
在线时间
582 小时
注册时间
2005-5-8
最后登录
2023-11-26

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要: 对于所有的编码层面,我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。对于卷积网络,我们使用字符字形(character glyph)图像、one-hot(或 one-of-n)编码和嵌入方法比较了不同的编 ...

本帖隐藏的内容

Which Encoding Is The Best For Text Classification In Chinese, English, Japanese.pdf (1.72 MB)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Chinese Coding cation ATION Which

沙发
MouJack007 发表于 2017-8-28 04:53:09 |只看作者 |坛友微信交流群
谢谢楼主分享!
已有 1 人评分论坛币 收起 理由
Nicolle + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

藤椅
MouJack007 发表于 2017-8-28 04:53:25 |只看作者 |坛友微信交流群

使用道具

板凳
钱学森64 发表于 2017-8-28 08:33:14 |只看作者 |坛友微信交流群
谢谢分享

使用道具

报纸
军旗飞扬 发表于 2017-8-28 08:47:12 |只看作者 |坛友微信交流群
谢谢楼主分享!

使用道具

地板
oliyiyi 发表于 2017-8-30 17:17:04 来自手机 |只看作者 |坛友微信交流群
ReneeBK 发表于 2017-8-28 04:12
摘要: 对于所有的编码层面,我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。 ...
谢谢分享

使用道具

7
rayren 发表于 2017-8-31 14:03:36 |只看作者 |坛友微信交流群
转AI科技评论对这篇文章的报道

在这篇论文中,他们通过473种模型的对比,最终得出了一系列极有价值的结论。AI 科技评论对这篇论文也有较为深度的解读。 详情可阅读:Yann LeCun新作:473种模型大对比,中日韩文本分类到底要用哪种编码?

随后AI科技评论联系到了论文第一作者,纽约大学博士生张翔,并就此项工作对他进行了采访。据了解,目前张翔的主要研究方向是基于卷积网络的文本表征学习,包括文本的表达和生成。

背景介绍

当机器学习对自然语言进行学习和训练时,如何表示文本(文本编码)将是首先遇到的最基本的问题。

这需要考虑两点,首先从哪个级别进行编码,是byte级别,还是character级别,或者word级别等,不同的级别编码对模型的依赖是不一样的;其次是采用哪种机制进行编码,是通过字符的字形进行编码,还是采用独热编码,或者嵌入编码,编码机制也将影响深度学习模型的效果。



更关键的是,CJK语言(汉语、韩语、日语等语言)与英语这样的字母语言有很大的不同。对英语进行字符级编码可能比较有效,但将这种编码方式用到CJK语言中可能会导致模型的体量很大。Yann LeCun和张翔的研究工作正是基于这种考虑进行的。

选题差点被LeCun否掉

张翔告诉AI科技评论,这项工作大约开始于一年半以前。当时,张翔向他的导师Yann LeCun教授提出希望做这样的一个课题,即通过抓取数据,对不同的文本表示方式进行一个相对公平的评测,评测方式为自然语言处理任务中较为简单、有明确输出评测的文本分类。

刚开始,LeCun教授并不十分看好这项研究,因为这似乎是一个工程多于学术思维的课题。张翔向AI科技评论回忆道,“但当我跟导师说到中日韩语言和西方语言的不同特点,以及当前自然语言处理的模型并不能够以一种统一的方式来处理所有不同的语言时,我们意识到,其实真正有意思的是,不同语言的文本是否能够用一种统一的方式输入到神经网络里面,使得像分词这样的自然语言处理的预先处理最小化。”

在这篇论文里,这些不同的文本输入方式被称作不同的编码方式(Encoding Mechanism)。之前学界对于到底哪种编码方式更好并没有一个统一的意见,也缺乏较为全面的横向比较,不同的学者只选择其中一种或多种方式来验证自己的模型。于是,鉴于统一多语言模型并非一个显而易见的事情,张翔与LeCun开始了这项研究。

在课题的意义明确之后,接下来的工作就是写代码来进行数据抓取和模型训练了。据AI科技评论了解,最初这个项目大概花了4个月的时间进行数据抓取,共获得横跨4种语言(英、汉、日、韩语)和8个网站(大众点评、京东、Rakuten、11st、Amazon、凤凰网、中国日报、NYnews)的数亿条的文本数据。这些数据经过一定的去重和长度控制之后,构成了这篇论文中提到的大规模文本分类数据集(共14个,具体可参考解读文章)。这些数据源每个都要比最终数据集大几个数量级。这种对于数据大规模的抓取和处理其实是非常锻炼一个人的工程能力的。

张翔向AI科技评论表示:“在这个课题的整个研究过程中,LeCun教授一直定期与我进行交流和指导,还特别介绍了fastText发明人Joulin一起探讨不同模型所具有的优势和劣势。我认为,每一次这样的交流都能够学到很多有用的知识。”

在大约一年多的时间里面,张翔和Yann LeCun大概使用了几十块GPU对不同的模型进行训练,最终得到了473个模型的结果。通过对比发现,字节级独热编码(byte-level one-hot encoding)是卷积网络最好的编码方式。这样的结果离不开字节独热(one-hot)编码的易用性,从而使得卷积网络能够在性能和计算量之间取得较好的平衡。同时,基于字节的输入方式彻底不再需要对文本进行预处理,能够很方便地应用到不同的语言中去。

目前这篇文章的工作已经结束,但由于数据和代码体量较大,张翔目前还在对数据进行进一步的整理,随后会连同大部分数据集一起发布。为了保证实验的可重复性,他们还将对于论文中出现的每一个数据点提供能够重复其结果的命令行脚本。

不过张翔对AI科技评论表示,这项工作虽然实验量大,但远远没有覆盖到所有可能的模型和编码方式。在未来,对于循环(Recurrent)神经网络和卷积网络不同设计方法的探索,也都是可能的研究方向。

“现在的科研新想法层出不穷,但到头来还是需要公平的比较和清晰的结果才能说明问题。”这是张翔在论文发表在arXiv后,在朋友圈中所说的一段话,也许从某种层面上正表达了他的治学想法。

使用道具

8
soccy 发表于 2017-8-31 18:55:13 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-27 10:33