【博文精选】Which Encoding is the Best for Text Classification in Chinese

1关注
62粉丝

VIP

已卖：4901份资源

学术权威

14%

还不是VIP/贵宾

-

TA的文库 其他...

R资源总汇

Panel Data Analysis

Experimental Design

0%

威望: 1 级
论坛币: 49675 个
通用积分: 56.2487
学术水平: 370 点
热心指数: 273 点
信用等级: 335 点
经验: 57805 点
帖子: 4005
精华: 21
在线时间: 582 小时
注册时间: 2005-5-8
最后登录: 2023-11-26

楼主

ReneeBK 发表于 2017-8-28 04:12:57 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

摘要: 对于所有的编码层面，我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。对于卷积网络，我们使用字符字形（character glyph）图像、one-hot（或 one-of-n）编码和嵌入方法比较了不同的编 ...

本帖隐藏的内容

Which Encoding Is The Best For Text Classification In Chinese, English, Japanese.pdf (1.72 MB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Chinese Coding cation ATION Which

相关帖子

沙发

MouJack007 发表于 2017-8-28 04:53:09

谢谢楼主分享！

已有 1 人评分	论坛币	收起理由
Nicolle	+ 20	鼓励积极发帖讨论

总评分: 论坛币 + 20 查看全部评分

藤椅

MouJack007 发表于 2017-8-28 04:53:25

板凳

钱学森64 发表于 2017-8-28 08:33:14

谢谢分享

报纸

军旗飞扬

发表于 2017-8-28 08:47:12

谢谢楼主分享！

地板

oliyiyi 发表于 2017-8-30 17:17:04 来自手机

ReneeBK 发表于 2017-8-28 04:12
摘要: 对于所有的编码层面，我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。 ...

谢谢分享

7楼

rayren 发表于 2017-8-31 14:03:36

转AI科技评论对这篇文章的报道

在这篇论文中，他们通过473种模型的对比，最终得出了一系列极有价值的结论。AI 科技评论对这篇论文也有较为深度的解读。详情可阅读：Yann LeCun新作：473种模型大对比，中日韩文本分类到底要用哪种编码？

随后AI科技评论联系到了论文第一作者，纽约大学博士生张翔，并就此项工作对他进行了采访。据了解，目前张翔的主要研究方向是基于卷积网络的文本表征学习，包括文本的表达和生成。

背景介绍

当机器学习对自然语言进行学习和训练时，如何表示文本（文本编码）将是首先遇到的最基本的问题。

这需要考虑两点，首先从哪个级别进行编码，是byte级别，还是character级别，或者word级别等，不同的级别编码对模型的依赖是不一样的；其次是采用哪种机制进行编码，是通过字符的字形进行编码，还是采用独热编码，或者嵌入编码，编码机制也将影响深度学习模型的效果。

更关键的是，CJK语言（汉语、韩语、日语等语言）与英语这样的字母语言有很大的不同。对英语进行字符级编码可能比较有效，但将这种编码方式用到CJK语言中可能会导致模型的体量很大。Yann LeCun和张翔的研究工作正是基于这种考虑进行的。

选题差点被LeCun否掉

张翔告诉AI科技评论，这项工作大约开始于一年半以前。当时，张翔向他的导师Yann LeCun教授提出希望做这样的一个课题，即通过抓取数据，对不同的文本表示方式进行一个相对公平的评测，评测方式为自然语言处理任务中较为简单、有明确输出评测的文本分类。

刚开始，LeCun教授并不十分看好这项研究，因为这似乎是一个工程多于学术思维的课题。张翔向AI科技评论回忆道，“但当我跟导师说到中日韩语言和西方语言的不同特点，以及当前自然语言处理的模型并不能够以一种统一的方式来处理所有不同的语言时，我们意识到，其实真正有意思的是，不同语言的文本是否能够用一种统一的方式输入到神经网络里面，使得像分词这样的自然语言处理的预先处理最小化。”

在这篇论文里，这些不同的文本输入方式被称作不同的编码方式（Encoding Mechanism）。之前学界对于到底哪种编码方式更好并没有一个统一的意见，也缺乏较为全面的横向比较，不同的学者只选择其中一种或多种方式来验证自己的模型。于是，鉴于统一多语言模型并非一个显而易见的事情，张翔与LeCun开始了这项研究。

在课题的意义明确之后，接下来的工作就是写代码来进行数据抓取和模型训练了。据AI科技评论了解，最初这个项目大概花了4个月的时间进行数据抓取，共获得横跨4种语言（英、汉、日、韩语）和8个网站（大众点评、京东、Rakuten、11st、Amazon、凤凰网、中国日报、NYnews）的数亿条的文本数据。这些数据经过一定的去重和长度控制之后，构成了这篇论文中提到的大规模文本分类数据集（共14个，具体可参考解读文章）。这些数据源每个都要比最终数据集大几个数量级。这种对于数据大规模的抓取和处理其实是非常锻炼一个人的工程能力的。

张翔向AI科技评论表示：“在这个课题的整个研究过程中，LeCun教授一直定期与我进行交流和指导，还特别介绍了fastText发明人Joulin一起探讨不同模型所具有的优势和劣势。我认为，每一次这样的交流都能够学到很多有用的知识。”

在大约一年多的时间里面，张翔和Yann LeCun大概使用了几十块GPU对不同的模型进行训练，最终得到了473个模型的结果。通过对比发现，字节级独热编码（byte-level one-hot encoding）是卷积网络最好的编码方式。这样的结果离不开字节独热（one-hot）编码的易用性，从而使得卷积网络能够在性能和计算量之间取得较好的平衡。同时，基于字节的输入方式彻底不再需要对文本进行预处理，能够很方便地应用到不同的语言中去。

目前这篇文章的工作已经结束，但由于数据和代码体量较大，张翔目前还在对数据进行进一步的整理，随后会连同大部分数据集一起发布。为了保证实验的可重复性，他们还将对于论文中出现的每一个数据点提供能够重复其结果的命令行脚本。

不过张翔对AI科技评论表示，这项工作虽然实验量大，但远远没有覆盖到所有可能的模型和编码方式。在未来，对于循环（Recurrent）神经网络和卷积网络不同设计方法的探索，也都是可能的研究方向。

“现在的科研新想法层出不穷，但到头来还是需要公平的比较和清晰的结果才能说明问题。”这是张翔在论文发表在arXiv后，在朋友圈中所说的一段话，也许从某种层面上正表达了他的治学想法。

8楼

soccy 发表于 2017-8-31 18:55:13

【博文精选】Which Encoding is the Best for Text Classification in Chinese [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

本帖隐藏的内容

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级学术勋章

初级热心勋章

初级信用勋章

中级信用勋章

中级学术勋章

中级热心勋章

高级热心勋章

高级学术勋章

高级信用勋章

特级热心勋章

特级学术勋章

特级信用勋章

本版微信群

【博文精选】Which Encoding is the Best for Text Classification in Chinese [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

本帖隐藏的内容

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级学术勋章

初级热心勋章

初级信用勋章

中级信用勋章

中级学术勋章

中级热心勋章

高级热心勋章

高级学术勋章

高级信用勋章

特级热心勋章

特级学术勋章

特级信用勋章

本版微信群

扫码加我拉你入群