楼主: 胖胖小龟宝
2350 9

“数学之美”:统计语言模型 [推广有奖]

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793110 个
通用积分
21961.2355
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
978980 点
帖子
10001
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

    长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。

     其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。

     首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。

     给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。

     如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为: P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

     其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为: P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)

     接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)。


     也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。

     现在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数学之美 统计语言 Shannon Chomsky Google 统计语言 模型 机器学习

本帖被以下文库推荐

沙发
xiexiezhiwen 在职认证  发表于 2014-9-19 09:34:28 |只看作者 |坛友微信交流群
数学是美丽的

使用道具

藤椅
rebornxldeng 发表于 2014-9-19 09:36:55 |只看作者 |坛友微信交流群
恩...最美丽的语言确实是数学语言.
数学语言之美主要来自:
1.简洁之美
2.明确之美
3.结构之美
欢迎大家补充

使用道具

板凳
wangcl390 发表于 2014-9-19 10:52:25 |只看作者 |坛友微信交流群
数学语言是很美,但数学不简单啊

使用道具

报纸
rebornxldeng 发表于 2014-9-19 12:46:36 |只看作者 |坛友微信交流群
说简洁不是说它学起来简单.
而是用数学符号表达的逻辑关联非常清晰.
数学其实真没那么难.这里我不是用我们各种考试的难度来评价的.而是它本身的表达方式.

使用道具

地板
neversarah 发表于 2014-9-19 14:30:01 |只看作者 |坛友微信交流群
现在觉得做语义分析很难~
当然数学是美的

使用道具

7
run_psw 发表于 2014-9-19 15:48:48 |只看作者 |坛友微信交流群
rebornxldeng 发表于 2014-9-19 12:46
说简洁不是说它学起来简单.
而是用数学符号表达的逻辑关联非常清晰.
数学其实真没那么难.这里我不是用我们 ...
同意你的这种看法

使用道具

8
xucaifeng66 发表于 2014-9-19 22:36:31 |只看作者 |坛友微信交流群
看过一次,没怎么看懂

使用道具

9
xujingjun 发表于 2014-9-21 23:36:05 |只看作者 |坛友微信交流群

使用道具

10
wuya100 发表于 2014-11-12 10:10:53 |只看作者 |坛友微信交流群
谢谢分享!!!!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 06:01