发帖

楼主: 时光永痕

421 0

[数据挖掘新闻] 自然语言处理 (NLP) 简史 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）三级

44%

0%

威望: 0 级
论坛币: 26 个
通用积分: 49.7576
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 316 小时
注册时间: 2020-7-21
最后登录: 2024-4-24

楼主

时光永痕

发表于 2022-6-29 16:37:35 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1900 年代初，一位名叫费迪南德·德·索绪尔的瑞士语言学教授去世，在此过程中，几乎剥夺了世界“语言作为一门科学”的概念。从 1906 年到 1911 年，索绪尔教授在日内瓦大学开设了三门课程，在那里他开发了一种将语言描述为“系统”的方法。在语言中，声音代表一个概念——一个随着上下文变化而改变意义的概念。

他认为意义是在语言内部、在其各部分之间的关系和差异中创造出来的。索绪尔提出的“意义”是在语言的关系和对比中创造出来的。共享语言系统使交流成为可能。索绪尔将社会视为一个“共享”社会规范系统，为合理的“扩展”思维提供条件，从而导致个人做出决定和采取行动。（同样的观点也适用于现代计算机语言）。

索绪尔于 1913 年去世，但他的两位同事 Albert Sechehaye 和 Charles Bally 认识到他的概念的重要性。（想象一下，索绪尔死后几天，两人在巴利的办公室里喝咖啡，想知道如何让他的发现永远不会丢失）。两人采取了不同寻常的步骤，收集“他的手稿笔记”和他的学生在课程中的笔记。从这些，他们写了普通语言学课程，出版于 1916 年。这本书为后来被称为结构主义方法，从语言学开始，后来扩展到其他领域，包括计算机。

1950 年，艾伦·图灵（Alan Turing）写了一篇论文，描述了对“思考”机器的测试。他表示，如果一台机器可以通过使用电传打字机成为对话的一部分，并且它完全模仿人类没有明显差异，那么机器可以被认为具有思考能力。此后不久，在 1952 年，霍奇金-赫胥黎模型展示了大脑如何使用神经元形成电网络。这些事件有助于激发人工智能 (AI) 的想法，自然语言处理（NLP）和计算机的发展。

自然语言处理

自然语言处理 (NLP) 是人工智能帮助计算机理解、解释和利用人类语言。NLP 允许计算机使用人类语言与人交流。自然语言处理还为计算机提供了阅读文本、听到语音和解释它的能力。NLP 借鉴了多个学科，包括计算语言学和计算机科学，因为它试图缩小人类和计算机通信之间的差距。

通常来说，一般来说，NLP 崩溃了将语言分成更短、更基本的部分，称为代币（单词、句号等），并尝试理解标记的关系。这个过程通常使用更高级别的 NLP 功能，例如：

内容分类：包含内容警报、重复检测、搜索和索引的语言文档摘要。
主题发现和建模：捕获文本集合的主题和含义，并将高级分析应用于文本。
上下文提取：自动从基于文本的源中提取结构化数据。
情绪分析：识别存储在大量文本中的一般情绪或主观意见。对意见挖掘很有用。
文本到语音和语音到文本的转换：将语音命令转换为文本，反之亦然。
文档摘要：自动创建概要，压缩大量文本。
机器翻译：自动将一种语言的文本或语音翻译成另一种语言。
NLP 开始和结束

诺姆乔姆斯基出版了他的书，句法结构, 在 1957 年。在其中，他彻底改变了以前的语言概念，得出的结论是，要让计算机理解一种语言，就必须改变句子结构。以此为目标，乔姆斯基创建了一种称为阶段结构语法的语法风格，它有条不紊地将自然语言句子翻译成计算机可以使用的格式。（总体目标是创造一台能够在思考和交流或人工智能方面模仿人脑的计算机。）

1958年，编程语言LISP(Locator/Identifier Separation Protocol)，一种今天仍在使用的计算机语言，由 John McCarthy 发布。1964 年，伊丽莎，一种“打字的”评论和响应过程，旨在模仿精神科医生使用反射技术，发展了。（它通过重新排列句子并遵循相对简单的语法规则来做到这一点，但计算机方面没有理解。）同样在 1964 年，美国国家研究委员会 (NRC) 创建了自动语言处理咨询委员会，简称 ALPAC . 该委员会的任务是评估自然语言处理研究的进展。

1966 年，NRC 和 ALPAC 通过停止对自然语言处理和机器翻译研究的资助，启动了第一次 AI 和 NLP 停止。经过 12 年的研究和 2000 万美元，机器翻译仍然比人工翻译更昂贵，而且仍然没有计算机可以进行基本对话。1966 年，人工智能和自然语言处理 (NLP) 研究被许多人（尽管不是全部）认为是一条死胡同。

NLP 的回归

自然语言处理和人工智能研究从极端爱好者创造的破碎期望中恢复过来。在某些方面，人工智能的停止开启了一个新思想的新阶段，早期的机器翻译概念被抛弃，新思想促进了新研究，包括专家系统. 在早期 NLP 研究中流行的语言学和统计学的混合，被纯统计学的主题所取代。1980 年代开始了根本性的重新定位，简单的近似取代了深度分析，评估过程变得更加严格。

直到 1980 年代，大多数 NLP 系统都使用复杂的“手写”规则。但在 1980 年代后期，NLP 发生了一场革命。这是计算能力稳步提高和机器学习算法转变的结果。虽然一些早期的机器学习算法（决策树提供了一个很好的例子）产生了类似于老式手写规则的系统，但研究越来越集中在统计模型上。这些统计模型能够做出软的概率决策。在整个 1980 年代，IBM 负责开发了几个成功的、复杂的统计模型。

在 1990 年代，用于自然语言处理分析的统计模型的流行度急剧上升。纯统计 NLP 方法在跟上在线文本的巨大流量方面变得非常有价值。N-克已经变得有用，可以在数字上识别和跟踪语言数据块。1997 年，LSTM递归神经网络 (RNN) 模型被引入，并于 2007 年在语音和文本处理领域找到了自己的定位。目前，神经网络模型被认为是 NLP 理解文本和语音生成研究和开发的前沿。

2000年后

2001 年，Yoshio Bengio 和他的团队提出了第一个神经“语言”模型，使用前馈神经网络. 前馈神经网络描述了一种不使用连接来形成循环的人工神经网络。在这种类型的网络中，数据仅在一个方向上移动，从输入节点，通过任何隐藏节点，然后到输出节点。前馈神经网络没有循环或循环，与循环神经网络有很大不同。

2011 年，苹果公司西里被称为世界上第一个被普通消费者使用的成功的 NLP/AI 助手之一。在 Siri 中，自动语音识别模块将车主的话翻译成数字解释的概念。然后，语音命令系统将这些概念与预定义的命令相匹配，启动特定的操作。例如，如果 Siri 询问：“你想听听你的余额吗？” 它会理解“是”或“否”的响应，并采取相应的行动。

通过使用机器学习技术，所有者的说话模式不必与预定义的表达完全匹配。对于 NLP 系统来说，这些声音必须相当接近才能正确翻译含义。通过使用反馈循环，NLP 引擎可以显着提高其翻译的准确性，并增加系统的词汇量。一个训练有素的系统会理解这样的话，“我在哪里可以获得大数据的帮助？” “我在哪里可以找到大数据专家？”或“我需要大数据方面的帮助”，并提供适当的回应。

对话管理器与 NLP 的结合使得开发一个能够进行对话的系统成为可能，并且听起来像人类，具有来回的问题、提示和答案。然而，我们的现代人工智能仍然无法通过艾伦·图灵的测试，目前听起来不像真正的人类。（还没有，反正。）

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

职场问诊 | 大厂裁员，如何正确的面对这个危机？

大三信管专业的我，用一个月通关CDA Level Ⅰ、Level Ⅱ 和CDA持证人分享

数据科学和企业的数据能力建设

商业智能分析工具的应用

TI类数据产品设计

管理分析需求与绩效指标

PyTorch最全的损失函数汇总

数据分析最常用的excel函数公式大全

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：自然语言语言处理 NLP separation CDA LEVEL