人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › NLPIR文本智能语义系统文本数据挖掘“神器”

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 2794994234

847 0

[原创博文] NLPIR文本智能语义系统文本数据挖掘“神器” [推广有奖]

1关注
1粉丝

禁止发言

硕士生

49%

还不是VIP/贵宾

威望: 0 级
论坛币: 21 个
通用积分: 0
学术水平: 0 点
热心指数: 3 点
信用等级: 0 点
经验: 2129 点
帖子: 78
精华: 0
在线时间: 51 小时
注册时间: 2016-5-18
最后登录: 2019-1-4

2794994234 发表于 2018-3-6 16:11:51 |显示全部楼层 |坛友微信交流群

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

　　随着Internet上文档信息的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术。数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。

　　近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。

　　数据存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力. 当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘. 事实上,最近研究表明公司信息有80 %包含在文本文档中。

　　(1) 文本分类：按照预先定义的主题类别,为文档集合中的每个文档确定一个类别. 这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷.

　　(2) 文本聚类：聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。

　　(3) 文本结构分析：其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式. 最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。

　　(4) Web 文本数据挖掘：在Web 迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而知识相对匮乏. 据估计,Web已经发展成为拥有3 亿个页面的分布式信息空间,而且这个数字仍以每4～6 个月翻1 倍的速度增加. 在这些大量、异质的Web 信息资源中,蕴含着具有巨大潜在价值的知识. 人们迫切需要能够从Web 上快速、有效的发现资源和知识的工具。

　　NLPIR文本智能语义平台是针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。主要专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。

　　NLPIR能够全方位多角度满足应用者对大数据文本的处理需求，包括大数据完整的技术链条：网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

关键词：文本数据数据挖掘 NLP Internet Intern

[原创博文] NLPIR文本智能语义系统文本数据挖掘“神器” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[原创博文] NLPIR文本智能语义系统文本数据挖掘“神器” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群