发帖

楼主: 数据分析闯天下

1661 1

[其他] 【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi [推广有奖]

0关注
66粉丝

教授

55%

还不是VIP/贵宾

-

0%

威望: 1 级
论坛币: 13016 个
通用积分: 66.3922
学术水平: 26 点
热心指数: 25 点
信用等级: 15 点
经验: 8663 点
帖子: 617
精华: 0
在线时间: 170 小时
注册时间: 2016-12-6
最后登录: 2017-4-8

楼主

数据分析闯天下

发表于 2016-12-30 16:46:42 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi

自然语言处理（Nature Language Process）是一个非常让人着迷的领域，应用范围非常广泛，比如去年人机大战中大出风头的IBM Watson，iPhone 4S的语音助理模块Siri，以及针对于社会热点的舆情分析，这些应用都使用了自然语言处理技术。当然，统计背景的分析类科研人员更关注于舆情分析这类的文本挖掘技术。
很多统计软件都提供了文本挖掘的功能，比如常见的数据分析软件SAS、SPSS等，以及一些语言如Python、Java，侧重点有所不同。但对于一般文本挖掘主要包括：
Preprocess：数据准备、导入、清洗以及一般性的预处理
Associate：关联分析，根据同时出现的频率找出关联规则
Cluster：将相似的文档（词条）进行聚类
Categorize：将文本划分到预先定义的类别里
API：可扩展的应用编程接口
至少在2008年，商业和开源软件的功能特性差不多（但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模型是否支持），只是由于众所周知的缘故，对于API的扩展支持有所差异。
对于中文环境下的文本挖掘，无外乎要解决如下几个问题：
较为精确的中文分词（可能还需要支持个性化题库，甚至词性分析）
生成词条-文档矩阵，甚至矩阵的运算
后续的挖掘算法支撑（传统的以及语义类的）
其他
在R语言环境下，有众多的包支撑解决上述问题。 Ingo Feinerer开发维护的tm包提供了完整的文本挖掘的框架，借助辅助工具及R包，甚至还可以处理word、pdf文档的读入，文档处理并行化运算，文件数据库的语料处理等问题。
闲话不多说，最下面链接给出了一份基于《Introduction to the tm Package》整理的，基于tm包的中文文本挖掘的介绍性文档，内容包含
互联网网页处理：XML包的简介
中文分词
tm包的完整介绍：读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等
文本挖掘技术及应用等

Text-Mining-in-R.zip (254.72 KB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：电子书免费数据分析文本挖掘 mobi 免费下载数据分析电子书 R语言_文本挖掘利器pdf R语言_文本挖掘利器下载 R语言_文本挖掘利器mobi 数据分析

[其他] 【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[其他] 【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群