【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi

【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi

发布:数据分析闯天下 | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

【数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi自然语言处理(NatureLanguageProcess)是一个非常让人着迷的领域,应用范围非常广泛,比如去年人机大战中大出风头的IBMWatson,iPhone4S的语音助理模块S ...
免费学术公开课,扫码加入


数据分析电子书免费下载】R语言_文本挖掘利器pdf_下载_mobi
自然语言处理(Nature Language Process)是一个非常让人着迷的领域,应用范围非常广泛,比如去年人机大战中大出风头的IBM Watson,iPhone 4S的语音助理模块Siri,以及针对于社会热点的舆情分析,这些应用都使用了自然语言处理技术。当然,统计背景的分析类科研人员更关注于舆情分析这类的文本挖掘技术。
很多统计软件都提供了文本挖掘的功能,比如常见的数据分析软件SAS、SPSS等,以及一些语言如Python、Java,侧重点有所不同。但对于一般文本挖掘主要包括:
Preprocess:数据准备、导入、清洗以及一般性的预处理
Associate:关联分析,根据同时出现的频率找出关联规则
Cluster:将相似的文档(词条)进行聚类
Categorize:将文本划分到预先定义的类别里
API:可扩展的应用编程接口
至少在2008年,商业和开源软件的功能特性差不多(但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模型是否支持),只是由于众所周知的缘故,对于API的扩展支持有所差异。
对于中文环境下的文本挖掘,无外乎要解决如下几个问题:
较为精确的中文分词(可能还需要支持个性化题库,甚至词性分析)
生成词条-文档矩阵,甚至矩阵的运算
后续的挖掘算法支撑(传统的以及语义类的)
其他
在R语言环境下,有众多的包支撑解决上述问题。 Ingo Feinerer开发维护的tm包提供了完整的文本挖掘的框架,借助辅助工具及R包,甚至还可以处理word、pdf文档的读入,文档处理并行化运算,文件数据库的语料处理等问题。
闲话不多说,最下面链接给出了一份基于《Introduction to the tm Package》整理的,基于tm包的中文文本挖掘的介绍性文档,内容包含
互联网网页处理:XML包的简介
中文分词
tm包的完整介绍:读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等
文本挖掘技术及应用等
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-5037253-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版