请选择 进入手机版 | 继续访问电脑版
楼主: littlelianglian
11520 58

大数据分析的流程浅析之二:大数据整理过程分析   [推广有奖]

贵宾

学术权威

72%

还不是VIP/贵宾

-

威望
3
论坛币
497776 个
通用积分
9293.7569
学术水平
355 点
热心指数
303 点
信用等级
328 点
经验
105005 点
帖子
3169
精华
16
在线时间
3268 小时
注册时间
2013-9-4
最后登录
2023-12-23

一级伯乐勋章 初级学术勋章 初级信用勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。在小数据时代,数据整理包括数据的清洗、数据转换、归类编码和数字编码等过程,其中数据清洗占据最重要的位置,就是检查数据一致性,处理无效值和缺失值等操作。在大数据时代,这些工作被弱化了,在有些大数据的算法和应用中,基本不再进行数据清洗了,因为大数据的多样化使得其数据。有一定的不精确性。但数据转换和编码过程还是需要的。下面以大数据分析中文本分类的例子,来分析大数据整理的过程。


在本例中,以mahout为大数据分析软件,文本分类算法选用朴素贝叶斯算法(new bayes),分类对象是来自不同类别的新闻数据。


当我们使用网页爬虫,每小时源源不断的从多个不同类别的新闻网站上取得数据时,取得的这些数据都是文本数据,也就是非结构化数据,这些数据是不需要进行数据清洗过程,但它们在进入到mahout实现的朴素贝叶斯算法时,需要进行必要的数据转换。该转换主要分两个步骤:


1.数据系列化

由于取得的大量的文本数据集中,每个新闻占一个文档,共有无数个小的文件,由于Mahout运行在HadoopHDFS上,HDFS是为大文件设计的。如果我们把这些无穷多个小文件都拷贝上去,这样是非常不合适。试想:假设对1000万篇新闻进行分类,难道要拷贝1000w个文件么?这样会使HDFS中运行name node节点的终端崩溃掉。


因此,Mahout采用SequenceFile作为其基本的数据交换格式。其思路是:通过调用mahout内置的解析器,扫描所有目录和文件,并把每个文件都转成单行文本,以目录名开头,跟着是文档出现的所有单词,这样就把无穷多个小文件,转换成一个系列化的大文件。然后把这个大文件,再上传到HDFS上,就可以充分发挥HDFS分布式文件系统的优势。当然,这个转换过程由mahout的内置工具完成,而大数据分析师这个时候只需要把所有的新闻按文件夹分好类放置好,同时运行mahout内置的解析器命令就可以了。



2.文本内容向量化

简单地说就是把文本内容中的每个单词(去除一些连接词后)转换成数据,复杂地说就是进行向量空间模型化(VSM)。该过程使每个单词都有一个编号,这个编号是就它在文档向量所拥有的维度。这个工作在mahout中实现时,大数据分析师也只需要执行其中的一个命令,就可以轻松地实现文本内容的向量化。


有了这些被向量化的数据,再通过mahout的朴素贝叶斯算法,我们就可以对计算机训练出一套规则,根据这个规则,机器就可以对后续收集的新闻数据进行自动的分类了。


从上述文本分类的大数据整理过程可以看出,大数据时代的数据整理过程不再强调数据的精确性,而强调的是对非结构化数据的数量化。当然,不同的大数据分析应用使用的算法也不一样,其数据整理过程也不太一样,但从总体上看,大数据分析的数据整理区别于小数据时代的精确性,而变得更粗放一些。

人大经济论坛

大数据中心


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据分析 数据整理 数据分析 大数据 sequence 中文 清洗 软件

已有 7 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
kongqingbao280 + 3 奖励积极上传好的资料
daazx + 10 + 3 精彩帖子
reduce_fat + 82 + 3 + 4 + 3 奖励积极上传好的资料
狂热的爱好者 + 5 精彩帖子
zouguangyong + 100 + 3 精彩帖子
zl89 + 40 精彩帖子
kp2010forever + 1 + 1 + 1 精彩帖子

总评分: 经验 + 222  论坛币 + 10  学术水平 + 7  热心指数 + 16  信用等级 + 4   查看全部评分

本帖被以下文库推荐




CDA数据分析交流群 217748971
在大数据时代,不懂大数据怎么行?  CDA大数据分析培训:https://bbs.pinggu.org/thread-3516762-1-1.html 欢迎咨询
已有 1 人评分热心指数 收起 理由
狂热的爱好者 + 3 精彩帖子

总评分: 热心指数 + 3   查看全部评分

使用道具

青菜木 发表于 2015-5-14 11:38:39 |显示全部楼层 |坛友微信交流群
大数据分析的流程浅析系列文章,很精彩

使用道具

非常好的一篇文章,数据收集 整理  接下来是不是就是 大数据分析了

使用道具

小粗腿or大粗腿 发表于 2015-5-14 11:40
非常好的一篇文章,数据收集 整理  接下来是不是就是 大数据分析了
嗯,下周推出大数据分析的流程浅析第三篇

使用道具

https://bbs.pinggu.org/thread-3701681-1-1.html大数据分析的流程浅析之一:大数据采集过程分析

使用道具

sunlinxmu 发表于 2015-5-14 13:56:53 |显示全部楼层 |坛友微信交流群
Good!!

使用道具

davidness 发表于 2015-5-14 14:01:33 |显示全部楼层 |坛友微信交流群
不错,每周一期是不是有点儿慢了

使用道具

郭大禹 发表于 2015-5-14 15:15:42 |显示全部楼层 |坛友微信交流群
还真的是浅谈。。。。。找几篇相关论文看下得了  

使用道具

xiaodao99 发表于 2015-5-14 19:29:18 |显示全部楼层 |坛友微信交流群
学习了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 02:35