祝楼主和所有朋友们新年快乐!
昨日阅读4小时,总计13.5小时
《大数据技术概论-从虚幻走向真实的数据世界》--娄岩---清华Press-2017.1
ch2. 大数据采集和预处理
系统日志采集方法:Hadoop的Chukwa(Java,针对Apache/Yahoo的日志),Cloudera的Flume(Java实现,可直接使用)、Facebook的Scribe(C/C++实现)
网络数据采集和处理的整体过程,包含四个主要模块:网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)、数据(data,含Site URL---需要抓取数据网站的URL信息、Spider Data--从网页中抽取出来的数据、和Dp Data即经过数据处理之后的数据)
其他数据采集方法
预处理:ETL(聚类、距离、分类、关联规则)
大数据采集及预处理的工具
1. Flume
http://flume.apache.org/
2. Logstash(一个应用程序日志、事件的传输、处理、管理和搜索的平台)提供Web接口用于查询和统计
http://www.logstash.net/
3. Kibana(一个为Logstash和ElasticSearch提供的日志分析的Web接口)提供对日志的高效搜索、可视化、分析等操作。一个开源和免费的工具。
http://kibana.org/
4. Ceilometer:负责监控数据的采集,是OpenStack的一个子项目,为计费和监控以及其他服务提供数据支持。
http://docs.openstack.org/
5. Zipkin (分布式跟踪系统)是Twitter的一个开源项目,允许开发者手机Twitter各个服务上的监控数据,提供查询接口。
http://twitter.github.io/ipkin/
6. Arachnid一个基于Java的网络爬虫框架,含一个简单的HTML剖析器,能够分析包含HTML的输入流。通过实现Arachnid的子类就能够开发一个简单的网络爬虫。
http://arachnid.sourceforge.net/
7. Crawlzilla(一个建立搜索引擎的自由软件,有Nutch专案为核心,并整合更多相关套件)除爬取基本的HTML外,还能分析网页上的文件,如Doc、pdf、ppt、ooo、rss等文件格式,使得搜索引擎不只是网页搜索引擎,而是网站的完整资料索引库。(拥有中文分词能力,搜索更精准)是一个易安装的搜索平台。
https://github.com/shunfa/crawlzilla 下载地址:
http://sourceforge.net/projects/crawlzilla/
8. 集搜客GooSeeker,国内一款大数据抓取软件。能抓取语义标签,可以进行多维度整合
9. 乐思网络信息采集系统
http://www.knowlesys.cn/index.html
主要用于大数据基础建设、舆情监测、品牌监测、价格监测、门户网站新闻采集、行业资讯采集、竞争情报获取、商业数据整合、市场研究、数据库营销等领域。
10. 火车采集器
http://www.locoy.com/
11. 狂人采集器
http://www.kuangren.cc/
12. 网络矿工:一款集互联网数据采集、清晰、存储、发布为一体的工具软件
http://www.minerspider.com/
ch3. 大数据分析概述(主要技术)----无什么实质内容
深度学习
在语音、图像、自然语言处理等领域取得了一系列重大进展。
知识计算
可视化
后面让人有收获的实质内容匮乏,仅泛泛而谈。