楼主: keisuo
1444 0

[数据挖掘理论与案例] 大数据到底怎么学:数据科学概论与大数据学习误区 [推广有奖]

  • 0关注
  • 1粉丝

高中生

95%

还不是VIP/贵宾

-

威望
0
论坛币
261 个
通用积分
0.0600
学术水平
10 点
热心指数
17 点
信用等级
0 点
经验
442 点
帖子
19
精华
0
在线时间
19 小时
注册时间
2009-9-16
最后登录
2020-2-14

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

“数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle

最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么,到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考。

1.大数据应用的目标是普适智能

要学好大数据,首先要明确大数据应用的目标,我曾经讲过大数据就好比万金油,像百度几年前提的框计算,这个框什么都能往里装。为什么会这样,因为大数据这个框太大,其终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化,最终走向普适的人机智能融合!

这不仅是传统信息化管理的扩展延伸,也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。从而提高人们对事物的理解和决策处置能力,最终实现社会的普适智能。不管是商业智能,机器智能,人工智能,还是智能客服,智能问答,智能推荐,智慧医疗、智慧交通等相关技术和系统,其本质都是朝着这一目标在演进。随着云计算平台和大数据技术的高速发展,获得大数据基础设施建设相关技术和支持越来越容易。同时,移动互联网和物联网技术所具备的全面数据采集能力,客观上促进了大数据的积累和爆发。

图1 国外大数据企业关系图,传统信息技术企业也在向智能化发展,与新兴大数据企业互为竞争和支持。

2.从大数据版图看数据科学及其关键技术体系

明确大数据应用目标之后,我们再看看数据科学(Data Science),数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计算等。图灵奖得主Jim Gray把数据科学喻为科学的“第四范式”(经验、理论、计算和数据驱动),并断言因为信息技术的影响和数据的泛滥增长,未来不管什么领域的科学问题都将由数据所驱动。

图2 典型的数据科学过程:包括原始数据采集,数据预处理和清洗,数据探索式分析,数据计算建模,数据可视化和报表,数据产品和决策支持等。

传统信息化技术多是在结构化和小规模数据上进行计算处理,大数据时代呢,数据变大了,数据多源异构了,需要智能预测和分析支持了,所以核心技术离不开机器学习、数据挖掘、人工智能等,另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理,所以数据的大规模增长客观上促进了DT(Data Technology)技术生态的繁荣与发展,包括大数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。

图3 国外和国内中关村大数据产业版图(包括数据、技术、应用、企业等)

上述大数据版图基本涵盖了国外大数据相关技术和产业链(国内中关村版的大数据技术和企业还是太少,多是传统信息技术企业在凑数),从大数据源,开源技术框架,大数据基础设施建设,大数据核心的计算挖掘分析,大数据行业应用等方面进行了相关技术、产品和企业的展示。大数据产业链从数据源〉开源技术〉基础设施〉分析计算〉行业应用到产品落地,每个链条环节和下辖的细分内容都涉及大量数据分析技术。不管是学习技术还是开发产品,分析和理解这个大数据产业版图都十分必要。

这是学习大数据首先要搞清楚的问题:

(1)机器学习(machine learning)

首先我们说说机器学习,为什么先说它,因为机器学习是大数据处理承上启下的关键技术,机器学习往上是深度学习、人工智能,机器学习往下是数据挖掘和统计学习。机器学习属于计算机和统计学交叉学科,核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能,机器学习领域包括很多种类的智能处理算法,分类、聚类、回归、相关分析等每类下面都有很多算法进行支撑,如SVM,神经网络,Logistic回归,决策树、EM、HMM、贝叶斯网络、随机森林、LDA等,无论是网络排名的十大算法还是二十大算法,都只能说是冰山一角,随着深度学习核心技术的突破性发展,机器学习算法得以高速扩张;总之大数据处理要智能化,机器学习是核心的核心,深度学习、数据挖掘、商业智能、人工智能,大数据等概念的核心技术就是机器学习,机器学习用于图像处理和识别就是机器视觉,机器学习用于模拟人类语言就是自然语言处理,机器视觉和自然语言处理也是支撑人工智能的核心技术,机器学习用于通用的数据分析就是数据挖掘。深度学习(deep learning)是机器学习里面现在比较火的一个子领域,属于原来人工神经网络算法的一系列变种,由于在大数据条件下图像,语音识别等领域的学习效果显著,有望成为人工智能取得突破的关键性技术,所以各大研究机构和IT巨头们都对其投入了极大的关注。

(2)数据挖掘(data mining)

数据挖掘可以说是机器学习的一个超集,是一个较为宽泛的概念,类似于采矿,要从大量矿石里面挖出宝石,从海量数据里面挖掘有价值有规律的信息同理。数据挖掘核心技术来自于机器学习领域,如深度学习是机器学习中一类比较火的算法,当然也可以用于数据挖掘。还有传统的商业智能(BI)领域也包括数据挖掘,OLAP多维数据分析可以做挖掘分析,甚至Excel基本的统计分析也可以做挖掘。关键是你的技术能否真正挖掘出有用的信息,然后这些信息可以指导决策。数据挖掘的提法比机器学习要早,应用范围要广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为大数据处理提供相关模型和算法,而模型和算法是大数据处理的关键,探索式交互式分析、可视化分析、数据的采集存储和管理等都较少用到学习模型。

(3)人工智能(artifical intelligence)

AI和大数据是相互促进的关系,一方面,AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法,如近几年的深度学习一系列技术(强化学习、对抗学习等)和方法;另一方面,大数据为AI的发展提供了新的动力和燃料,数据规模大了之后,传统机器学习算法面临挑战,要做并行化、要加速要改进。AI的终极目标是机器智能化拟人化,机器能完成和人一样的工作,人脑仅凭几十瓦的功率,能够处理种种复杂的问题,怎样看都是很神奇的事情。虽然机器的计算能力比人类强很多,但人类的理解能力,感性的推断,记忆和幻想,心理学等方面的功能,机器是难以比肩的,所以机器要拟人化很难单从技术角度把人工智能讲清楚。人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功,比如谷歌自动识别一只猫,谷歌的AlpaGo还击败了人类顶级的专业围棋手等。但深度学习在现阶段还不能实现类脑计算,最多达到仿生层面,情感,记忆,认知,经验等人类独有能力机器在短期难以达到。

图4 数据科学的技术维度

3.大数据盲人摸象:如何构建完整的知识结构和分析能力

从数字化、信息化、网络化到未来的智能化时代,移动互联网、物联网、云计算、大数据、人工智能等前沿信息技术领域,逐个火了一遍。也代表了信息技术发展的大趋势,什么是大数据,大数据的技术范畴及其逻辑关系,估计很多人都是根据自己所熟悉的领域在盲人摸象(如图5)。

图5 大数据盲人摸象

所以怎么从点到面,构建大数据领域完整的知识结构和分析能力至关重要,某方面的技术和语言只是工具而已。

图6 大数据技术栈与学习路线参考图

4.大数据要怎么学:数据科学特点与大数据学习误区

(1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。

大数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,还是商业决策问题,抑或是政府管理问题。

所以学习之前要明确问题,理解问题,所谓问题导向、目标导向,这个明确之后再研究和选择合适的技术加以应用,这样才有针对性,言必hadoop,spark的大数据分析是不严谨的。

不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模,随时间变化数据流需要序列建模,图像音频和视频多是时空混合建模;大数据处理如采集需要爬虫、倒入导出和预处理等支持,存储需要分布式云存储、云计算资源管理等支持,计算需要分类、预测、描述等模型支持,应用需要可视化、知识库、决策评价等支持。所以是业务决定技术,而不是根据技术来考虑业务,这是大数据学习要避免的第一个误区。

(2)大数据学习要善用开源,不要重复造轮子:数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨头拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。

数据科学的标配语言R和Python更是因开源而生,因开源而繁荣,诺基亚因没把握开源大势而衰落。为什么要开源,这得益于IT发展的工业化和构件化,各大领域的基础技术栈和工具库已经很成熟,下一阶段就是怎么快速组合、快速搭积木、快速产出的问题,不管是linux,anroid还是tensorflow,其基础构件库基本就是利用已有开源库,结合新的技术方法实现,组合构建而成,很少在重复造轮子。

另外,开源这种众包开发模式,是一种集体智慧编程的体现,一个公司无法积聚全球工程师的开发智力,而一个GitHub上的明星开源项目可以,所以要善用开源和集体智慧编程,而不要重复造轮子,这是大数据学习要避免的第二个误区。

(3)大数据学习要以点带面,不贪大求全:数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析,我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。

我们的精力很有限,短时间内很难掌握多个领域的大数据理论和技术,数据科学要把握好碎片化和系统性的关系。

何为碎片化,这个碎片化包括业务层面和技术层面,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数据,高铁设备的运行状态数据,交通部门的监控数据,医疗机构的病例数据,政府部门的海量数据等等,大数据的业务场景和分析目标是碎片化的,而且相互之间分析目标的差异很大;另外,技术层面来讲,大数据技术就是万金油,一切服务于数据分析和决策的技术都属于这个范畴,其技术体系也是碎片化的。

那怎么把握系统性呢,不同领域的大数据应用有其共性关键技术,其系统技术架构也有相通的地方,如系统的高度可扩展性,能进行横向数据大规模扩张,纵向业务大规模扩展,高容错性和多源异构环境的支持,对原有系统的兼容和集成等等,每个大数据系统都应该考虑上述问题。如何把握大数据的碎片化学习和系统性设计,离不开前面提出的两点误区,建议从应用切入、以点带面,先从一个实际的应用领域需求出发,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展逐步理解其系统性技术。

(4)大数据学习要勇于实践,不要纸上谈兵:数据科学还是数据工程?

大数据只有和特定领域的应用结合起来才能产生价值,数据科学还是数据工程是大数据学习要明确的关键问题,搞学术发paper数据科学OK,但要大数据应用落地,如果把数据科学成果转化为数据工程进行落地应用,难度很大,这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程,从业人员自身也是需要审视思考的。

工业界包括政府管理机构如何引入研究智力,数据分析如何转化和价值变现?数据科学研究人员和企业大数据系统开发工程人员都得想想这些关键问题。

目前数据工程要解决的关键问题主线是数据(Data)>知识(Knowledge)>服务(Service),数据采集和管理,挖掘分析获取知识,知识规律进行决策支持和应用转化为持续服务。解决好这三个问题,才算大数据应用落地,

所以,大数据学习一定要清楚我是在做数据科学还是数据工程,各需要哪些方面的技术能力,现在处于哪一个阶段等,不然为了技术而技术,是难以学好和用好大数据的。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据学习 数据科学 大数据 怎么学 Data Science

已有 1 人评分论坛币 收起 理由
飞天玄舞6 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 05:37