楼主: 资料狂人
13543 23

[数据挖掘理论与案例] 【DM培训】2016年大数据工程师必备的9项技能 [推广有奖]

运营管理员

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
974757348 个
通用积分
41271.4847
学术水平
4617 点
热心指数
3402 点
信用等级
3620 点
经验
637285 点
帖子
9620
精华
140
在线时间
18243 小时
注册时间
2010-5-1
最后登录
2024-5-20

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

在大数据商品化之前, 利用大数据分析工具和技术来取得竞争优势已不再是秘密。2015年, 如果你还在职场上寻找大数据的相关工作, 那么, 这里介绍的9种技能,将帮助你得到一个工作机会。


Apache Hadoop

Hadoop现在已经进入第二个10年发展期了, 但不可否认的是, Hadoop在2014年出现了井喷式发展, 由于Hadoop从测试集群向生产和软件供应商方向不断转移, 其越来越接近于分布式存储和处理机架构, 因此, 这一势头在2015年会更加猛烈。由于大数据平台的强大, Hadoop可能是一个挑剔的怪兽, 它需要熟悉的技术人员细心的照顾和喂养。掌握Hadoop最核心技术 (例如, HDFS, MapReduce, Flume, Oozie, Hive, Pig, HBase, and YARN) 的技术人员在职场上的需求将越来越大。


Apache Spark

如果说Hadoop在大数据世界中已广为人知, 那么Spark就是一匹黑马, 它所蕴含的原始潜力使Hadoop黯然失色。无论是否是Hadoop架构, 快速崛起的内存计算技术被认为是MapReduce风格分析框架更快和更简洁的替代方案。Spark的定位应当是大数据技术族中重要的一个成员。Spark仍然需要专业技术进行编程和运行, 这为知晓该技术的工程师提供了不错的工作机会。


NoSQL

在大数据的操作层面, 诸如 MongoDB 和 Couchbase 等分布式、可扩展的 NoSQL 数据库正在接管市场份额极为庞大的的 SQL 数据库, 例如 Oracle 和 IBM DB2。在 WEB 和移动 app层面, NoSQL数据库常常被做为Hadoop分析的数据源。在大数据领域, Hadoop 和 NoSQL 分别成为良性循环的两个端点。


Machine Learning and Data Mining(机器学习和数据挖掘)

人们习惯于对收集的数据进行挖掘,但是, 在当今大数据的世界里, 数据挖掘已经达到了一个全新的高度。机器学习成为去年大数据技术最热门的领域之一, 2015年顺理成章地成为它的突破之年。大数据将会使那些能够利用机器学习技术去构建和训练像分类、推荐和个性化系统等预测分析应用程序的人成为职场宠儿, 取得就业市场上的薪金。


Statistical and Quantitative Analysis(统计和定量分析)

这就是大数据。如果你有定量推理背景和数学或统计学等方面的学位,那么你就成功了一半。此外,再加上一些使用统计工具经验,例如 R, SAS, Matlab, SPSS, 或者是 Stata, 你就能够锁定这些工作岗位啦。在过去,许多量化工程师都会选择在华尔街工作, 但由于大数据的快速发展, 现在各行各样都需要大量的具有定量分析背景的 极客。


SQL

以数据为中心的语言已有超过40年的历史了, 但是这种祖父级的语言在当前的大数据时代仍然具有生命力。尽管它难以应对大数据的挑战 (见上文NoSQL部分), 但是, 简化了的结构化语言使其在许多方面变得十分容易。


Data Visualization(数据可视化)

大数据可能不是那么容易理解, 但在某些情况下, 通过鲜活的数据吸引眼球仍然是不可替代的方法。你可以一直用多元或逻辑回归分析方法解析数据, 但是, 有时候使用类似 Tableau 或Qlikview 这样的可视化工具探索数据样本能够直观的告诉你所拥有的数据的形态, 甚至是发现那些能够改变你处理数据方法的一些隐蔽细节。当然,如果你长大后想成为数据艺术家, 那么, 精通一个甚至是更多的可视化工具就是必不可少的了。


General Purpose Programming Languages

在类似 Java, C, Python, 或 Scala 等通用语言中拥有编程应用经验能够使你相对于那些局限于分析技术的人更具有优势。根据 Wanted Analytics的统计, 招聘具有数据分析背景的“计算机编程”职位的数量增长了 337%。具有传统应用程序开发和新兴数据分析能力的人将会有极大的就业选择空间, 能够自由的在终端用户企业和大数据创业公司之间进行流动。


Creativity and Problem Solving(创造力和问题解决能力)

无论你在高级分析工具和技术方面有多大优势,自主思考能力仍然是无可替代 的。大数据处理工具会不可避免的进行演化发展,新技术会不断涌现并替代这里所列 出的技术。但是,如果你能出于本能的渴求新的知识,并且能够像猎犬一样发现问题 的解决方案,就会有大量的工作机会在等着你。

                                                                                                                  (来源:199IT网)


R语言数据挖掘现场班_通过案例掌握R数据挖掘

时间2016年11月25-28日 (四天)
地点:北京市海淀区首都体育学院

安排:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00
费用4500元 / 3600元 (仅限全日制本科生及硕士研究生优惠价);食宿自理

详情:https://bbs.pinggu.org/thread-3387488-1-1.html   

我要报名


优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

以上优惠不叠加。


报名流程:
1:点击“我要报名”,网上填写信息提交;
2:我们会根据您的报名信息给予电话反馈,确认报名信息;
3:网上缴费:http://baoming.pinggu.org/paycenter.aspx
4:开课前一周发送课程资料,软件准备及交通住宿指南。


联系方式:

魏老师

QQ:1143703950 点击这里给我发消息

Tel:010-68478566

Mail:vip@pinggu.org

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据工程师 数据工程 大数据 工程师 Quantitative 工程师 技能



沙发
资料狂人 在职认证  发表于 2015-5-13 08:43:41 |只看作者 |坛友微信交流群
大数据时代的精准数据挖掘——使用R语言


老师简介:

      Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学、统计和计算机功底强悍。

      曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果。

     Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数据分析。

     Gino老师先后使用过多种计算机语言或软件,最终选用R作为统计分析的利器,叹服其强大的统计计量功能,每日爱不释手,在R的使用上具有丰富的实战经验。

     他曾经在人大经济论坛多次应邀讲授R语言(基础和高级),将理论和实践很好地结合在一起,帮助广大学员掌握了软件、统计和计量原理和实践方法,好评如潮。


课程简介:

      本课程结合讲师的学习和工作经验,把R语言和数据挖掘的基本知识和重点难点很好的结合,注重学以致用,按照由深入浅的方式,层层推进使得学员拾阶而上的逐级掌握相关内容。

      课程内容涵盖了R语言和数据挖掘的精华,从大纲来看,无论是流行的数据挖掘方法,还是前沿的算法均有所涉及,课程中提供了大量丰富的案例,这些案例,集合了互联网、市场营销、金融保险等领域的数据挖掘实例,无疑对学习和工作有极大的参考和指导意义。


课程特色:

      1. 本课程尽量避开数学公式,按照“讲清思想方法原理—结合具体案例—R语言实现细节”思路,让即使是几乎没有什么基础的学员,掌握R语言数据挖掘的基本思路和模式,打下未来深入的良好基础,能在工作和学习中结合具体问题立马上手操作解决;

      2. 课程注重学练结合的方法,会采取小组讨论的方法,充分调动大家思考的积极性,在做中掌握相关知识和技能;

      3. 课程紧紧抓住R语言和数据挖掘的重点和难点,详细的分析和讲解,在理解难、容易出错的地方反复提醒,以便学员在课后容易的进行自己复习和相关拓展。


目标人群:

     对使用R语言进行数据挖掘感兴趣者,尤其是希望获得R语言和数据挖掘基础和思想,想在实际中快速使用R语言进行数据挖掘以解决问题的在校学生、在职工作者。


教学大纲:

讲:R语言精要

本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。

主要案例:

案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;

案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;

案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;

案例4:使用ggplot2画出各种复杂的图形。


第二讲:Logistic回归与商业大数据建模

Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。

主要案例:

案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;

案例2:利用Logistic回归帮助医生对病人选择治疗方案;

案例3:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;

案例4:利用Logistic回归帮助寿险公司进行目标客户精准电话营销;

案例5:利用Logistic回归帮助商业银行完成对客户的信用评分;

案例6:利用Logistic回归帮助公司分析客户流失的原因并做好预测。


第三讲:关联规则和R语言实现

关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。

主要案例:

案例1:使用R语言关联规则方法帮助各个超市实现商品的捆绑销售方案(即“购物篮”分析);

案例2:泰坦尼克号乘客幸存的关联规则分析;

案例3:提高个人收入的关联分析。


第四讲:决策树(回归树)分析和R语言实现

决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。

主要案例:

案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;

案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。


第五讲:机器集成学习的Bagging和AdaBoost算法

这两种方法将许多分类器的预测结果进行汇总分析,从而达到显著提升分类效果。本讲介绍这2种算法的思想,在R语言中构造训练集和测试集进一步进行分析。

主要案例:

案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;

案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。


第六讲:R语言随机森林(RandomForest)算法

在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。

主要案例:

案例1:对皮肤病进行随机森林的分类和预测;

案例2:对酒的品质和种类进行分类和评价。


第七讲:支持向量机和R语言的实现

本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。

主要案例:

案例1:对著名的鸢尾花数据进行支持向量机的分析;

案例2:使用支持向量机识别有毒蘑菇;

案例3:使用支持向量机进行股票指数预测。


第八讲:神经网络和R语言的实现

神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。

主要案例:

案例1:酒的品质和种类的神经网络的分析和预测;

案例2:公司财务预警建模。


第九讲:交叉验证比较各个模型

对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取模型进行拟合和预测。


第十讲:使用R语言结合KNN算法进行文本挖掘

文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。

主要案例:

案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)




使用道具

藤椅
我是女生 发表于 2015-5-13 08:47:37 |只看作者 |坛友微信交流群
有幸参加过Gino老师之前的现场班,课堂授课内容,课后分享的资料和后期大家的交流都使我受益很多,强烈推荐

使用道具

板凳
sqy 发表于 2015-5-13 08:50:12 |只看作者 |坛友微信交流群
ding!!!!!!!!!

使用道具

报纸
乔乔秋 发表于 2015-5-13 08:51:20 |只看作者 |坛友微信交流群
数据挖掘实战案例分享,好老师好课程

使用道具

地板
liujm27 发表于 2015-5-13 09:47:16 |只看作者 |坛友微信交流群
数据挖掘,前景不错,支持一下。

使用道具

7
vd671 发表于 2015-5-13 11:34:18 |只看作者 |坛友微信交流群
haohao

使用道具

8
tonyme2 在职认证  发表于 2015-5-13 11:46:53 |只看作者 |坛友微信交流群
support

使用道具

9
ydb8848 发表于 2015-5-13 12:04:13 |只看作者 |坛友微信交流群

使用道具

10
q41563201 发表于 2015-5-13 12:27:30 |只看作者 |坛友微信交流群
谢谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 07:35