楼主: kissky
1553 0

大数据工程人员知识图谱 [推广有奖]

  • 4关注
  • 55粉丝

VIP

已卖:8085份资源

学科带头人

94%

还不是VIP/贵宾

-

威望
1
论坛币
42074 个
通用积分
5.9630
学术水平
74 点
热心指数
95 点
信用等级
53 点
经验
44982 点
帖子
1295
精华
1
在线时间
1614 小时
注册时间
2006-11-26
最后登录
2022-11-13
毕业学校
UIBE

楼主
kissky 发表于 2013-11-6 10:02:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

大数据工程人员知识图谱                                                                        时间                     2013-11-05 19:56:06                                                                                                                                     DataScientist's Lab      



在企业里面从事大数据相关的工作到底需要掌握哪些知识呢?我认为需要从两个角度来看:一个是技术;一个是业务。技术上主要涉及到概率和数理统计,计算机系统、算法和编程等;而业务的角度呢则是因公司业务的不同而异。对于从事大数据的工程人员来说,需要学会使用数据挖掘方法在计算机系统和编程工具的帮助下解决实际的问题,这样才能够在海量数据中挖掘出业务增长的助推剂,才能在激烈的市场竞争中为企业创造更多的价值。  
      因为业务会因公司的不同而不同,但是技术点是想通的。我在这里简单总结了一下大数据相关工程人员需要掌握的技术相关知识点。主要涉及到数据库、数据仓库、编程、分布式系统、Hadoop生态系统相关、数据挖掘和机器学习相关的基础知识点。当然我这里列出来的应该是一个team的人员汇集在一起所具备的,每个人会因在团队中的角色不同而有所侧重。在此剖砖引玉,欢迎大家发表意见。  
  
          Topic                  Content                  Key points                  Reference        
          DB/OLTP & DW/OLAP                  Database/OLTP basic                  The relational model, SQL, index/secondary index, inner join/left join/right join/full join, transaction/ACID                  Ramakrishnan, Raghu, and Johannes Gehrke. Database Management Systems.        
          Database internal & implementation                  Architecture, memory management, storage/B+ tree, query parse /optimization/execution, hash join/sort-merge join        
          Distributed and parallel database                  Sharding, database proxy        
          Data warehouse/OLAP                  Materialized views, ETL, column-oriented storage, reporting, BI tools        
          Basic programming                  Programming language                  Java, Python (NumPy/scikit-learn), SQL        
          OS                  Linux        
          DB & DW system                  MySQL/ Hive/Impala        
          Text format and process                  JSON/XML, regex        
          Tool                  Git/SVN, Maven        
          Distributed system & Hadoop ecosystem & NoSQL                  Distributed system principal theory                  CAP theorem, RPC (Protocol Buffer/Thrift/Avro), Zookeeper, Metadata management (HCatalog)        
          Distributed storage & computing framework & resource management                  Hadoop/HDFS/MapReduce/YARN                  Tom White. Hadoop : The Definitive Guide.                      Donald Miner, Adam Shook. MapReduce Design Patterns : Building Effective Algorithm and Analytics for Hadoop and Other Systems.         
        
          SQL on Hadoop                  Data (log) acquisition/integration/fusion, normalization, feature extraction                  Sqoop, Flume/Scribe/Chukwa,                      SerDe         
        
          Edward Capriolo, Dean Wampler, Jason Rutherglen. Programming Hive.        
          Query & In-database analytics                  Hive, Impala, UDF/UDAF        
          Large scale data mining & machine learning framework                  Spark/MLbase, Mahout        
          Streaming process                  Storm        
          NoSQL                  HBase/Cassandra (column oriented database)                  Lars George. HBase: The Definitive Guide.        
          Mongodb (Document database)        
          Neo4j (graph database)        
          Redis (cache)        
          Data mining & Machine learning                  DM & ML basic                  Numerical/Categorical variable, training/test data, over fitting, bias/variance, precision/recall, tagging        
          Statistic                  Data exploration (mean, median/range/standard deviation/variance/histogram), Continues distributions (Normal/ Poisson/Gaussian), covariance, correlation coefficient, distance and similarity computing, Bayes theorem, Monte Carlo Method, Hypothesis testing        
          Supervised learning                  Classifier, boosting, prediction, regression analysis                              Han, Jiawei,Micheline Kamber, and Jian Pei. Data mining: concepts and techniques.         
        
          Unsupervised learning                  Cluster        
          Collaborative filtering                              Item based CF, user based CF         
        
          Algorithm                  Classifier                  Decision trees, KNN (K-Nearest neighbor), SVM (support vector machines), SVD (Singular Value Decomposition), naïve Bayes classifiers, neural networks,        
          Regression                  Linear regression, logistic regression, ranking, perception        
          Cluster                  Hierarchical cluster, K-means cluster, Spectral Cluster        
          Dimensionality reduction                  PCA (Principal Component Analysis), LDA (Linear discriminant Analysis), MDS (Multidimensional scaling)        
          Text mining                  Corpus, term document matrix, term frequency & weight, association rules, market based analysis, vocabulary mapping, sentiment analysis, tagging                  Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with MapReduce.        
  
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据工程 大数据 discriminant distribution Hierarchical points 计算机系统 数据库 知识点 工程

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 23:08