楼主: 充实每一天
11095 115

20190202【充实计划】第970期   [推广有奖]

91
yitansishui 发表于 2019-2-2 21:42:17
今天读了3小时,累计624小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

92
jeffyangsir 在职认证  发表于 2019-2-2 21:49:28
昨日阅读2小时,累计阅读683小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

93
无与伦比为帅彬 发表于 2019-2-2 21:56:20
昨日阅读2小时,累计阅读128小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

94
sepserena 发表于 2019-2-2 22:32:21
过年好!
新加入,昨日阅读1小时,累计阅读1小时

是看视频然后学文稿的,所以算阅读吧
https://www.ted.com/talks/tim_harford_a_powerful_way_to_unleash_your_natural_creativity/transcript
金句: if you have another exciting, challenging project to work on, being stuck on one is just an opportunity to do something else.

我觉得Tim Harford 的 Slow-motion multitasking这个理念挺适合做科研的朋友们,有两个或以上work in progress肯定会感觉淡定些。
他给出的理由也就是3个:
1. 有利于产生创意——换个盒子,就更容易跳出盒子看原先的问题
2. 迁移能力——学好做一件事可以帮助你也做好其他事情
3. 有利于解决问题——换个脑子做别的事去,就不会陷在原来的困惑或错误答案里了
已有 1 人评分论坛币 收起 理由
充实每一天 + 55 精彩帖子

总评分: 论坛币 + 55   查看全部评分

95
shangxuan000 发表于 2019-2-2 22:43:15
昨日阅读1小时,累计阅读184小时.
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

96
蓝汐蓝兮 发表于 2019-2-2 23:03:41

昨天阅读1小时,累计阅读386小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

97
albertwishedu 发表于 2019-2-2 23:03:48
昨日阅读3小时,总计5.5小时

《大数据技术及应用教程》-李联宁编著 --清华Press 2016

        大数据技术的基本概念:

            传统数据处理: 采集、导入、预处理、统计和分析以及数据挖掘(典型算法:用于聚类的K-Means、用于统计学习的SVM、用于分类的Naive Bayes,主要使用的工具是Hadoop的Mahout等,以单线程为主)

            大数据分析的方法理论:预测性分析能力(Predictive Analytic Capabilities)、数据质量和数据管理(Data Quality and Data Management)、可视化分析(Analytic Visualizations)、语义引擎(Semantic Engines)、数据挖掘算法(Data Mining Algorithms)

            大数据技术分类:

                基础架构:云计算平台、云存储、虚拟化技术、网络技术、资源监控技术
                数据采集:数据总线、ETL工具
                数据存储:分布式FS、关系型数据库、NoSQL技术、关系型数据库与非关系型数据库融合、内存数据库
                数据计算:数据查询、统计与分析;数据预测与挖掘、图谱处理、BI商业智能
                展现与交互:图形与报表、可视化工具、增强现实技术

                云存储技术、数据抓取(感知)技术、数据可视化技术推动大数据分析平台的发展

                三个重要技术组成:数据交易技术、数据交互技术、数据处理技术
                微观对应数据存储、数据同步、数据开发、数据挖掘、数据计算
                IaaS(云存储和虚拟化)、PaaS(分布式数据库HBase+数据立方,分布式处理MapReduce+JobKeeper)、SaaS(分布式数据挖掘,如Mahout)

            大数据的社会价值

                推动实现巨大经济效益、推动增强社会管理水平、高性能的分析工具使得大数据的价值得以释放

            十大商业应用场景

                1)智慧城市
                2)金融行业(精准营销、风险管控、决策支持、效率提升、产品设计)
                3)医疗行业
                4)农牧业
                5)零售行业
                6)大数据技术产业
                7)物流行业
                8)房地产业
                9)制造业
                10)互联网广告业

ch3 数据采集与预处理

    数据采集来源:管理信息系统、Web信息系统、物理信息系统(实时监控、检测、由嵌入式传感设备产生)、科学实验系统(物理实验系统中的一种特殊方式,可以是模拟仿真数据)
    大数据采集新方法:系统日志采集方法、网络数据采集方法(对非结构化数据的采集)、其他方法
    网页数据采集方法:爬虫

    预处理:ETL

ch5 大数据计算模式与处理系统
5.2聚类算法

    聚类:按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇的数据对象的差异性也尽可能大。
    分类:划分方法(k-means)、层次方法(凝聚型层次聚类算法)、基于密度的方法、基于网格的方法、基于模型的方法(神经网络聚类算法)。

5.4 机器学习的定义

    从实践意义上讲,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
    机器学习与模式识别、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有紧密的联系。

    机器学习的方法:回归算法(线性回归和逻辑回归)、神经网络(人工神经网络ANN、卷积神经网络CNN,神经网络的机理是分解与整合)、SVM(支持向量机,诞生于统计学习界,一种强化的逻辑回归算法)、聚类算法、降维算法、推荐算法(协同过滤算法)、其他。

    机器学习的应用:大数据
    深度学习(机器学习的子类)

    数据处理语言:R(数据分析必学)
    大数据开发语言Python

    相似性搜索工具的匹配方法:

        基于属性值、等级属性值或属性剖面(余弦相似性)
        余弦相似性指数 = AiBi 求和(1-n) / 根号(Ai的平方求和)  与根号(Bi的平方求和)之积
        在比较的矢量(目标与候选要素之一)中创建标准化属性的剖面图(折线图)可以看到非常相似或非常不同的剖面

    数据可视化工具:Google charts,百度charts,Datawrapper、RAW、Infogram

    避免可视化数据的严重误区:错误信息;不完全信息、简单的数据、不合适的可视化、遗忘注释

已读完。。。入门级


已有 1 人评分论坛币 收起 理由
充实每一天 + 60 精彩帖子

总评分: 论坛币 + 60   查看全部评分

98
守候烟雨 发表于 2019-2-2 23:05:33
昨日已阅读0.5小时,累计阅读358小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

99
volvicer 学生认证  发表于 2019-2-2 23:07:47
昨日阅读1小时,累计阅读2小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

100
arst4 发表于 2019-2-2 23:10:09
昨日阅读1小时,累计阅读99小时.
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 22:16