[其他学者] 中国传媒大学电视与新闻学院沈浩(应用统计学和市场研究)在线访谈问答汇总 [推广有奖]

13关注
1902
粉丝

运营管理员

巨擘

还不是VIP/贵宾

威望: 9 级
论坛币: 974867528 个
通用积分: 41218.5678
学术水平: 4617 点
热心指数: 3402 点
信用等级: 3620 点
经验: 636840 点
帖子: 9622
精华: 140
在线时间: 18206 小时
注册时间: 2010-5-1
最后登录: 2024-4-25

楼主

资料狂人

发表于 2014-11-26 13:41:12 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

沈浩老师，中国传媒大学电视与新闻学院教授。

研究方向：传播学研究方法、应用统计学和市场研究。

IPSOS（中国）市场研究有限公司首席顾问，中国传媒大学数据挖掘研发中心主任，调查统计研究所所长，15年的数据分析的专业经验，精通各种统计技术的分析方法和分析软件，在统计行业和市场研究行业享有较高的声誉，擅长市场研究和模型，主要包括：结合分析、满意度分析、抽样设计、多变量分析，市场细分和数据挖掘。

问答汇总：
Q1:坛友songasia：
沈老师，您好，由于互联网的迅速发展，使得大家也开始在关注大数据的发展，基本用的都是已经发生在互联网上的数据，如果继续在这一领域搞学术研究的话，是否意味着传统的文卷调查已经不符合时代要求了？写的学术文章更容易被拒收？另外，作为青椒的普通一员，感觉大数据非常有前途，但一旦想把这个作为研究之路来走的话就发现，数据难拿到，基本都是公司的机密，不可能给你的，在这一块的研究沈老师能否给点建议，非常^_^！
A1:
你提到的现象很普遍，特别是一些社会科学领域很少有所谓的大数据。现在大数据很火，总讲大数据的价值，企业更会把数据藏起来不愿意分享。但是，大数据时代一个很重要的特征是open data，这点特别要说ZF是大数据的开放者，也应说是拥有者和使用者。1）狭义讲大数据更不适合当今社会科学学术体系，实证研究方法论；2）研究大数据的方法或算法，特别是在商业和营销等还是可以的；3）大数据的研究范式在一定程度上改变了传统调研和数据采集方法，包括统计方法；4）要学会采集数据，例如API接口、爬虫技术等，同时要能够从开放数据源收集（有越来越多趋势），并非代替理论假设下问卷的实证研究；5）要学会从微博、微信公共号、LBS、data.gov等获取更多可能的数据

Q2:坛友huanghuiqun：
沈老师，您好:
怎么获取新闻或媒体方面研究的数据资料，并利用数据进行数据挖掘、大数据挖掘并结合机器学习等智能计算技术？谢谢
A2:
如果你在新闻媒体领域，这方面资料还是很多的，特别是大数据时代，一个显著特征是文本挖掘，所以新闻语料都说可分析的数据了。一般就是针对新闻语料，分词、情感挖掘、文本挖掘、意见挖掘、语义分析、主题模型LDA等都需要学习和应用，另外文本的自动分类和归类技术。如果您能够将任何一个新闻事件5W要素自动结构化为数据库，将谁——谁——在哪——重要性——倾向量化和空间地理化，我们就可以进行趋势、热点、热图研究新闻发生的变化和预知什么？当然在媒体领域将来的全网收视率研究，个性化推荐技术、新闻定制、微博传播路径、舆情演化研究等都大有用武之地。

Q3:坛友mavpig：
沈老师，您好！
想问一个关于过度抽样的问题。在建立预测模型的过程中，如果使用过度抽样和不使用过度抽样的方法，得到的预测结果相差不多，请问有必要采取过度抽样吗？谢谢
A3:
过度抽样在建模中往往需要的，主要是因为数据挖掘技术主要是建立欺诈模型、流失模型等，往往数据库中这种粒度很少，当采用神经网络等机器学习算法时，如果有9份好人，1份坏人，机器学习就会更好的分出好人来，理想的分类算法应该是一半好人，一半坏人，模型才比较好的分类，达到模型的健壮。同时，为了保证见面的训练样本和测试样本（必要算法需要校验样本）的合理性，需要通过交叉验证，在一定程度上需要过度抽样。

Q4:坛友zgy_Russell：
沈老师您好！首先感谢您能来论坛解答我们的问题。想请教您，在大数据的应用上，我国与美国还是有很大的差距。比如在文化传媒产业，一个经典的例子就是美剧《纸牌屋》利用大数据分析满足消费者的需求。想请问老师，在我国的文化传媒市场中，我们该如何更好地利用大数据发展文化产业呢？
A4:
美国不是随意谈大数据战略的，从911后美国积累了大量大数据领域的技术，特别是1）挖掘数据价值支持企业竞争和ZF管理，2）培养人才拥有更多的数据人才，3）开放大数据data.gov。纸牌屋是人们愿意晶晶乐道的大数据话题，因为大数据的特征就是结果很容易理解和感知，尽管不懂咋得到的。原则上讲纸牌屋的大数据更是一种营销思维，相信没有大数据纸牌屋也可能是成功的，当然我们要相信他们一定是分析的，因为拥有3000万用户的行为，签到数据、心跳数据、时移数据和常年积累的MetaData节目人员分类数据等。其实今天看纸牌屋的算法并没有太深奥的技术，就像google的Pagerank一样，当然算法是一回事，工程上实现是另一回事。在我国文化产业，这个文化产业太大了，我知道应该都有用，但太宽泛了，比如舆情、社会计算、智慧城市、智慧足迹、电影票房预测、影视节目的版权交易、投资分析、恐怖分子挖掘，太多了

Q5:坛友guanzhiwei04：
沈老师您好，我有一个粗浅的问题想请教，就是：抽样调查会被大数据的全样本分析所取代吗？
A5:
抽样调查一般是自上而下的，理论——假设——验证，大数据挖掘是自下而上，数据库——发现——知识；原则上是两种研究范式和方法论，在一定程度上说，如果能够用大数据或存在商业自动化获取的数据，可能会选择大数据挖掘方法，特别是拥有大数据的企业、机构或ZF会越来越多的采用。取代是一个很界定的词，部分吧。当然，大数据和小数据（如果存在这种说法，或说小数据就是抽样数据）可能会更融合。我个人倾向大数据会越来越多的采用并应用在过去小数据抽样数据的研究领域，但不是取代。

Q6:坛友Dany2：
沈老师：你好！借此契机向您请教几个问题。
1.如今数据分析的编程语言很多，R、Python、Hadoop、SAS，作为刚进入数据挖掘领域的新手来说，应该如何选择合适编程语言？
2.数据挖掘所需的知识面比较广，入门应该遵循什么样的学习路径？各个知识块要按什么顺序掌握？
3.大数据时代只问关系不问因果，那如何判断我们得到的关系是可以外推的，即应用到未来而不会导致错误呢？
谢谢！
A6:
1）推荐如果偏好或个人在统计分析和数据挖掘技术层面，可以考虑学习R语言
2）如果个人偏爱计算机技术，编程擅长，可以考虑学习Python，特别是如果你是工程上实现
3）当然你要学好：Excel、SPSS、Matlab、SAS等
4）特殊领域也要学，如果你tableau，Gephi、ucinet等可视化或网络分析
5）在一定程度上建模分析人员不用太关心hodoop、Splunk等，分布式计算、并行计算等交给R、Python算法去解决，除非你是IT工程师货系统架构师
6）学习路径可以看看我的博客，在google搜沈浩老师的博客
7）大数据重相关不关心因果，是对的！不是不关心因果，因果本身不来自统计和数据，来自你的理论，而大数据是挖掘和发现知识，至于是否是因果您去努力解决和探索吧。当然如果大数据具有时间序列增长特征，更具有发现和验证因果的可能性，当然前提是又要符合实证研究框架，就可能产生矛盾。

Q7:坛友兔兔舒蓝：
沈老师，您好！
我们总会建立模型来估计两个经济变量之间的关系，可是同一问题有多种分析工具供选择。例如，对相同的面板数据，有普通最小最小二乘法、GMM、单位根检验协整检验以及固定效应等方法，该如何选择的方法？
谢谢！
A7:
咋说呢，如果你都不懂每一个方法，只好道听途说；如果你只会一个方法就是啥都用这个方法解决所有问题，只有会了每一个方法，才知道如何选择和权衡利弊。当然，今天很多工具都说智能和自动或半自动方法，如果不懂太细致的方法和参数，就采用每种方法或测试不同参数建模，学会评估模型的好坏。如果评估也不会，就看效果好坏啦！我的思路：就是把所有方法都测试一遍，这个具体数据集没玩好，经验值就有了！面板数据中经济学和时间序列预测都是特定数据集，在社会科学比较少，我的经验值不足！

Q8:坛友爱.呼吸：
沈浩老师，您好！以前听过您的讲座受益匪浅，请问大数据处理怎样准确获取业务需求？
A8:
一般讲：商业理解是大数据挖掘的步，商业理解、数据理解、数据准备占整个业务的70-80%的比重，当然如果你在某个领域越深入越理解，合作和建立挖掘团队是必要的。因我在学校，不能满足上述条件，往往从数据出发，俺没时间整天讨论开会，会说先给我数据看看，从数据去理解商业可能是在明确要求下可行的，特别是在国外语言不通，文化没有的前提下。当然对于大数据挖掘人员要理解一般意义下的：流失模型、信用模型、欺诈模型、交叉销售、增量销售、KPI、RFM模型、市场细分、效果模型、满意度模型、选择模型等等各种模型的基本思想。

Q9:坛友lzguo568：
沈老师你好，供水企业面临一个问题是入户难，检表难。表出户改造是一件耗资巨大的工程，但煤气表也在室内，没听煤气公司提出将煤气表改在室外。于此同时供水企业又是垄断行业，不存在客户流失问题。由于有抄表员抄表环节的存在，导致很多基础信息不实，例如，营销员不去抄表，在家进行推估表指针，造成表存量，推估量，漏收现象。我个人感觉信息系统真实的数据就是交费信息，我分析过用户交费行为，一次缴纳水费50元，100元是众数。表存量20吨是众数，48吨是中位数，一件推估量平均水量102吨。我们的系统积累12年的用户交费，水量调查信息，累计用5千万条记录。个人认为值得深入研究的是预存水费如何管理的问题。如何对上述信息进行那些其他方面的数据挖掘，请沈老师指点一下。谢谢！
A9:
供水、供电企业可真是大数据土豪型企业，过去用在内部经营分析上，但主要个人理解是报表或计费上，并没有用于经营优化或大数据挖掘。美国根据每个家庭的状况可以个性化提供每个家庭能源报告，您就会看到与您一样的家庭、电器、生活习惯该如何降低用电，带来整个社会的节电。供水是同理，当然要解决数据采集问题，要明确一点：大数据不是为了挖掘采集的，而是商业自动化导致海量存储，现在理解了大数据的价值，在商业采集信息的过程应该收集更多数据，比如APP，传感器，一定要走自动化和用户自愿签到登陆才行，否则？现在插座都可以app遥控了

Q10:坛友jiangbeilu：
沈老师，您好！
我觉得大数据也是分行业的，如果传统行业想应用大数据，还是需要一定的时间的，主要的行业还是互联网行业，电子商务这块。当然，新闻行业也开始应用大数据分析，来做报道了。
我想问一下，对于传统行业，该怎么样利用相关的大数据来为自己的企业谋取更多的利润呢？
A10:
现在谁是传统行业呢？大家都在互联网思维，大数据时代是工作、生活和思维方法的改变！尽管互联网等行业是大数据活跃的，但是大数据挖掘其实落地就是早年的数据挖掘技术，只是偏向文本挖掘、语义挖掘、网络分析、空间地理和可视化技术。过去银行、金融、保险、健康医疗、税收、电信、移动零售都是现在海量数据的传统行业啊！

Q11:坛友136840612：
沈老师，您好，大家都在讨论大数据，但实际操作中知道如何去做的却非常少，而且在领先优势下的Google，Facebook等，都在面临对公众隐私侵犯的问题，用户的偏好和私人信息已经无形中成了利益链条的牺牲者，如何解决这种数据收集中可能存在的伦理性和合法性问题呢？
A11：
隐私是大数据所带来的一个重要的，也是心理感受的一个严重问题。当然隐私不是单单因为大数据才有的，所有大数据在定义隐私，保护隐私和暴露隐私都有作用。今天的社会，人在社会上就要与人交流，得到他人服务，这些都必须让度一些隐私，当然啥是隐私呢？有的人洗澡都希望别人看到，有人啥都不希望别人知道，所以因人而定。当然ZF和企业要制定准则保护，要有底线。但我先拥抱大数据、隐私问题针对具体问题具体分析！