楼主: 资料狂人
8897 29

[沈浩] 中国传媒大学电视与新闻学院沈浩(应用统计学和市场研究)11.25在线访谈  关闭 [推广有奖]

11
lzguo568 在职认证  发表于 2014-11-24 15:45:12
沈老师你好,供水企业面临一个问题是入户难,检表难。表出户改造是一件耗资巨大的工程,但煤气表也在室内,没听煤气公司提出将煤气表改在室外。于此同时供水企业又是垄断行业,不存在客户流失问题。由于有抄表员抄表环节的存在,导致很多基础信息不实,例如,营销员不去抄表,在家进行推估表指针,造成表存量,推估量,漏收现象。我个人感觉信息系统唯一真实的数据就是交费信息,我分析过用户交费行为,一次缴纳水费50元,100元是众数。表存量20吨是众数,48吨是中位数,一件推估量平均水量102吨。我们的系统积累12年的用户交费,水量调查信息,累计用5千万条记录。个人认为值得深入研究的是预存水费如何管理的问题。如何对上述信息进行那些其他方面的数据挖掘,请沈老师指点一下。谢谢!
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

12
爱.呼吸 在职认证  发表于 2014-11-24 16:26:32
沈浩老师,您好!以前听过您的讲座受益匪浅,请问大数据处理怎样准确获取业务需求?
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

13
兔兔舒蓝 在职认证  发表于 2014-11-24 18:09:44
沈老师,您好!
我们总会建立模型来估计两个经济变量之间的关系,可是同一问题有多种分析工具供选择。例如,对相同的面板数据,有普通最小最小二乘法、GMM、单位根检验协整检验以及固定效应等方法,该如何选择最好的方法?
谢谢!
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

14
136840612 学生认证  发表于 2014-11-24 21:09:45
沈老师,您好,大家都在讨论大数据,但实际操作中知道如何去做的却非常少,而且在领先优势下的Google,Facebook等,都在面临对公众隐私侵犯的问题,用户的偏好和私人信息已经无形中成了利益链条的牺牲者,如何解决这种数据收集中可能存在的伦理性和合法性问题呢?
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

15
tangaibing 发表于 2014-11-25 12:25:23
沈教授:你好!你如何看待中国的市场,是否是真正的市场经济,你如何看待电力等企业的垄断,如何实现市场公平?你如何看待很多小企业的市场推出,你觉得时下的房租是否合理?中国区经济是否已经进入滞涨?

16
沈浩老师 发表于 2014-11-25 14:07:40
songasia 发表于 2014-11-24 10:53
沈老师,您好,由于互联网的迅速发展,使得大家也开始在关注大数据的发展,基本用的都是已经发生在互联网上 ...
你提到的现象很普遍,特别是一些社会科学领域很少有所谓的大数据。现在大数据很火,总讲大数据的价值,企业更会把数据藏起来不愿意分享。但是,大数据时代一个很重要的特征是open data,这点特别要说ZF是大数据的开放者,也应说是拥有者和使用者。1)狭义讲大数据更不适合当今社会科学学术体系,实证研究方法论;2)研究大数据的方法或算法,特别是在商业和营销等还是可以的;3)大数据的研究范式在一定程度上改变了传统调研和数据采集方法,包括统计方法;4)要学会采集数据,例如API接口、爬虫技术等,同时要能够从开放数据源收集(有越来越多趋势),并非代替理论假设下问卷的实证研究;5)要学会从微博、微信公共号、LBS、data.gov等获取更多可能的数据

17
沈浩老师 发表于 2014-11-25 14:14:28
huanghuiqun 发表于 2014-11-24 12:16
沈老师,您好:
  怎么获取新闻或媒体方面研究的数据资料,并利用数据进行数据挖掘、大数据挖掘并结合机器学 ...
如果你在新闻媒体领域,这方面资料还是很多的,特别是大数据时代,一个显著特征是文本挖掘,所以新闻语料都说可分析的数据了。一般就是针对新闻语料,分词、情感挖掘、文本挖掘、意见挖掘、语义分析、主题模型LDA等都需要学习和应用,另外文本的自动分类和归类技术。如果您能够将任何一个新闻事件5W要素自动结构化为数据库,将谁——谁——在哪——重要性——倾向量化和空间地理化,我们就可以进行趋势、热点、热图研究新闻发生的变化和预知什么?当然在媒体领域将来的全网收视率研究,个性化推荐技术、新闻定制、微博传播路径、舆情演化研究等都大有用武之地

18
沈浩老师 发表于 2014-11-25 14:22:03
mavpig 发表于 2014-11-24 15:02
沈老师,您好!
想问一个关于过度抽样的问题。在建立预测模型的过程中,如果使用过度抽样和不使用过度抽样 ...
过度抽样在建模中往往需要的,主要是因为数据挖掘技术主要是建立欺诈模型、流失模型等,往往数据库中这种粒度很少,当采用神经网络等机器学习算法时,如果有9份好人,1份坏人,机器学习就会更好的分出好人来,理想的分类算法应该是一半好人,一半坏人,模型才比较好的分类,达到模型的健壮。同时,为了保证见面的训练样本和测试样本(必要算法需要校验样本)的合理性,需要通过交叉验证,在一定程度上需要过度抽样。

19
沈浩老师 发表于 2014-11-25 14:31:46
zgy_Russell 发表于 2014-11-24 14:45
沈老师您好!首先感谢您能来论坛解答我们的问题。想请教您,在大数据的应用上,我国与美国还是有很大的差距 ...
美国不是随意谈大数据战略的,从911后美国积累了大量大数据领域的技术,特别是1)挖掘数据价值支持企业竞争和ZF管理,2)培养人才拥有更多的数据人才,3)开放大数据data.gov。纸牌屋是人们愿意晶晶乐道的大数据话题,因为大数据的特征就是结果很容易理解和感知,尽管不懂咋得到的。原则上讲纸牌屋的大数据更是一种营销思维,相信没有大数据纸牌屋也可能是成功的,当然我们要相信他们一定是分析的,因为拥有3000万用户的行为,签到数据、心跳数据、时移数据和常年积累的MetaData节目人员分类数据等。其实今天看纸牌屋的算法并没有太深奥的技术,就像google的Pagerank一样,当然算法是一回事,工程上实现是另一回事。在我国文化产业,这个文化产业太大了,我知道应该都有用,但太宽泛了,比如舆情、社会计算、智慧城市、智慧足迹、电影票房预测、影视节目的版权交易、投资分析、恐怖分子挖掘,太多了

20
zgy_Russell 发表于 2014-11-25 14:37:20
沈浩老师 发表于 2014-11-25 14:31
美国不是随意谈大数据战略的,从911后美国积累了大量大数据领域的技术,特别是1)挖掘数据价值支持企业竞 ...
解答的很详细!谢谢老师!!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 15:01