楼主: Mirror..
2375 1

[其他] 数据分析会骗人么? [推广有奖]

院士

21%

还不是VIP/贵宾

-

威望
1
论坛币
67318 个
通用积分
10.2240
学术水平
502 点
热心指数
518 点
信用等级
460 点
经验
42826 点
帖子
2409
精华
2
在线时间
716 小时
注册时间
2014-11-10
最后登录
2019-4-21

初级学术勋章 初级热心勋章 中级学术勋章

楼主
Mirror.. 在职认证  发表于 2014-11-21 17:34:06 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
会。 这种情况很多。
Mark Twain曾经说过Figures never lie but liars sure can figure。 但实际上人们很容易被数据迷惑。举几个例子。
  • 偶然相关关系。一个经常听我老师提起的例子是拿南开大学大中路上树的高度和每年新生的身高作相关性分析,你会发现两者相关性非常强,可在仔细想一想,两者又是怎么牵扯上关系的呢。 我们无法从这里面分析出因果关系,仅仅是相关关系而已,这种相关关系很脆弱,没有因果关系,我们不知它怎么产生 ,也就意味着我们不知道它何时消失。
  • 统计工具有时无法涵盖使用者的个人需求。假如你想进一所高校读研究生,你会看到一份或者多份的高校排名,这个时候你的决定可能很大程度上被这个排名左右,但是这个排名根本没有把你的学习目标,个人喜好等个人因素考虑进来。这样你就很难定位最适合你的学校。
  • 统计学上的显著性差异和实际差异容易被混淆。在我看来“显著性”这个统计术语是被滥用了。当样本符合假设前提时,it's ok. 但很多时候这些前提并非严格符合,而是我们的假设。例如我们比较北京和南京的学生身高差异,选取随机样本做一个两样本t检验,其中样本正态的前提通常只是假设的,在样本量较少的情况下,我们很有可能会得到两地学生身高是有显著性差异的。 但问题是我们无法确定到底多大的样本量才足够精确,因此统计学上的显著性差异应该表示样本量足够多可以清晰地反应出差异性,非显著性则应表示样本量不足以反映实际的差异。不过很多时候“显著性"这三个字太过诱人,容易让人做出错误的决定。
不要把统计当成数学。insight在数据分析中非常重要。
随着统计方法和统计工具的增多,数据分析的准确性应该会提高。但我个人认为未来影响数据分析准确性最重要因素不是统计方法和统计工具,而是数据本身
转自 知乎
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析 分析会 Insight Figures Figure 南开大学 研究生 figure 相关性 统计

只想做一个勤勤恳恳的搬运工
沙发
whe58 在职认证  发表于 2014-11-21 18:00:05 |只看作者 |坛友微信交流群
数据不会说谎,但人可以利用数据说谎。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 12:42