楼主: 爱萌
7124 13

[原创博文] 针对数据挖掘、文本挖掘做一些简单阐释 [推广有奖]

贵宾

已卖:262份资源

学术权威

54%

还不是VIP/贵宾

-

威望
8
论坛币
96603 个
通用积分
12.3686
学术水平
231 点
热心指数
299 点
信用等级
157 点
经验
102555 点
帖子
6174
精华
1
在线时间
2024 小时
注册时间
2007-3-2
最后登录
2025-12-1

楼主
爱萌 发表于 2010-10-11 08:54:27 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
crackman 发表于 2010-9-3 16:58
我觉得一本书无所谓好坏,关键是看书的角度以及看书人的背景。
爱萌是统计专业比较强的,所以更多的是从算法、数据挖掘、统计理论的角度去思考和评价
不过我本人认为,统计理论的研究最终是应用在某一个领域,无论是商业、互联网、医药、市场,用统计的理论知识来发现和解决问题。所以认为大家在做数据分析或者说数据挖掘吧,前期是识别问题,统计是工具,来解决问题的或者说发现新的问题来解决。但是我们对于问题本身大家有多少人理解正确?有多少人不就是因为对问题本身不理解而乱选择模型或者统计方法的么?对于统计出来的结果由多少人能解释的很清楚很合理?在这里存在的就是一个专业的背景,在医药行业,做市场咨询,最后最具有价值就是对数据结果的解释。记得我们上多元统计,老师一直在强调一句话,对于模型得出的结果一定要从专业的角度去评判,甚至是模型得出结果,如果在专业的层面上看无意义的,完全可以剔除掉,这就是专业知识的支持,而不是统计。所以我觉得斑竹写的书如果是面向应用的层面,我觉得应该更侧重于实际的应用,因为不是每个人都和爱萌那样专业的算法高手。
另外中国的算法实在不能和国外比,百度的搜索算法我一直都认为无法超越谷歌,这就是一个现实。
crackman说爱萌是统计专业从算法、数据挖掘、统计理论思考这是我承认的。
但是需要申明一点,我其实研究算法、数据挖掘、文本挖掘、统计理论都是完全是从应用的角度,我从来不喜欢去争论学派问题。
虽然我已经很不是学院派,但是和宝钢的数据挖掘部门老总交流时,他们还认为我过于学院派。
这个可能与我个人的理解有关。
数据挖掘需要做两方面的工作一是从算法本身去理解,二是从实际出发。从我已经发表的论文,大家将看到我是一个实际的人,不会是理论者,但绝对不是一个盲从者。原因很简单,对于股票市场的数据你可以用ARIMA模型,你也可以用GARCH模型,当然你可以用ARIMA-GARCH模型,也可以用SV模型,你也可以用TOBIT-AR-GARCH模型,你必须了解这些模型才能做出好结果,数据挖掘不是模型去适应数据,也不是数据去适应模型,需要理解模型和数据背景的人才能解决。
如果有人想到一些机构去做数据挖掘,就应该注意一点:数据也可以杀人,而且杀人与无形之中
每个方法都有自己的前提,至于分类有比较前言的潜类别分析等等比较前的方法,这种方法比logistics回归要好很多。
对此我和我的搭档已经做了文章进行比较,数据来源医学数据,得到了比较好的结果。等文章发出来后我将与大家分享。
最后借用高斯的一句话并进行改写送给所有做数据挖掘、文本挖掘的人。“对数据挖掘、文本挖掘的无知不是没有相关知识,而是过于依赖数据挖掘、和文本挖掘而忽视其他”------爱萌
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 文本挖掘 AR-GARCH模型 LOGISTICS crackman 互联网 领域 模型 统计 知识

已有 2 人评分学术水平 热心指数 信用等级 收起 理由
新人2012 + 1 + 1 + 1 热心帮助其他会员
peijiamei + 1 + 1 对论坛有贡献

总评分: 学术水平 + 2  热心指数 + 2  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
爱萌 发表于 2010-10-11 09:05:29
正如我提供过一个统计前沿的知识点一样,已经有ICA为什么还要用主成分分析,因为主成分分析前提是对正态数据,这种情况非常少见。如果碰到这种情况可以用PCA而不是ICA,但是实际数据有多少符合正态,那为什么不用ICA分析了。
最恨对我说谎或欺骗我的人

藤椅
爱萌 发表于 2010-10-11 09:08:42
连理论都不清楚,如何能挖掘数据,能正确的挖掘数据,正如copula函数,如不知道他的本质就用,用错了是模型的错还是的人错?难道最后要归结到是模型发明人的错吗?只所有这些担心是因为我也发明了一些方法发表出去了。如果有一天有人用错了,然后把错误归的我身上,我是绝对要反击的。模型没有错是用的人用错了。
最恨对我说谎或欺骗我的人

板凳
chouxiangdaishu 发表于 2010-10-11 10:05:23
觉得很多理论都是忽悠出来的

报纸
windlove 发表于 2010-10-11 10:50:40
to: 爱萌

Any paper you have published you can share with us here??

Thanks

地板
爱萌 发表于 2010-10-11 11:22:04
chouxiangdaishu 发表于 2010-10-11 10:05
觉得很多理论都是忽悠出来的
有些理论的确是忽悠,因为你那到了用不了,但是你可以看应用比较强的文章和理论
最恨对我说谎或欺骗我的人

7
hongxx 发表于 2010-10-13 21:51:05
爱萌 发表于 2010-10-11 09:08
连理论都不清楚,如何能挖掘数据,能正确的挖掘数据,正如copula函数,如不知道他的本质就用,用错了是模型的错还是的人错?难道最后要归结到是模型发明人的错吗?只所有这些担心是因为我也发明了一些方法发表出去了。如果有一天有人用错了,然后把错误归的我身上,我是绝对要反击的。模型没有错是用的人用错了。
同意。
模型是一般是不会错的。有数学的严格推导,基本都是对的。期权定价BS公式错了吗,绝对没错,只能说它的假设前提与现实不符。基本所有模型都有假设(前提),没弄清楚这个是很要命的。比完全不懂更严重,因为你会胡来。

8
jingju11 发表于 2010-10-13 23:16:02
1# 爱萌

喜欢看艾梦的帖子。言之有物。
感觉艾梦的水平,有点高处不胜寒的味道。奈何,自己水平台次。

9
crackman 发表于 2010-10-17 00:18:39
1# 爱萌
只能说自己的水平不够档次需要多跟爱萌同学学习学习,我也想看看爱萌的文章,了解一下数据挖掘方面的知识和应用。

10
tu_too_too 发表于 2013-1-16 16:06:03
学习学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 07:12