楼主: antili
8524 23

[数据挖掘理论与案例] 互联网文本挖掘实践 [推广有奖]

  • 2关注
  • 2粉丝

已卖:482份资源

博士生

52%

还不是VIP/贵宾

-

威望
0
论坛币
65 个
通用积分
7.0141
学术水平
1 点
热心指数
0 点
信用等级
0 点
经验
9107 点
帖子
223
精华
0
在线时间
397 小时
注册时间
2011-4-18
最后登录
2024-10-10

楼主
antili 发表于 2013-1-8 09:36:26 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
职业在互联网行业,经常和非结构化数据打交道(如文本、音频),开初,经常寄希望于软件,比如clementine12,但是处理根本不灵活,比如它只支持英文文本挖掘,要做中文的还得翻译,做完分析还得译回来!看过姚老师的《商业数据挖掘案例》中有关的SAS代码,但貌似也是针对英文文本的,总之要用软件,不会太省心。。中文和英文文本挖掘差异很大(可以搜索相关论文对比),因此,谋生了得自己写代码的想法,但是作为数据分析者,哪门语言比较合适呢,个人实践:python语言再合适不过,而且他有很多开源的包,可以处理很多复杂的工作,以下的附件是个人实践所得到的ppt,另外附上一份开源代码针对文本挖掘(注意,这里的代码要根据自己的需要扩充和修改,比如ppt里的结论是经过代码模块扩充和优化了的,分词部分原来的代码写得很粗糙,我将java的ANSJ分词模块植入其中,再写接口导入分词后的数据精度增加了不少;另外,要做算法对比也要自己写代码,这里的ROC曲线可不能像软件里面拖出来就用了,给一篇文章,虽然是matlab写的,但很容易改成python代码),请原谅不能将改造后的代码直接上传,但将主体代码上传了(怎么调用里面有example),另外,按照ppt里的流程绝对可以做好文本挖掘了,也为了督促大家好好学习python,写出自己的分析应用来,绝对好过对软件太依赖。所有的材料只收取4个论坛币,这些都是自己的实践结果,希望在坛子里也有一点点回报,请大家批评指正。 二类分类器的ROC曲线生成算法.pdf (273.6 KB, 需要: 1 个论坛币)
pymining.zip (565.33 KB, 需要: 1 个论坛币)
垃圾信息识别.ppt (741.5 KB, 需要: 2 个论坛币)

补充:很好的python学习文档“python核心编程”



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 互联网 Clementine12 python核心编程 clementine 互联网 挖掘 支持英文 源代码 python

已有 1 人评分学术水平 收起 理由
zhukovasky + 1 观点有启发

总评分: 学术水平 + 1   查看全部评分

本帖被以下文库推荐

沙发
风de方向(未真实交易用户) 发表于 2013-1-8 09:41:07
可以做网络文本分析用的是吗?

藤椅
antili(未真实交易用户) 发表于 2013-1-8 09:46:04
风de方向 发表于 2013-1-8 09:41
可以做网络文本分析用的是吗?
是的,忘了说,里面有朴素贝叶斯分类、代偿贝叶斯分类(效果优于朴素,貌似mout海量数据挖掘就是用的这个),还有就是k均值聚类,里面的网络图是pajek绘制

板凳
风de方向(未真实交易用户) 发表于 2013-1-8 09:47:29
一般的词濒和编码等都可以做到了?

报纸
antili(未真实交易用户) 发表于 2013-1-8 09:49:40
风de方向 发表于 2013-1-8 09:47
一般的词濒和编码等都可以做到了?
词频统计是个粗糙的东西,你分词完以后可以自己统计,但是要分类聚类还是用tf-idf(修正高频低频词)作为词权吧

地板
风de方向(未真实交易用户) 发表于 2013-1-8 09:50:15
我想下载用,但是我没有论坛币了,怎么办呢?

7
antili(未真实交易用户) 发表于 2013-1-8 09:50:40
风de方向 发表于 2013-1-8 09:47
一般的词濒和编码等都可以做到了?
至于编码,python支持各种比如utf-8  gbk18030  gbk等等

8
风de方向(未真实交易用户) 发表于 2013-1-8 09:52:42
操作起来方便吗?我想直接用钱买,如果好用。

9
antili(未真实交易用户) 发表于 2013-1-8 09:56:27
风de方向 发表于 2013-1-8 09:52
操作起来方便吗?我想直接用钱买,如果好用。
这里的代码是个框架,基本功能已经实现(从分词到词权计算、构造VSM模型、参与分类聚类),你要根据自己的需要修改和添加,比如你要分词精度提高,就采用我上面提到的方法,但是要把接口写好。

10
风de方向(未真实交易用户) 发表于 2013-1-8 10:16:49
还要自己写代码是吧?我们不会这东西的,可以看懂吗?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-18 01:03