我在尝试用文本挖掘来处理微博信息,在特征选择被卡住了:我试了两种,一种是词频统计后人工筛选前X百个,一种是randomforest的importance项筛选前X百个,发现前者在训练时效果更好。但二者在后面分析新数据时效果都一般,一眼扫过去分类分得乱七八糟。
后来还看到tfidf,但因为我分析微博数据,不知道总文档库该去哪找,感觉无法实行了。
求教大神们都用什么方法来做这个事情呀?十分感谢!
|
楼主: caisinong
|
1708
1
[问题] 文本挖掘特征选择:该用什么方法? |
|
已卖:182份资源 大专生 40%
-
|
| ||
|
|
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


