之前用R的时候factor类型可以直接导入模型,现在用Python使用随机森林的时候才发现不支持。
查了下资料,说这个时候一般用one hot encoding,但是我的数据类别有1000多个,容量太大。
请问这个时候一般怎么处理?或者有没有什么好的压缩次元的方法?
|
楼主: jimozhegu
|
1682
2
[问答] python怎么处理大容量的类别数据?(category data) |
|
大专生 30%
-
|
| ||
|
|
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


