楼主: bthletic
2584 0

机器学习中特征向量应该以何种形式输入? [推广有奖]

  • 0关注
  • 0粉丝

初中生

47%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
278 点
帖子
9
精华
0
在线时间
16 小时
注册时间
2010-4-28
最后登录
2021-2-6

楼主
bthletic 发表于 2018-10-16 09:15:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在进行机器学习相关内容实践的时候,给定练习的例子中,输入数据集都是已经被准备好的。但是在现实的特征工程当中,输入向量到底应该以何种形式输入呢?目前好像这种讨论比较少,都是在教授机器学习的一些套路的东西。我想问的就是,相对于每一个输入的x,它的具体形式是什么?比如如果一个特征向量中包含一个字符串的话,那么这个字符串往往以one hot形式编码,那么这个编码在输入向量中如何体现呢?

比如这么一个向量:上海,租金:10000,平米数:60。使用one hot编码 001来为上海编码,那么这个特征向量抛开缩放,应该是这种形式的3维向量吗?[001,10000,60]还是应该以稀疏的形式[0,0,1,10000,60]这样的形式呈现?

再比如一个时间序列的例子,如果一个向量中包含一个连续的时间序列,它的表达形式是什么样的呢?比如它包含日期,波动率,成交量三个信息,那么它的输入形式是否可以是[[日期1,波动率1,成交量1],[日期2,波动率2,成交量2],[日期3,波动率3,成交量3]]这样复杂的多维度形式。还是只能以[日期1,波动率1,成交量1,日期2,波动率2,成交量2,日期3,波动率3,成交量3]这样连续的形式输入?

有实操过特征工程的小伙伴,可不可以帮忙上车呀?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:时间序列 机器学习 特征向量 输入向量 特征工程

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 14:42