人大经济论坛 › 论坛 › 提问悬赏求职新闻读书功能一区 › 学道会 › 特征工程小结

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 诗人都在海底

759 4

[学习笔记] 特征工程小结 [推广有奖]

0关注
9粉丝

讲师

40%

还不是VIP/贵宾

威望: 0 级
论坛币: 5901 个
通用积分: 174.0465
学术水平: 10 点
热心指数: 13 点
信用等级: 8 点
经验: 9215 点
帖子: 232
精华: 0
在线时间: 332 小时
注册时间: 2018-9-28
最后登录: 2020-7-17

楼主

诗人都在海底

发表于 2019-3-16 12:47:08 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1. 为什么要进行归一化

归一化后会使每一维度数据的更新速度变得更为一致，可更快通过梯度下降法找到最优解。梯度下降法求解的模型有线性回归、逻辑回归、支持向量机、神经网络模型等，但归一化对决策树模型并不适用，以C4.5为例，模型节点分裂时主要依据数据集关于特征的信息增益比，而信息增益比与是否归一化是无关的。

2.类别特征如何处理

序号编码

独热编码

二进制编码

3 . 高维组合特征

一阶离散特征两两组合形成高维组合。

4. 如何有效找到组合特征

通过决策树寻找特征组合

5. 文本表示模型

Bag of Words

TF-IDF（Term Frequency-Inverse Document Frequency）

Topic Model

Word Embedding

6. Word2Vec

一种浅层神经网络模型，它有两种网络结构，分别是：CBOW根据上下文预测当前词的概率、Skip-gram根据当前词预测上下文的概率。

Word2vec和LDA的区别和联系

LDA：利用文档中的单词共现关系来进行主题聚类。也可理解为对“文档-单词”矩阵进行分解，得到“文档-主题”和“主题-单词”两个概率分布。

Word2Vec：对“上下文-单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的Word2Vec向量相似度较高，那么它们很可能经常在同样的上下文中出现。

主题模型和词嵌入两类方法的主要差异

主题模型基于“上下文-单词”矩阵进行主题推理。主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量（即主题）；

词嵌入方法根据“文档-单词”矩阵学习出词的隐含向量表示。词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。

7. 图像数据不足时的处方法

迁徙学习

生成对抗网络

图像处理

上采样

数据扩充

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Frequency Embedding Document inverse 神经网络模型特征工程

本帖被以下文库推荐

· 学道会最美学习笔记|主题: 8116, 订阅: 89

使用道具举报

沙发

经管之家编辑部

发表于 2019-3-16 13:22:19 |只看作者 |坛友微信交流群

为你点赞！

使用道具举报

藤椅

充实每一天 发表于 2019-3-16 13:22:46 来自手机 |只看作者 |坛友微信交流群

已点赞～

使用道具举报

板凳

jessie68us 发表于 2019-3-16 13:45:31 |只看作者 |坛友微信交流群

已经为您点赞！

使用道具举报

报纸

amtw14 发表于 2019-3-16 14:15:19 |只看作者 |坛友微信交流群

使用道具举报

返回列表

发帖

本版微信群

加JingGuanBbs
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学习笔记] 特征工程小结 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

一级伯乐勋章

初级学术勋章

中级学术勋章

初级热心勋章

中级热心勋章

初级信用勋章

中级信用勋章

高级热心勋章

本版微信群

[学习笔记] 特征工程小结 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

一级伯乐勋章

初级学术勋章

中级学术勋章

初级热心勋章

中级热心勋章

初级信用勋章

中级信用勋章

高级热心勋章

本版微信群

扫码加我拉你入群