759 4

[学习笔记] 特征工程小结 [推广有奖]

  • 0关注
  • 9粉丝

讲师

40%

还不是VIP/贵宾

-

威望
0
论坛币
5901 个
通用积分
174.0465
学术水平
10 点
热心指数
13 点
信用等级
8 点
经验
9215 点
帖子
232
精华
0
在线时间
332 小时
注册时间
2018-9-28
最后登录
2020-7-17

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1. 为什么要进行归一化

    归一化后会使每一维度数据的更新速度变得更为一致,可更快通过梯度下降法找到最优解。梯度下降法求解的模型有线性回归、逻辑回归、支持向量机、神经网络模型等,但归一化对决策树模型并不适用,以C4.5为例,模型节点分裂时主要依据数据集关于特征的信息增益比,而信息增益比与是否归一化是无关的。

2.类别特征如何处理
  • 序号编码
  • 独热编码
  • 二进制编码
3 . 高维组合特征

    一阶离散特征两两组合形成高维组合。

4. 如何有效找到组合特征

    通过决策树寻找特征组合

5. 文本表示模型
  • Bag of Words
  • TF-IDF(Term Frequency-Inverse Document Frequency)
  • Topic Model
  • Word Embedding
6. Word2Vec

    一种浅层神经网络模型,它有两种网络结构,分别是:CBOW根据上下文预测当前词的概率、Skip-gram根据当前词预测上下文的概率。


  • Word2vec和LDA的区别和联系

    LDA:利用文档中的单词共现关系来进行主题聚类。也可理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。

    Word2Vec:对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如 果两个单词所对应的Word2Vec向量相似度较高,那么它们很可能经常在同样的上下文中出现。

  • 主题模型和词嵌入两类方法的主要差异

    主题模型基于“上下文-单词”矩阵进行主题推理。主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题);

词嵌入方法根据“文档-单词”矩阵学习出词的隐含向量表示。词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。

7. 图像数据不足时的处方法
  • 迁徙学习
  • 生成对抗网络
  • 图像处理
  • 上采样
  • 数据扩充

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Frequency Embedding Document inverse 神经网络模型 特征工程

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
zl89 + 80 精彩帖子
经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

总评分: 经验 + 80  论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

本帖被以下文库推荐

为你点赞!

使用道具

藤椅
充实每一天 发表于 2019-3-16 13:22:46 来自手机 |只看作者 |坛友微信交流群
已点赞~

使用道具

板凳
jessie68us 发表于 2019-3-16 13:45:31 |只看作者 |坛友微信交流群
已经为您点赞!

使用道具

报纸
amtw14 发表于 2019-3-16 14:15:19 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 22:43