归一化后会使每一维度数据的更新速度变得更为一致,可更快通过梯度下降法找到最优解。梯度下降法求解的模型有线性回归、逻辑回归、支持向量机、神经网络模型等,但归一化对决策树模型并不适用,以C4.5为例,模型节点分裂时主要依据数据集关于特征的信息增益比,而信息增益比与是否归一化是无关的。
2.类别特征如何处理- 序号编码
- 独热编码
- 二进制编码
一阶离散特征两两组合形成高维组合。
4. 如何有效找到组合特征通过决策树寻找特征组合
5. 文本表示模型- Bag of Words
- TF-IDF(Term Frequency-Inverse Document Frequency)
- Topic Model
- Word Embedding
一种浅层神经网络模型,它有两种网络结构,分别是:CBOW根据上下文预测当前词的概率、Skip-gram根据当前词预测上下文的概率。
- Word2vec和LDA的区别和联系
LDA:利用文档中的单词共现关系来进行主题聚类。也可理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
Word2Vec:对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如 果两个单词所对应的Word2Vec向量相似度较高,那么它们很可能经常在同样的上下文中出现。
- 主题模型和词嵌入两类方法的主要差异
主题模型基于“上下文-单词”矩阵进行主题推理。主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题);
词嵌入方法根据“文档-单词”矩阵学习出词的隐含向量表示。词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。
7. 图像数据不足时的处方法- 迁徙学习
- 生成对抗网络
- 图像处理
- 上采样
- 数据扩充