2020/01/02
《百面机器学习-算法工程师带你去面试》读书笔记
《No.2: p6~p21》第一章 特征工程
Q3 高维特征组合的处理
1 什么是组合特征: 将一阶离散特征两两组合,构成高阶组合特征。
2 如何处理高维特征组合
处理ID类型的特征时,为了避免参数规模过大,先将参数降维后再进行组合处理。类似推荐系统矩阵分解的思路。
Q4 如何有效地找到特征组合
可透过”决策树”来找出特征组合
1. 决策树展示出的结果,每一条根节点到叶节点的路径可以看成一种特征组合。
2. 可用梯度提升决策树来找出特征组合,此方法就是在之前构建的决策树的残差上构建下一科决策树。
Q5 有哪些文本模型,各有什么优缺点?
1 有哪些文本模型?
1.1 词袋模型(Bag of Words)
1.1.1 将每篇文章看成一袋子词,不看每个词出现的顺序。
1.1.2 N-gram模型: 将连续出现的n个词,组成的词组作为一个单独的特征放到向量表示中;会进行词干抽取(Word Stemming),将不同词但同义词,归在一起处理。
1.2 TF-IDF(Term Frequency-Inverse Document Frequency):衡量”词”在原文章中的重要程度。TF