楼主: peylinn8
462 2

[学习笔记] 【学习笔记】2019/12/24 《No.23: p181-p190》《增强型分析-AI驱动的数据分析 ... [推广有奖]

  • 0关注
  • 6粉丝

副教授

4%

还不是VIP/贵宾

-

威望
0
论坛币
3852 个
通用积分
378.7263
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2958 点
帖子
532
精华
0
在线时间
3 小时
注册时间
2017-3-31
最后登录
2023-10-31

楼主
peylinn8 发表于 2019-12-24 13:13:56 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
2019/12/24
《No.23: p181-p190》《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
第6章 深入探讨CNN

6.3 Embedding
Embedding定义:一个数学结构包含另一个数学结构。将低维度的数据转换为高维度向量。
Word Embedding: 利用机器学习的技术,将稀疏的低维度信息转换为高维度信息,使得有语意关联的词语在高维度具有比较紧密的关系。
6.3.1 文本向量化的一般方法
  比较经典的文本向量化做法就是”TF-IDF”算法
  1.TF的计算: 就是词频(Term Frequency)。计算词语在文档中出现的次数。
  2.IDF的计算: 词语在全量文档出现的文档数。
  3.TF-IDF计算: TF*IDF(TF与IDF的乘积),若TF-IDF值大,表示包含较多的语意信息。
  4.TF-IDF计算的结果,可用来计算词语在不同文档间的相似性。原理是计算向量间的余弦相似度,其值越小,代表相似度越高。
6.3.2 Word Embedding的原理及实现
  1.实现word embedding的两种方法
   1)Count-based methods方法: 如LSI/LSA,工具是”Glove”。
   2)Predictive methods方法: 如Neural Probabilistic Language Models, 工具如: “WordsVec”。
  2.支持Word Embedding的开源工具: gensim。中文词料库(Corpus)
  3.展现词向量的方法: 降维; 如PCA或t-SNE(t-distributed stochastic Neighbor Embedding)算法。
  4.在实际项目中,大多需要开发者自己做word embedding,因各种行业领域不同,词语搭配就会不同。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 数据分析 习笔记 增强型 distributed

沙发
512661101 发表于 2019-12-24 23:06:53 来自手机

藤椅
jessie68us 发表于 2020-1-27 14:29:17 来自手机

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 08:09