人大经济论坛 › 论坛 › 提问悬赏求职新闻读书功能一区 › 学道会 › 【学习笔记】2019/12/24 《No.23: p181-p190》《增强型分 ...

发帖

楼主: peylinn8

491 2

24 《No.23: p181-p190》《增强型分析-AI驱动的数据分析 ... [推广有奖]

0关注
6粉丝

副教授

还不是VIP/贵宾

威望: 0 级
论坛币: 3852 个
通用积分: 378.7263
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 2958 点
帖子: 532
精华: 0
在线时间: 3 小时
注册时间: 2017-3-31
最后登录: 2023-10-31

楼主

peylinn8 发表于 2019-12-24 13:13:56 来自手机 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2019/12/24
《No.23: p181-p190》《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
第6章深入探讨CNN

6.3 Embedding
Embedding定义:一个数学结构包含另一个数学结构。将低维度的数据转换为高维度向量。
Word Embedding: 利用机器学习的技术，将稀疏的低维度信息转换为高维度信息，使得有语意关联的词语在高维度具有比较紧密的关系。
6.3.1 文本向量化的一般方法
  比较经典的文本向量化做法就是”TF-IDF”算法
  1.TF的计算: 就是词频(Term Frequency)。计算词语在文档中出现的次数。
  2.IDF的计算: 词语在全量文档出现的文档数。
  3.TF-IDF计算: TF*IDF(TF与IDF的乘积)，若TF-IDF值大，表示包含较多的语意信息。
  4.TF-IDF计算的结果，可用来计算词语在不同文档间的相似性。原理是计算向量间的余弦相似度，其值越小，代表相似度越高。
6.3.2 Word Embedding的原理及实现
  1.实现word embedding的两种方法
1)Count-based methods方法: 如LSI/LSA，工具是”Glove”。
2)Predictive methods方法: 如Neural Probabilistic Language Models, 工具如: “WordsVec”。
  2.支持Word Embedding的开源工具: gensim。中文词料库(Corpus)
  3.展现词向量的方法: 降维；如PCA或t-SNE(t-distributed stochastic Neighbor Embedding)算法。
  4.在实际项目中，大多需要开发者自己做word embedding，因各种行业领域不同，词语搭配就会不同。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：学习笔记数据分析习笔记增强型 distributed

沙发

512661101 发表于 2019-12-24 23:06:53 来自手机

藤椅

jessie68us 发表于 2020-1-27 14:29:17 来自手机

返回列表

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学习笔记] 【学习笔记】2019/12/24 《No.23: p181-p190》《增强型分析-AI驱动的数据分析 ... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

高级热心勋章

本版微信群

[学习笔记] 【学习笔记】2019/12/24 《No.23: p181-p190》《增强型分析-AI驱动的数据分析 ... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

高级热心勋章

本版微信群

扫码加我拉你入群