楼主: CDA网校
2636 11

为什么是嵌入(embedding),不是向量化? [推广有奖]

管理员

已卖:189份资源

泰斗

2%

还不是VIP/贵宾

-

威望
3
论坛币
114997 个
通用积分
9589.4431
学术水平
268 点
热心指数
276 点
信用等级
243 点
经验
227157 点
帖子
6826
精华
19
在线时间
4361 小时
注册时间
2019-9-13
最后登录
2025-12-8

初级热心勋章

楼主
CDA网校 学生认证  发表于 2025-9-10 09:35:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

为什么是嵌入(embedding),不是向量化?

这个问题,曾在我初学 embedding 时感到迷惑:明明就是把单词变成向量的过程,为什么偏要叫“嵌入”这么一个听起来不相干的词?后来我看到了这样一篇文章:《流形视角下的Embedding》,了解到流形(Manifold)的概念,才恍然大悟。但是原文比较专业,我们这篇文章中忽略那些拓扑等数学定义,用一些通俗的语言进行介绍。

对于Embedding的理解,我们其实是随着对机器学习的学习深入而在逐步深化。

初学阶段,在Transformer中的编码器和解码器中,我们认为它就是个简单的“向量化”过程——把 token 映射成向量。

进阶一点,在检索增强生成(RAG):让AI拥有“知识库”能力中,我们意识到它关乎“含义”和“相关性”,语义被编码为向量空间中的方向和距离。这时,“嵌入”的内涵已初步显现。

更深层次,在Embedding:绘制AI的语义地图——从单词到万物的数字坐标革命中,我们看到了它的全貌:一种将高维、稀疏、离散的符号映射到低维、密集、连续的向量空间的技术。关键就在这组定语上——“嵌入”精髓正是这种从稀疏到稠密、从高维到低维的智能压缩与映射艺术,而“向量化”这个笼统的词根本无法体现这一点。

“向量化”与“嵌入”

向量化:是一个通用术语,泛指任何将非数值数据转换为数值向量的过程。比如One-Hot编码,它只是简单地将第n个词表示为一个10 万维(假设词典大小)的向量[0,0,...,1,...,0]。这种表示法高维且稀疏,无法体现任何语义关系(所有词之间的距离都相等)。

“嵌入”embedding一词最早源于数学中的空间映射理论(如拓扑学、微分几何),指将高维空间中的结构(如流形)以无损或低损的方式映射到低维空间,同时保留关键属性(如距离、连续性)。

那么问题来了:为什么我们能够、并且需要放弃像One-Hot那样“完整”的高维空间,转而追求低维的密集表示呢?

这背后的核心思想,也是理解深度学习为何有效的基石——流形假说(Manifold Hypothesis)。

理解嵌入的前提:流形假说

流形假说认为:我们现实中看到的复杂高维数据(如图像、语音、文本),其有效内在维度其实很低,并且这些数据点大致集中在一个嵌入在高维空间中的低维流形(Manifold)上。

这个概念有点抽象,我们拆解一下:

  1. 高维数据:我们处理的数据往往维度很高。例如,一张1024×1024彩色图片,它有超过300万个维度(每一个像素点x RGB三个独立的值)。如果每个像素都独立随机变化,绝大多数组合都是无意义的噪声。

  2. 内在低维:虽然数据位于高维空间,但支配它们变化的因素其实远少于维度数量。例如,一张人脸图片的像素变化主要由基本的五官结构、光照、角度、表情等少数核心要素共同决定,而不是300万个像素各自独立地随机变化。

  3. 流形(Manifold):你可以把它想象成一个扭曲、弯曲的低维曲面,它被“镶嵌”在高维空间中。例如:一张纸(二维平面)被揉成一团,放在三维空间里。

一个绝佳的比喻:地球与地图

高维观测空间:我们生活的三维宇宙。

低维流形:地球的表面(一个二维曲面)。

数据点:地球上的城市(本在地球表面上,但我们用三维坐标来记录)。

流形假说:认识到所有这些城市虽然用三维坐标表示,但实际上都近似分布在一个二维表面上。

嵌入(过程):绘制一张二维世界地图的过程(这个过程需要巧妙地投影,将弯曲的地球表面展开成平面,同时尽量保持大陆之间的相对关系)。

嵌入(结果):绘制好的那张二维世界地图(地图上每个二维点就对应了地球上一个城市的三维坐标)。

流形假说告诉我们“数据本质是低维的”这一事实,而嵌入技术则是我们利用这一事实来揭示其本质结构、创造有用表示的工具。

为什么需要流形假说?

流形假说为嵌入提供了合理性。如果没有它,强行将数据从高维压缩到低维就像是随机丢弃信息,必然导致大量信息丢失。但正因为我们相信数据内在规律性(人脸的结构、语言的语法),使得它们被约束在一个低维流形上,嵌入过程才变得有意义:它在剥离冗余的高维噪声外壳,揭示其紧凑的低维本质。

与深度学习何干?

进一步的,我们再来看深度学习,深度学习被认为是通过多层非线性变换,逐步将数据从原始高维空间“解开”或“展平”到另一个更容易处理的空间。在前馈神经网络(FFN)——以Transformer架构为线,深度学习课程系列中,我们已经举过在三维空间中揉成一团的纸,重新展平为一张纸的例子。深度学习的每一层其实也是在做相似的事,每一层可能都在学习流形的不同方面。底层学习局部边缘、纹理等简单特征,高层将这些简单特征组合成更复杂的全局特征(如眼睛、鼻子),最终将缠绕在一起的复杂流形变得线性可分。

上面啰啰嗦嗦说了这么多,回到最初的问题:为什么是“嵌入”而不是“向量化”?

其实你要觉得embedding就是向量化也没问题,确实是一种特殊的向量化,但“嵌入”这个词,精准地捕捉到了这一过程的精髓所在。

如果说“向量化”是一个笼统的动作描述(把东西变成向量),那么“嵌入”就是为这个动作注入了灵魂和目的——它特指那种旨在保留关键结构和语义关系的、从高维到低维的智能压缩与映射。

它是在为我们认知世界中的复杂事物,绘制一张张精妙的“语义地图”。而“向量化”这个词,却画不出这张地图的轮廓与神韵。

当然,我们也要认识到,“流形假说”本质上是一种强大的归纳偏置(Inductive Bias),而非放之四海而皆准的数学定理。它在图像、语音、文本等领域被经验性地证明极其有效,但这并不意味着它适用于所有数据。如果数据本身的内在维度远高于我们设定的目标嵌入维度,那么这种嵌入过程注定会丢失大量关键信息,从而导致模型失效。

  • 原文作者: AI思享咖啡屋
  • 原文链接: https://mp.weixin.qq.com/s/EvzX8-4SoXYyt9hJD5dPmQ
  • 来源: 微信公众号

学习入口:https://edu.cda.cn/goods/show/3814?targetId=6587&preview=0

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Embedding DING ING DDI Bed

沙发
CDA网校 学生认证  发表于 2025-9-10 09:36:39
向量化:是一个通用术语,泛指任何将非数值数据转换为数值向量的过程。比如One-Hot编码,它只是简单地将第n个词表示为一个10 万维(假设词典大小)的向量[0,0,...,1,...,0]。这种表示法高维且稀疏,无法体现任何语义关系(所有词之间的距离都相等)。

藤椅
CDA网校 学生认证  发表于 2025-9-10 09:36:43
“嵌入”embedding一词最早源于数学中的空间映射理论(如拓扑学、微分几何),指将高维空间中的结构(如流形)以无损或低损的方式映射到低维空间,同时保留关键属性(如距离、连续性)。

板凳
CDA网校 学生认证  发表于 2025-9-10 09:37:02
流形假说告诉我们“数据本质是低维的”这一事实,而嵌入技术则是我们利用这一事实来揭示其本质结构、创造有用表示的工具。

报纸
军旗飞扬 发表于 2025-9-10 10:17:46

地板
512661101 发表于 2025-9-10 12:04:46

7
yiyijiayuan 发表于 2025-9-10 17:01:28
还是路过。

8
cre8 发表于 2025-9-10 18:25:03
点赞分享 !

9
chensichn 学生认证  发表于 2025-9-11 07:53:29 来自手机
CDA网校 发表于 2025-9-10 09:35
为什么是嵌入(embedding),不是向量化?
这个问题,曾在我初学 embedding 时感到迷惑:明明就是把单词变成 ...
感谢分享

10
okwh 发表于 2025-9-11 09:06:26
正文的嵌入 愿意是镶嵌组合,仿照显微、望远照相的过程,更像是缩放,  嵌入 更接近是组合聚合包容榫卯镶嵌的意。
似乎大概只是 embeded(翻译成嵌入、具身)显得更高大上.....
至于流形,更高大上了,他说非常专业的数理知识(有点像 把坐标系的系、空间系 进行一般抽象,就像数变成代数、函数变成泛函),大部分人根本学不到它。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 09:56