楼主: 小本本苯笨
278 0

[其他] 【白话大模型】02:万物皆可向量化?教你理解AI眼中的“语义空间” [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-11-22
最后登录
2018-11-22

楼主
小本本苯笨 发表于 2025-12-2 16:31:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

【白话大模型】02:万物皆可向量化?带你揭秘AI中的“语义空间”

上一集我们聊到了Token(词元)的概念。

当你在ChatGPT中输入“苹果”这两个字时,AI并不会像人类一样联想到那个红彤彤的水果。它看到的,只是一串数字编号。例如:

[2398]

这就引出了一个问题:在Token的编码体系中,“苹果”和某个完全不相关的字(比如“龘”)可能只是相邻的编号,看似是邻居,实则毫无语义关联;而“苹果”与“香蕉”,明明同属水果、含义相近,在编号列表里却可能相隔甚远。

那么问题来了——

AI是如何从这些冰冷的数字中,理解出“苹果”和“香蕉”相似,而“苹果”和“卡车”截然不同的呢?

答案藏在大模型最核心也最奇妙的技术之一:

Embedding(嵌入 / 向量化)

[2399]

????? 语言如同一张地图

为了理解这个概念,我们需要打开思维的维度。

设想我们将世界上所有的词语,全部投放进一个巨大的多维坐标系中。

1. 二维视角下的“口味空间”

假设我们构建一个简单的二维世界:X轴表示“甜度”,Y轴表示“硬度”。

  • 棉花糖:极甜且柔软,坐标可能落在 ——
  • [9, 1]
  • 石头:无甜味且坚硬,其位置可能位于 ——
  • [0, 10]
  • 苹果:较甜、质地偏硬,大概处于 ——
  • [7, 6]
  • :同样偏甜,但略软一些,坐标可能接近 ——
  • [7, 4]

在这个图谱中可以观察到一个有趣现象:“苹果”与“梨”的坐标非常接近,而“棉花糖”与“石头”则相距遥远。这正是Embedding思想的雏形——将抽象的事物转化为可度量的空间位置。

2. 高维宇宙中的“语义空间”

显然,仅靠“甜度”和“硬度”两个维度无法刻画现实世界的复杂性。我们需要更多维度来描述词语之间的深层关系:

是否为生物?是否属于皇室?是男性还是女性?是动词吗?是否带有负面情绪?……

现代顶级大模型(如GPT-4的text-embedding-3)通常使用高达1536个维度,甚至更多。每个Token被处理后,都会生成一个包含1536个浮点数的向量。

以“国王”为例,它的向量化表示可能是这样的:

[0.9, -0.2, 0.5, 0.1, ...]

这一长串数字,就是“国王”在AI所构建的高维语义宇宙中的精确“GPS坐标”。

在这个空间中:

  • “猫”与“狗”彼此靠近;
  • “快乐”与“高兴”几乎重合;
  • “医院”与“医生”虽用词不同,但在向量空间中距离极近。

一句话总结:Embedding的本质,是把“语义相似性”转化成了“空间距离相近”。对AI而言,意思越接近的词,它们的向量坐标就越靠近。

???? 数学奇迹:国王 - 男人 + 女人 ≈ 女王

当语言变成数学向量之后,最惊艳的操作出现了——我们可以对词语进行加减运算

在自然语言处理领域,有一个经典案例震惊了整个学术界:

如果我们取“国王”的向量,

减去“男人”的向量,

再加上“女人”的向量,

结果会指向哪里?

King - Man + Woman ≈ Queen

计算结果惊人地接近“女王”的向量坐标!

AI并没有查阅任何词典,它只是在做一道高维空间中的几何题:

  1. 从“国王”出发;
  2. 减去“男性”特征(向中性方向移动);
  3. 加上“女性”特征(向女性身份偏移);
  4. 最终落点正好落在“女性统治者”——即“女王”的位置上。

这说明:Embedding不仅完成了符号映射,更捕捉到了词语背后的语义本质

??????♂? 这项技术为何如此重要?

你可能会问:这种向量操作除了炫技,真的有用吗?

当然有。它是当今几乎所有智能AI应用的底层基石。

1. 搜索系统的革命:从关键词匹配到语义理解

传统搜索引擎依赖关键词匹配。例如,你搜索“怎么修爆胎”,系统只会查找含有“爆胎”二字的文章。如果一篇文章标题是《汽车轮胎漏气更换指南》,尽管内容完全相关,但因未出现“爆胎”关键词,旧式系统就无法检索到它。

而现代AI驱动的搜索(如RAG技术,后续篇章将深入讲解),采用的是语义搜索

它会:

  • 将你的查询语句转为向量;
  • 将数据库中的文档也转为向量;
  • 通过计算向量间的距离,判断语义相似性。

于是,“怎么修爆胎”和“轮胎漏气更换指南”虽然文字不同,但在高维空间中却是“脸贴脸”的邻居。AI因此能精准推送相关内容。

2. 推荐系统的智能内核

抖音为何总能推荐你喜欢的视频?淘宝为何知道你想买某件商品?

背后同样是向量的力量。

你的浏览行为形成一个兴趣向量,每件商品也有自己的属性向量。系统每天都在执行一项任务:找出那些与你兴趣向量距离最近的商品,并推送给用户。

???? 程序员彩蛋:看看真实的向量长什么样

光讲理论不够直观。虽然人类难以想象1536维的空间,但我们可以通过代码调用API查看实际的Embedding输出。

以下是一个伪代码示例,展示如何使用OpenAI的Embedding接口获取文本向量:

from openai import OpenAI
import numpy as np

# 初始化客户端(假设已配置有效密钥)
client = OpenAI(api_key="your-key")

def get_embedding(text):
    """
    将输入文本转换为向量(一组浮点数)
    """
    response = client.embeddings.create(
        input=text,
        model="text-embedding-3-small"
    )
    return response.data[0].embedding

运行该函数后,任意文本都将被转化为一串数字——这就是它在AI认知世界中的“坐标”。

# 提取文本的向量表示
response = client.embeddings.create(
    model="text-embedding-3-small",
    input=text
)
# 从返回结果中获取嵌入向量(即高维空间中的坐标)
return response.data[0].embedding

# --- 向量运算的奇妙时刻 ---
# 计算以下四个词语的嵌入向量
vec_king = get_embedding("国王")
vec_man = get_embedding("男人")
vec_woman = get_embedding("女人")
vec_queen = get_embedding("女王")

# 查看部分数值(仅展示前5个维度)
print(f"国王的坐标前5位: {vec_king[:5]}")
# 示例输出可能为:[-0.012, 0.045, -0.023, ...]

# 尝试进行类比推理:国王 - 男人 + 女人 ≈ 女王
# 实际计算中会使用余弦相似度等方法衡量语义接近程度
# calculation = vec_king - vec_man + vec_woman
# 然后比较 calculation 与 vec_queen 的距离是否足够近

当你执行上述代码时,终端将输出一连串看似杂乱的小数。
但请不要轻视这些数字。
它们是机器理解《红楼梦》的方式,也是算法感知“我爱你”这三个字背后情感的路径。

[2398]
核心洞察总结:
  • 万物皆可向量化:无论是文字、图像还是视频,都可以被映射为高维空间中的一个点。
  • 距离即含义:在语义空间中,两个向量之间的距离越近,其代表的内容语义就越相似。
  • 语言可计算:我们可以在语义层面进行数学操作,比如“国王 - 男人 + 女人 ≈ 女王”,体现出语言的代数特性。
在掌握了 Token(语言的基本单元) 和 Embedding(语义的空间表达)之后, 我们已经准备好了原材料,也夯实了理论基础。 接下来,需要一台强大的处理引擎——它能够吸收海量数据,高速运行,并生成流畅自然的语言响应。 这台引擎,正是那个令Google深感遗憾、让OpenAI崛起封神的技术架构。 下一篇文章中,我们将深入解析它的运作原理: 【白话大模型】03:Transformer架构:大模型时代的“内燃机”是如何工作的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:向量化 Calculation embeddings Embedding transform

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 12:50