发帖

楼主: 小本本苯笨

491 0

[其他] 【白话大模型】02：万物皆可向量化？教你理解AI眼中的“语义空间” [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-11-22
最后登录: 2018-11-22

楼主

小本本苯笨 发表于 2025-12-2 16:31:08 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

【白话大模型】02：万物皆可向量化？带你揭秘AI中的“语义空间”

上一集我们聊到了Token（词元）的概念。

当你在ChatGPT中输入“苹果”这两个字时，AI并不会像人类一样联想到那个红彤彤的水果。它看到的，只是一串数字编号。例如：

[2398]

这就引出了一个问题：在Token的编码体系中，“苹果”和某个完全不相关的字（比如“龘”）可能只是相邻的编号，看似是邻居，实则毫无语义关联；而“苹果”与“香蕉”，明明同属水果、含义相近，在编号列表里却可能相隔甚远。

那么问题来了——

AI是如何从这些冰冷的数字中，理解出“苹果”和“香蕉”相似，而“苹果”和“卡车”截然不同的呢？

答案藏在大模型最核心也最奇妙的技术之一：

Embedding（嵌入 / 向量化）

[2399]

????? 语言如同一张地图

为了理解这个概念，我们需要打开思维的维度。

设想我们将世界上所有的词语，全部投放进一个巨大的多维坐标系中。

1. 二维视角下的“口味空间”

假设我们构建一个简单的二维世界：X轴表示“甜度”，Y轴表示“硬度”。

棉花糖：极甜且柔软，坐标可能落在 ——

[9, 1]

石头：无甜味且坚硬，其位置可能位于 ——

[0, 10]

苹果：较甜、质地偏硬，大概处于 ——

[7, 6]

梨：同样偏甜，但略软一些，坐标可能接近 ——

[7, 4]

在这个图谱中可以观察到一个有趣现象：“苹果”与“梨”的坐标非常接近，而“棉花糖”与“石头”则相距遥远。这正是Embedding思想的雏形——将抽象的事物转化为可度量的空间位置。

2. 高维宇宙中的“语义空间”

显然，仅靠“甜度”和“硬度”两个维度无法刻画现实世界的复杂性。我们需要更多维度来描述词语之间的深层关系：

是否为生物？是否属于皇室？是男性还是女性？是动词吗？是否带有负面情绪？……

现代顶级大模型（如GPT-4的text-embedding-3）通常使用高达1536个维度，甚至更多。每个Token被处理后，都会生成一个包含1536个浮点数的向量。

以“国王”为例，它的向量化表示可能是这样的：

[0.9, -0.2, 0.5, 0.1, ...]

这一长串数字，就是“国王”在AI所构建的高维语义宇宙中的精确“GPS坐标”。

在这个空间中：

“猫”与“狗”彼此靠近；
“快乐”与“高兴”几乎重合；
“医院”与“医生”虽用词不同，但在向量空间中距离极近。

一句话总结：Embedding的本质，是把“语义相似性”转化成了“空间距离相近”。对AI而言，意思越接近的词，它们的向量坐标就越靠近。

???? 数学奇迹：国王 - 男人 + 女人 ≈ 女王

当语言变成数学向量之后，最惊艳的操作出现了——我们可以对词语进行加减运算。

在自然语言处理领域，有一个经典案例震惊了整个学术界：

如果我们取“国王”的向量，

减去“男人”的向量，

再加上“女人”的向量，

结果会指向哪里？

King - Man + Woman ≈ Queen

计算结果惊人地接近“女王”的向量坐标！

AI并没有查阅任何词典，它只是在做一道高维空间中的几何题：

从“国王”出发；
减去“男性”特征（向中性方向移动）；
加上“女性”特征（向女性身份偏移）；
最终落点正好落在“女性统治者”——即“女王”的位置上。

这说明：Embedding不仅完成了符号映射，更捕捉到了词语背后的语义本质。

??????♂? 这项技术为何如此重要？

你可能会问：这种向量操作除了炫技，真的有用吗？

当然有。它是当今几乎所有智能AI应用的底层基石。

1. 搜索系统的革命：从关键词匹配到语义理解

传统搜索引擎依赖关键词匹配。例如，你搜索“怎么修爆胎”，系统只会查找含有“爆胎”二字的文章。如果一篇文章标题是《汽车轮胎漏气更换指南》，尽管内容完全相关，但因未出现“爆胎”关键词，旧式系统就无法检索到它。

而现代AI驱动的搜索（如RAG技术，后续篇章将深入讲解），采用的是语义搜索。

它会：

将你的查询语句转为向量；
将数据库中的文档也转为向量；
通过计算向量间的距离，判断语义相似性。

于是，“怎么修爆胎”和“轮胎漏气更换指南”虽然文字不同，但在高维空间中却是“脸贴脸”的邻居。AI因此能精准推送相关内容。

2. 推荐系统的智能内核

抖音为何总能推荐你喜欢的视频？淘宝为何知道你想买某件商品？

背后同样是向量的力量。

你的浏览行为形成一个兴趣向量，每件商品也有自己的属性向量。系统每天都在执行一项任务：找出那些与你兴趣向量距离最近的商品，并推送给用户。

???? 程序员彩蛋：看看真实的向量长什么样

光讲理论不够直观。虽然人类难以想象1536维的空间，但我们可以通过代码调用API查看实际的Embedding输出。

以下是一个伪代码示例，展示如何使用OpenAI的Embedding接口获取文本向量：

from openai import OpenAI
import numpy as np

# 初始化客户端（假设已配置有效密钥）
client = OpenAI(api_key="your-key")

def get_embedding(text):
    """
    将输入文本转换为向量（一组浮点数）
    """
    response = client.embeddings.create(
        input=text,
        model="text-embedding-3-small"
    )
    return response.data[0].embedding

运行该函数后，任意文本都将被转化为一串数字——这就是它在AI认知世界中的“坐标”。

# 提取文本的向量表示
response = client.embeddings.create(
    model="text-embedding-3-small",
    input=text
)
# 从返回结果中获取嵌入向量（即高维空间中的坐标）
return response.data[0].embedding

# --- 向量运算的奇妙时刻 ---
# 计算以下四个词语的嵌入向量
vec_king = get_embedding("国王")
vec_man = get_embedding("男人")
vec_woman = get_embedding("女人")
vec_queen = get_embedding("女王")

# 查看部分数值（仅展示前5个维度）
print(f"国王的坐标前5位: {vec_king[:5]}")
# 示例输出可能为：[-0.012, 0.045, -0.023, ...]

# 尝试进行类比推理：国王 - 男人 + 女人 ≈ 女王
# 实际计算中会使用余弦相似度等方法衡量语义接近程度
# calculation = vec_king - vec_man + vec_woman
# 然后比较 calculation 与 vec_queen 的距离是否足够近

当你执行上述代码时，终端将输出一连串看似杂乱的小数。
但请不要轻视这些数字。
它们是机器理解《红楼梦》的方式，也是算法感知“我爱你”这三个字背后情感的路径。

[2398]

核心洞察总结：


    万物皆可向量化：无论是文字、图像还是视频，都可以被映射为高维空间中的一个点。
    距离即含义：在语义空间中，两个向量之间的距离越近，其代表的内容语义就越相似。
    语言可计算：我们可以在语义层面进行数学操作，比如“国王 - 男人 + 女人 ≈ 女王”，体现出语言的代数特性。


在掌握了 Token（语言的基本单元） 和 Embedding（语义的空间表达）之后，
我们已经准备好了原材料，也夯实了理论基础。

接下来，需要一台强大的处理引擎——它能够吸收海量数据，高速运行，并生成流畅自然的语言响应。

这台引擎，正是那个令Google深感遗憾、让OpenAI崛起封神的技术架构。

下一篇文章中，我们将深入解析它的运作原理：
【白话大模型】03：Transformer架构：大模型时代的“内燃机”是如何工作的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：向量化 Calculation embeddings Embedding transform

[其他] 【白话大模型】02：万物皆可向量化？教你理解AI眼中的“语义空间” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

【白话大模型】02：万物皆可向量化？带你揭秘AI中的“语义空间”

Embedding（嵌入 / 向量化）

????? 语言如同一张地图

1. 二维视角下的“口味空间”

2. 高维宇宙中的“语义空间”

???? 数学奇迹：国王 - 男人 + 女人 ≈ 女王

??????♂? 这项技术为何如此重要？

1. 搜索系统的革命：从关键词匹配到语义理解

2. 推荐系统的智能内核

???? 程序员彩蛋：看看真实的向量长什么样

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[其他] 【白话大模型】02：万物皆可向量化？教你理解AI眼中的“语义空间” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

【白话大模型】02：万物皆可向量化？带你揭秘AI中的“语义空间”

Embedding（嵌入 / 向量化）

????? 语言如同一张地图

1. 二维视角下的“口味空间”

2. 高维宇宙中的“语义空间”

???? 数学奇迹：国王 - 男人 + 女人 ≈ 女王

??????♂? 这项技术为何如此重要？

1. 搜索系统的革命：从关键词匹配到语义理解

2. 推荐系统的智能内核

???? 程序员彩蛋：看看真实的向量长什么样

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群