楼主: がんばで
17 0

RAG从入门到精通(十五)——高级RAG范式 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-3-19
最后登录
2018-3-19

楼主
がんばで 发表于 昨天 21:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

GraphDB:图数据库的核心概念

GraphDB 是一种专门用于存储和管理图结构数据的数据库管理系统,其核心由以下三部分构成:

  • 节点(Nodes):表示现实世界中的实体,如人、产品或事件。
  • 边(Edges):代表实体之间的关系,体现连接性与交互。
  • 属性(Properties):用于描述节点和边的具体特征,支持丰富的信息表达。

以下是关于节点、关系及属性的实际示例说明:

GraphDB 的主要特性

高效的关系查询能力

在处理复杂关联查询时,传统关系型数据库往往依赖多次表连接操作,性能随数据量增长显著下降。而 GraphDB 具备天然优势:

  • 无需使用 Join 操作,通过边可直接遍历相关联的节点,大幅提升查询效率。
  • 原生支持多种图遍历算法,例如最短路径计算、社区发现等高级分析任务。
  • 查询性能随数据规模的增长趋于线性变化,具备更强的可扩展性。
  • 索引机制针对图结构进行优化,实现快速的关系定位与检索。

灵活的数据建模方式

相较于传统数据库需要预先定义严格模式,GraphDB 提供了更高的灵活性:

  • 无需在初期固定数据结构,模型可根据需求动态调整。
  • 允许节点和边携带属性,从而表达更复杂的语义信息。
  • 支持多类型关系并存,同一对节点之间可以存在多种不同性质的连接。
  • 便于适应业务演进,实现数据模型的持续迭代与扩展。

严格的表结构

这种结构使得数据能够以更自然的方式组织,如下所示:

动态添加新的节点类型和关系类型

同时,节点与边的丰富属性配置也得以可视化呈现:

任意属性

不同类型的关系共存示意图:

多重关系

直观的数据表达形式

图数据库的结构贴近人类的认知习惯,具有良好的可读性和解释性:

  • 数据以图形化方式展现,结构清晰,易于理解与交流。
  • 符合自然思维逻辑,降低建模和查询过程中的认知负担。
  • 配备图形化探索工具,方便用户进行交互式数据分析
  • 有助于开展数据质量审查,快速识别异常或不一致的数据点。

社区与社区发现

社区是指在网络或图结构中,一组内部连接紧密、外部连接稀疏的节点集合,形成相对独立的知识簇或功能模块。

知识图谱中 围绕特定主题 / 领域、节点间语义关联密度显著高于外部的子图结构

社区发现则是从复杂的网络结构中自动识别并提取这些高内聚子群的过程,常用于社交网络分析、推荐系统优化等领域。

知识图谱:结构化的知识体系

知识图谱是一种以图形式组织和表达知识的技术框架,强调实体间的语义关联。其典型架构包含两个层级:

  • 本体层:定义概念体系、关系类型以及推理规则,构建知识的“骨架”。
  • 图谱层:填充具体的实体实例、实际存在的关系及其属性值,形成“血肉”。

1.3.1 语义理解:角色关系与能力判断

借助知识图谱,系统能够深入解析个体在特定场景下的角色定位及其行为能力,提升对上下文的理解精度。

1.3.2 知识推理:任务系统与对话关系

基于已有知识结构,系统可通过推理机制推导出隐含信息,例如预测用户意图、生成连贯对话流程等。

1.3.3 持续积累:世界观与剧情发展

知识图谱支持动态更新,能够在长期运行中不断吸收新信息,推动虚拟环境中的世界观演化和故事情节延展。

本体层与图谱层的协同作用

本体层(Ontology Layer)与图谱层(Graph Layer)共同构成知识图谱的核心架构:

  • 本体层 负责定义知识的规则、分类体系和约束条件,相当于系统的 schema 或数据字典。
  • 图谱层 则承载具体的知识实例和它们之间的关联,即真实世界的事实数据。

两者结合,既保证了结构一致性,又实现了内容的丰富表达,形成完整的结构化知识体系。

GraphRAG:融合图结构的检索增强生成框架

概述

GraphRAG(Graph Retrieval-Augmented Generation)是一种集成“知识图谱构建”、“社区层次分析”与“检索增强生成”技术的复合型框架。其核心目标是将非结构化文本转化为结构化图知识,并通过多层次社区划分实现知识的多粒度组织。在响应查询时,综合宏观层面的社区摘要与微观层面的图谱细节,生成准确、全面且上下文连贯的回答。

整个流程分为两个阶段:离线构建索引与在线查询推理。这两个阶段通过多级索引结构形成闭环,兼顾检索速度与生成质量。

离线索引构建流程

该阶段是 GraphRAG 的基础环节,旨在将原始语料转换为“文本块 - 知识图谱 - 社区摘要”的多层级可检索结构,为后续查询提供支撑。主要包括六个关键步骤:

数据输入与预处理

支持多种输入格式,包括长文档(PDF/Word)、网页内容、表格数据及对话记录等。所有输入需统一转换为纯文本格式。对于表格类数据,需先转化为“实体 - 属性 - 值”形式的描述语句(如:“产品 A - 价格 - 100 元”)。

预处理主要包括三个环节:

  • 去重:利用 MD5 哈希或基于余弦相似度(如阈值 >0.95)的方法识别并移除重复内容。
  • 降噪:清除广告、页眉页脚、特殊符号及停用词等无关文本。
  • 格式标准化:统一命名规范、日期格式、单位表达等(如将“检索增强生成”、“RAG 技术”统一为“RAG”),确保后续知识抽取的一致性。
文本切分策略

合理的文本分割直接影响知识抽取的质量,需根据语料类型选择合适方法:

  • 针对书籍、论文等长文档,采用递归切分法:首先按章节划分为 5000–10000 字符的大段落,再依据语义完整性进一步拆分为 500–1500 字符的小文本块,确保每个块聚焦单一主题。
  • 对于新闻、对话等短文本,则直接以单条消息作为独立文本块处理。

每个文本块需附加元数据标签,包括:

  • 基础信息:如文本块 ID、原始文档 ID、页码或章节位置。
  • 语义信息:通过大语言模型生成的主题标签(如“RAG 社区发现”),辅助后续溯源与关联分析。
知识抽取

此步骤旨在从已切分的文本块中识别并提取结构化三元组(实体-关系-实体)及属性信息。通常借助大语言模型或专用 NLP 工具完成,输出结果作为构建知识图谱的基础数据。

利用大语言模型(LLM)如 GPT-4o、Claude 3 或 Llama 3,结合提示词工程技术,从每一个文本片段中提取出“实体 - 关系 - 属性 - 关键论断”四元组。其中,实体需标注其类别,例如“技术”“算法”或“产品”,具体示例如“RAG”“Leiden 算法”;关系应明确类型,如“依赖”“包含”“应用于”,例如“RAG - 依赖 - Leiden 算法”;属性用于描述实体的特征信息,如“RAG - 发布时间 - 2020 年”;关键论断则反映文本的核心结论,例如“Louvain 算法适用于大规模图谱聚类”。完成抽取后需进行质量控制,包括去除重复的实体与关系、检测并修正冲突信息(如同一实体存在矛盾属性的情况)。

知识图谱构建

将提取出的结构化知识转化为图结构,并进行优化处理。首先选择合适的图数据库进行存储:轻量级场景可采用 Neo4j Aura 或 RedisGraph,而面对大规模数据时推荐使用 NebulaGraph 或 ArangoDB。节点表用于记录实体 ID、名称、类型及其元数据;边表则存储关系 ID、主体与客体节点 ID、关系类型以及置信度(由 LLM 抽取结果提供的可信评分)。

其次开展图结构优化工作,主要包括三个方面:一是实体融合,即合并语义相同的实体,例如将“检索增强生成”与“RAG”视为同一实体;二是关系补全,依据本体规则推导并补充隐含的关系路径,例如当“A 依赖 B”且“B 依赖 C”时,自动补全“A 依赖 C”;三是为边赋予权重,综合考虑置信度和关联频次,计算公式为:边权重 = 0.7 × 置信度 + 0.3 × 归一化后的关联频次。

社区层次分析

通过聚类算法对知识图谱实施层级划分,以实现知识的主题化组织管理。对于节点数量超过 10 万的大规模图谱,优先选用 Leiden 算法,该算法克服了 Louvain 算法在分辨率上的局限性,并支持重叠社区的识别;而对于中小规模图谱(节点数小于 10 万),可采用 Louvain 算法进行快速的层级聚类。若图谱中语义关联较为清晰,还可先借助 LLM 生成节点嵌入向量,再运用 DBSCAN 或 K-Means 进行聚类处理。

聚类过程采用自下而上的策略:首先将文本块聚集成子社区(如“Louvain 算法细节子社区”),随后进一步合并形成父社区(如“社区发现算法父社区”)。同时,利用 LLM 为每个社区生成主题名称(如“RAG 核心组件社区”)和关键词标签,并产出结构化摘要——子社区聚焦于具体知识点,父社区侧重宏观框架梳理。

多层级索引构建

整合文本块、知识图谱与社区结构,构建统一的多层级索引体系:

  • 文本块索引:基于 BM25 或向量索引机制,支持关键词匹配与语义检索;
  • 图谱索引:依托图数据库的拓扑结构建立索引(如节点 ID、关系类型),支持复杂的路径查询操作;
  • 社区索引:利用 LLM 生成的社区摘要嵌入向量构建主题索引,支持社区级别的语义匹配。

三类索引协同运作,在查询阶段提供宏观、中观与微观多个维度的知识召回能力。

在线查询推理阶段(核心交互流程)

该阶段是 GraphRAG 系统的应用核心,通过解析用户查询、执行多粒度检索及信息整合,最终生成增强型回答,共包含五个关键步骤:

查询解析与意图识别

对用户的自然语言输入进行结构化解析,识别其中的关键要素,包括提及的实体(如“RAG”)、涉及的关系(如“依赖哪些算法”)以及查询意图。意图类型主要分为事实类(如“RAG 的发布时间?”)、原理类(如“Louvain 算法的工作机制?”)和关联类(如“RAG 与社区发现算法之间的联系?”)等,为后续精准检索提供导向。

多粒度检索

根据解析结果并行触发三类检索任务:

  • 社区检索:将查询向量化后与社区主题向量进行匹配,召回 Top-K 相关社区及其摘要;
  • 图谱检索:执行图路径查询指令(如“RAG - 依赖 -*”),获取相关的节点、关系与属性信息;
  • 文本块检索:通过关键词或语义相似度匹配,定位目标社区内的相关文本片段。

此策略实现了从宏观到微观的知识全面覆盖。

检索结果过滤与排序

对初步召回的知识单元进行清洗与优化:剔除低置信度内容(如 LLM 抽取置信度低于 0.6 的关系),消除重复信息(如多个文本块中表达相同论断的内容),并对剩余结果按相关性排序——社区依据主题匹配度排序,文本块依据语义相似度排序,图谱关系则按边权重排序,确保高质、高相关性的知识优先被使用。

信息整合与上下文构建

将经过排序的社区摘要、图谱关联数据与文本块细节整合为结构化的上下文信息。内容组织遵循“宏观框架 → 中观关联 → 微观细节”的逻辑顺序。例如,在响应“RAG 依赖的算法”这一查询时,先通过社区摘要确定主要算法类别,再借助图谱关系列出具体算法名称,最后用文本块中的具体内容补充各算法的应用场景与技术背景。

增强回答生成

将整合后的上下文输入至大语言模型(LLM),配合精心设计的提示词工程生成最终的回答。提示词需明确指示模型“基于所提供的知识单元,保持逻辑连贯性和信息准确性,并引用关键实体与关系”,同时支持溯源功能,即标注信息来源(如对应的文本块 ID 或所属社区名称)。生成结果可根据实际需求进行多轮迭代优化,例如补充遗漏细节或修正潜在的信息冲突。

关键技术选型与优化建议

核心工具选型

在构建高效检索增强生成系统时,可选用多种先进技术组合以实现性能与效果的平衡。推荐使用的大型语言模型(LLM)包括 GPT-4o、Claude 3(适用于高精度的知识抽取与文本生成),以及 Llama 3(适合开源环境下的本地部署)。图数据库方面,可根据数据规模灵活选择:轻量级场景使用 Neo4j Aura,大规模图谱则推荐 NebulaGraph。聚类算法建议采用 Leiden 算法,在保证聚类精度的同时兼顾计算效率。向量索引工具优先考虑 FAISS 或 Milvus,二者均支持高效的语义匹配和大规模向量检索。

2.6 LightRAG

由香港大学数据智能实验室(HKUDS)研发的 LightRAG 是一个开源的检索增强生成(Retrieval-Augmented Generation, RAG)框架,致力于提供轻量化、高性能且易于部署的解决方案,特别适用于需要图结构支持的自然语言处理任务。

图结构驱动的文本索引机制

LightRAG 引入图结构优化传统文本索引流程,有效克服了标准 RAG 在应对复杂查询时的信息碎片化问题,主要包含以下步骤:

  • 实体与关系提取:借助大型语言模型(LLM)自动识别文本中的关键实体(如人名、地点、组织等)及其相互关系(例如“属于”“位于”)。
  • 知识图谱构建:将提取出的实体作为节点,关系作为边,构建成结构化的知识图谱,便于后续多粒度查询与推理。

双层检索范式设计

为提升检索的全面性与准确性,LightRAG 设计了双层级检索策略:

  • 低层次检索(Low-Level Retrieval):聚焦于具体实体和细节信息,适用于精确匹配型查询。
  • 高层次检索(High-Level Retrieval):面向主题、概念或抽象语义层面,用于响应概括性或综合性问题。

该机制使系统能够同时响应细粒度事实查询与宏观趋势分析,显著增强了灵活性与适用范围。

支持增量更新的知识库

LightRAG 具备对知识库进行动态增量更新的能力。当新增文档进入系统时,会沿用既有的图基索引流程处理新内容,并将其生成的子图无缝融合至现有知识图谱中,确保系统始终保持最新状态,具备良好的时效性与扩展性。

2.6.1 工作流程

整体工作流程如下:

  1. 文档分块处理:将原始文档切分为较小的文本块(chunks),提高处理并行度与效率。
  2. 实体与关系抽取:利用 LLM 对每个文本块进行深度解析,提取其中的关键实体及它们之间的语义关系。
  3. 构建与存储图谱:将提取结果转化为图结构数据,并存入向量数据库中,形成可检索的知识图谱。
  4. 关键词分离提取:针对用户输入的查询,系统自动拆解出局部关键词(low-level)与全局关键词(high-level),分别用于不同层级的匹配检索。
  5. 分层信息检索:通过向量数据库执行检索,局部关键词用于匹配相关实体,全局关键词则用于查找对应的实体间关系路径。

2.5 LazyGraphRAG

传统的向量RAG(Vector RAG)擅长处理局部(local)查询任务,例如回答关于特定“人物、事件、时间或地点”的问题,但在面对涉及整个数据集的全局(global)性质询时表现有限,比如“数据集中最主要的主题有哪些?”这类问题。微软此前提出的 GraphRAG 技术虽能有效应对全局查询,但其依赖大语言模型(LLM)对全部数据进行预摘要和索引构建,导致前期成本极高,限制了实际应用。

LazyGraphRAG 提出一种创新性的混合搜索策略,摒弃了 GraphRAG 中昂贵的预先摘要过程,转而将这些计算延迟到实际查询发生时才执行,从而大幅降低初始开销。

融合向量RAG(最佳优先搜索)
GraphRAG(广度优先搜索)

核心架构阶段

索引构建阶段

在此阶段,LazyGraphRAG 的处理方式接近传统向量RAG,仅对原始文本块进行基础向量化和存储,不进行复杂的图谱建模或摘要生成,因此索引成本极低。

查询执行阶段

当接收到用户查询后,系统根据查询内容动态调用 LLM 执行必要的上下文摘要、社区发现或图结构推导,实现按需计算,兼顾效率与质量。

2.5.1 性能表现与实验验证

微软研究团队基于 5590 篇美联社新闻文章开展实验,设置了 100 个测试问题(其中局部问题 50 个,全局问题 50 个),并与以下方法进行了对比:

  • 传统 Vector RAG(基于语义搜索)
  • GraphRAG(含 Local Search、Global Search 和 DRIFT Search)
  • RAPTOR(一种基于分层聚类的 RAG 方法)

实验结果表明:

  • 极低索引成本:LazyGraphRAG 的索引构建成本与向量RAG 相当,仅为 GraphRAG 的 0.1%,极大降低了部署门槛。
  • 查询成本低且质量优异
    • 在相同资源消耗下,LazyGraphRAG 在局部问题上的表现优于所有对比方法,包括长上下文向量RAG、GraphRAG DRIFT 和 Local Search。
    • 对于全局问题,它能在比 GraphRAG Global Search 低 700 倍以上成本的前提下,达到相近的回答质量。
    • 随着“相关性测试预算”的适度增加(如从 100 提升至 1500),LazyGraphRAG 的性能持续上升,展现出良好的可扩展性。

2.4.2 性能优化方向

针对大规模语料库的应用场景,可通过以下手段进一步提升系统性能:

  • 采用分布式图数据库架构,增强图数据的存储容量与查询吞吐能力;
  • 在聚类前对文本块进行主题预标注,减少不必要的聚类运算开销;
  • 引入缓存机制(如 Redis),对高频访问的社区摘要与图谱关系进行缓存,显著缩短响应延迟。

2.4.3 质量优化策略

为保障输出结果的准确性与一致性,建议实施以下质量控制措施:

  • 优化 LLM 的提示词模板,提升实体与关系抽取的准确率;
  • 建立标准化的本体规则库,统一实体类型与关系类型的定义,避免同义异名或命名冲突;
  • 定期迭代更新知识图谱与社区划分结构,以适应语料库的动态增长与演化。

6. 答案生成

将检索得到的实体与关系输入至大语言模型(LLM),并以此为基础生成最终答案。该过程充分利用了外部知识的准确性与LLM强大的自然语言生成能力,从而提升回答的可靠性与语义连贯性。

2.7 nano-graphrag

2.8 KAG(知识增强生成,Knowledge-Augmented Generation)

KAG框架旨在通过优化知识表示方式,提升大型语言模型对结构化知识的理解与利用效率。

  • LLMFriSPG 框架:提出了一种面向大语言模型的知识表达形式,有效增强了知识图谱与LLM之间的协同交互能力。
  • 混合推理引擎:融合概念对齐机制与逻辑形式引导策略,显著提升了系统的多步推理性能。
  • 专业领域适应性:在医疗、政务等高专业门槛场景中展现出更高的准确率和适用性。

3. 上下文检索(Context Retrieval)

3.1 基于RAG的上下文检索

上下文检索是一种用于提升RAG系统检索精度的技术手段。其核心思想是在执行检索前,为每个文本块(chunk)预先注入相关的背景信息,使模型在匹配用户问题时能更准确地理解内容语义,进而提高相关文档的召回质量。

3.2 上下文增强示例

以下是一个具体的上下文增强案例:

原始文本:
“The company’s revenue grew by 3% over the previous quarter.”

增强后文本:
“This chunk is from an SEC filing on ACME Corp’s performance in Q2 2023; the previous quarter’s revenue was $314 million. The company’s revenue grew by 3% over the previous quarter.”

优势分析:

  • 检索时不仅可见“收入增长3%”这一事实,还能明确其所属主体(ACME Corp)及时间范围(Q2 2023)。
  • 即使用户的查询为“ACME Corp Q2 2023收入增长是多少?”,也能实现精准匹配。

4. 模块化 RAG(Modular RAG)

论文参考:https://arxiv.org/html/2407.21059v1

文章首先指出传统“检索—生成”范式在处理复杂知识密集型任务时存在局限性,例如缺乏灵活性、难以应对动态变化的需求。为此,作者提出了模块化RAG框架,通过将整个系统分解为多个独立的功能模块(Module)与最小操作单元(Operator),并引入路由控制、任务调度与结果融合机制,构建出高度可重构的流水线架构。

文中归纳了四种典型的RAG流程模式:

  • 线性流程
  • 条件分支流程
  • 并行分支流程
  • 循环迭代流程

同时展望未来可能出现的新算子类型与运行范式。

研究强调,尽管大语言模型具备强大生成能力,但仍面临“幻觉”现象和知识更新延迟的问题。从NaiveRAG(索引→检索→生成)到Advanced RAG(包含预检索优化与后处理改进),RAG技术不断演进。然而,随着异构数据源接入、系统可解释性和维护需求上升,现有架构已难以满足实际应用的复杂要求。

因此,论文提出模块化设计的动机,并阐述了三层架构思路:

  1. L1 层:高层模块,对应整体阶段(如索引、检索、生成)
  2. L2 层:功能子模块,细化具体操作流程
  3. L3 层:基础算子,作为最小可执行单元

此外,作者回顾了RAG技术发展的三个主要阶段:

  • 早期阶段:检索增强预训练与推理(如 Retro、Atlas)
  • 中期阶段:以减少幻觉为目标的检索-生成联合优化(如 RRR、LLMlingua)
  • 近期阶段:与图神经网络、强化学习以及LLM自主控制等技术深度融合

指出当前多数综述聚焦于单一环节优化,缺少对系统级调度与组件化设计的整体分析。

为进一步形式化描述,论文使用符号定义RAG三大核心阶段:

I = Embedding(索引)
R = Retriever(检索)
G = LLM(生成)

并给出了公式(1)-(4)的数学表达,建立统一建模基础。随后引入模块编排的图计算表示方法,为后续流程建模提供支持。

模块化RAG采用“乐高式”的组件设计理念,极大提升了系统的可组合性、可维护性与扩展潜力。最后,作者呼吁学界进一步探索新型算子与流程模式,推动RAG技术在多样化应用场景中的广泛落地。

5. Agentic RAG

Agentic RAG 在传统RAG基础上引入智能体(Agent)机制,赋予系统更强的自主决策与动态响应能力。

其主要特性包括:

  • 动态决策:根据任务特征,智能体可自主选择最优的检索路径或生成策略。
  • 多步骤推理:通过多次迭代检索与生成,持续优化输出结果,提升回答的相关性与完整性。
  • 工具调用能力:智能体能够访问外部资源(如API、数据库),获取实时或补充信息,增强内容生成的丰富度。
  • 多智能体协作:多个智能体可分工合作,共同完成复杂的多阶段任务,提升整体处理效率。

5.1 架构模式

5.2 构建流程

6. 多模态 RAG(Multi-Modal RAG)

据估计,一个人一生平均会听到并学习约10亿个单词。虽然这个数字可能存在一定夸张成分,但大致合理——因为10亿秒约等于30年,而人类每秒钟接收的词汇量通常只有几个,再考虑到睡眠等非活跃时段,这一估算基本成立。

人类的学习机制与当前主流的大型语言模型(LLM)存在本质差异。尽管现代LLM基于数万亿级别的文本词条进行训练,数据量远超个体一生所能接触的信息总量,但它们对现实世界中因果关系的理解仍显薄弱。相比之下,人类能够通过整合视觉、听觉、触觉等多种感官输入,构建出关于世界的连贯模型。这种多模态信息的协同处理使我们不仅能高效理解环境,还能做出预测、获取新知,并建立清晰的因果逻辑。

在特定任务中,人类可以灵活调用某一模态的信息作为背景支持,辅助推理和决策。这表明,我们的学习方式不仅依赖于单一信息源,更强调跨模态的融合与上下文关联。正是这一能力,使得我们在面对模糊或复杂问题时仍能保持较高的认知效率。

6.1 LLaVA:视觉指令调整

虽然利用机器生成的指令数据对大型语言模型进行指令微调已在纯文本领域展现出强大的零样本迁移能力,但在多模态场景下的应用尚处于早期阶段。LLaVA(Large Language and Vision Assistant)的提出填补了这一空白:

  • 多模态指令数据构建:借助GPT-4生成高质量的语言-图像配对指令数据,无需人工标注。
  • 模型架构设计:将视觉编码器与大型语言模型端到端连接,形成统一的多模态理解系统。
  • 表现能力:初步实验显示,LLaVA具备出色的多模态对话能力,在未见过的图像和指令组合下,其行为有时接近多模态GPT-4的表现水平。
  • 开源贡献:项目公开发布了由GPT-4生成的视觉指令数据集、训练代码及模型权重,推动社区研究进展。

6.2 OmniSearch:面向多模态检索行动规划的首个智能代理

OmniSearch是阿里团队推出的创新性多模态检索框架,专为应对动态问答场景中的复杂挑战而设计,如答案快速变化、问题表述模糊以及需要多跳推理的任务。该系统标志着RAG技术从传统文本主导模式向融合图像、视频等多源信息的跃迁,显著增强了对复杂查询的响应能力。

6.3 其他多模态嵌入模型进展

近年来,多个机构在多模态嵌入技术方面取得重要突破:

  • Voyage AI 的 voyage-multimodal-3:实现文本与图像在统一向量空间中的嵌入,有效提升跨模态检索的速度与准确性。
  • 微软 Embed 4 模型:支持超过100种语言的多模态内容嵌入,显著优化了跨语言、跨模态搜索的整体体验。
  • HM-RAG(Hierarchical Multi-agent Multimodal RAG):引入分层多智能体架构,包含任务分解模块、模态专用检索代理和决策协调代理,大幅提升对复杂查询的处理效率。在ScienceQA和CrisisMMD基准测试中,HM-RAG在零样本设置下达到了领先性能。

尽管多模态RAG系统在处理模糊查询或多跳推理任务时仍可能遭遇语义不匹配的问题,影响最终的检索与生成质量,但整体技术正朝着更高效率、更强可解释性与个性化方向持续演进。随着嵌入模型的不断优化、检索机制的增强以及生成策略的精细化,预计该类系统将在医疗、教育、应急响应等多个实际场景中实现广泛应用。未来,结合知识图谱与图神经网络的多模态RAG架构有望进一步强化AI系统的深层推理与决策能力。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:入门到精通 Hierarchical performance Generation Multimodal
相关内容:RAG入门精通

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 23:17