当我们用手机扫描一张餐厅菜单,或者将纸质文件转换为电子文档时,背后其实有一位“数字翻译官”在默默工作。这位翻译官不仅要识别图像中的每一个文字,还需理解其排版结构——哪些是标题、哪些是正文、是否包含表格或脚注,并还原出符合阅读逻辑的文本顺序。传统方法依赖多阶段流水线系统,每个环节由不同模型负责,例如OCR识别、布局分析、表格提取等,流程复杂且容易累积误差。
NVIDIA研究团队于2025年11月26日发布的Nemotron-Parse 1.1模型彻底改变了这一局面。该模型以端到端方式完成整个文档解析过程,如同一位经验丰富的编辑,能够同时处理识别、结构理解与语义组织任务。完整论文可通过arXiv:2511.20478v1查阅,研究团队来自NVIDIA,在光学字符识别与智能文档处理领域实现了重要突破。
令人惊叹的是,这款高性能模型仅拥有8.85亿参数,远低于同类任务中常见的百亿级大模型规模。它成功实现了“小身材大能量”的设计目标:在保持高准确率的同时大幅降低计算资源消耗。更进一步,团队还推出了轻量版本Nemotron-Parse-TC,通过优化信息压缩机制,使处理速度提升20%,适用于对实时性要求更高的应用场景。
### 无位置编码的突破:让模型学会自然理解顺序
大多数现代语言模型依赖位置编码来确定输入序列中元素的先后关系,这是一种人为添加的位置信号,帮助模型判断“谁在前、谁在后”。然而,Nemotron-Parse 1.1的研究团队大胆尝试去除这一机制,转而训练模型从数据本身学习空间和语义上的顺序逻辑。
这种设计类似于教学生不靠页码也能按正确顺序阅读一本书——模型必须通过内容之间的上下文关系和视觉布局特征自行推断出合理的输出顺序。结果表明,该模型不仅没有因缺失显式位置信息而性能下降,反而展现出更强的泛化能力,尤其在处理非标准排版文档(如杂志页面或多栏文本)时表现优异。这标志着模型从“机械记忆位置”向“真正理解结构”的转变。
### 创新的轻量化设计:小身材大能量的秘诀
人工智能模型的能力通常与其参数量正相关,就像大脑容量影响知识存储能力。但Nemotron-Parse 1.1证明了高效架构设计可以在较小规模下实现卓越性能。其整体结构由两个核心部分组成:视觉编码器(6.57亿参数)和语言解码器(2.56亿参数),总参数量仅为8.85亿。
视觉编码器基于RADIO架构构建,这是一种经过大规模图像预训练的视觉理解系统,擅长捕捉图像中的局部细节与全局结构关系。面对一张1648×2048像素的文档图像,编码器会将其转化为3200个高维特征向量,每个向量代表图像中某一区域的内容与上下文信息。
为了高效传递这些信息至解码端,研究团队设计了一个“压缩桥梁”,利用特殊卷积层将长序列特征压缩成更紧凑的形式。这一机制如同在两个房间之间架设一条智能通道,既能减少传输负担,又能保留关键结构信息,显著提升了推理效率。
在此基础上,Nemotron-Parse-TC版本引入“像素重排”技术,进一步将特征序列压缩至833个向量,达到16倍压缩比。这种高度压缩的设计使得模型更适合部署在边缘设备或低延迟场景中,同时保持接近原版的解析精度。
语言解码器采用mBART架构并精简为10层网络,结合权重共享策略,有效控制了参数增长。更重要的是,去除了传统的位置编码模块后,模型被迫依赖内在注意力机制来理解输出顺序,从而增强了对复杂文档结构的适应能力。
综上所述,Nemotron-Parse 1.1的成功不仅在于其出色的性能表现,更在于其设计理念的革新:通过精细化架构设计、跨模态信息压缩与去中心化顺序建模,实现了轻量、快速、精准的统一。这项技术有望广泛应用于智能办公、教育数字化、医疗文档处理等领域,推动文档自动化迈向新阶段。在传统的语言模型架构中,位置编码的作用类似于为每个词语贴上顺序标签,明确告知模型“这是第一个词”、“这是第二个词”,以此帮助其理解词汇的排列次序。然而,NVIDIA的研究团队却做出了一项看似违背常规的设计选择——彻底移除位置编码机制,转而让模型自主学习如何捕捉序列中的顺序关系。
这一创新思路源于对人类阅读方式的观察。人们在阅读文档时,并不需要依赖显式的位置编号来理解内容顺序,而是通过上下文自然推断出语义流。研究者发现,在因果解码器结构中,注意力掩码本身已经隐含了位置信息:当模型处理某个词时,它只能访问此前的上下文,这种单向限制本质上构成了位置线索。因此,即便没有显式的位置编码,模型依然能够感知顺序。
取消位置编码带来了显著优势。首先是更强的长度适应能力。传统方法如同给模型穿上固定尺码的衣服,在面对超出训练长度的文本时表现受限;而无位置编码的设计则像提供了一件弹性服装,使模型能无缝应对从短小收据到长篇论文等各种长度的输入文档。
其次是计算效率的提升。位置编码需要引入额外参数和运算开销,去除它们相当于为模型“瘦身”,释放更多资源用于核心的语言与视觉信息处理任务,这对于需同时解析大量图文数据的场景尤为重要。
此外,该设计更契合文档解析的多模态特性。真实文档包含丰富的二维空间布局——如图像、表格、段落等,各自具有明确的空间坐标。传统一维位置编码可能与这些二维结构产生冲突,干扰空间信息的有效利用;而摒弃位置编码后,视觉特征中的空间关系得以更自由地参与建模过程,增强整体理解能力。

实验验证了这一设计理念的有效性。采用无位置编码的Nemotron-Parse 1.1在多种长度的文档处理任务中均表现出色,尤其在超长文本上的性能甚至优于依赖位置编码的同类模型。这项成果不仅推动了文档智能领域的发展,也为自然语言处理模型的整体架构设计开辟了新路径。
不同于传统语言模型逐字生成的方式,Nemotron-Parse 1.1引入了多令牌推理技术,极大提升了输出效率。以往的自回归生成模式如同一位一字一顿朗读的播音员,每步仅预测一个词,虽保证准确性但速度缓慢。尤其是在处理高度结构化的文档内容时,这种方式显得尤为低效。
多令牌推理的核心在于:一次前向传播中预测多个连续词语。这相当于训练模型不仅能判断下一个词,还能预判接下来若干个词的内容。为实现这一点,研究人员在解码器中增设了多个额外的预测头,每个负责预测未来不同步长的词汇。
具体而言,若希望一次预测m个词,则需增加m-1个线性预测层。其工作机制如下:第一个预测头基于当前上下文输出下一词,随后将该词的嵌入表示传递给第二个预测头,后者结合更新后的上下文继续预测后续词,形成链式推进结构。这种方式既保持了语言连贯性,又显著加快了生成节奏。
在训练阶段,系统采用教师强制(teacher forcing)策略,即无论前面预测是否正确,后续预测头都基于真实标签进行学习,确保所有预测头都能获得高质量监督信号。而在实际推理过程中,模型则采用贪心解码,完全依赖自身预测结果逐步推进,不进行回溯或修正。
[此处为图片2]
值得注意的是,多令牌训练还带来了一个意外收获:即使切换回标准的单词预测模式,经过此类训练的模型仍比常规训练的模型表现更优。这种现象类似于一个人在掌握多任务协同能力后,执行单一任务时也变得更加高效精准。研究人员认为,这是因为多令牌训练促使模型更深入地理解语言的长程依赖和整体结构。
对于文档解析而言,这一技术尤为关键。文档中常出现重复性结构,例如表格行列、项目列表或格式化文本块。多令牌推理使得模型可以像熟练打字员一样快速输出常见模式,大幅提升处理效率。
面对多样化的用户需求,传统做法往往需要为每种任务单独训练专用模型,如同雇佣多个专家分别处理不同类型的请求。有人只需提取纯文本,有人关注格式保留,还有人需要边界框定位或语义分类信息。Nemotron-Parse 1.1采取了更为高效的解决方案:构建一个灵活的提示系统,使单一模型可根据指令动态切换角色,胜任多种任务。
该提示系统如同一个智能调度中枢,通过组合不同的提示令牌来精确控制输出行为。系统主要由三类提示构成:文本格式提示决定输出形式,支持markdown、纯文本或无文本输出;边界框提示控制是否返回文本区域的空间坐标;语义分类提示则指定是否对每个文本块标注其功能类别,如标题、正文、表格、图注等。
借助这一机制,同一个模型无需重新训练即可响应多样化指令,实现“一模多用”。这不仅降低了部署成本,也增强了系统的实用性与可扩展性,真正实现了以一个模型替代多个专业化模型的效果。
[此处为图片3]
在文档解析领域,Nemotron-Parse 1.1 的设计充分体现了对实际应用需求的深入思考。其核心优势之一在于高度模块化的提示系统,支持三类提示令牌的灵活组合,从而适配多种使用场景。例如,当用户仅需提取文本内容时,可采用“输出markdown+不要边界框+不要分类”的配置;若目标是进行版面结构分析,则可切换为“不输出文本+预测边界框+预测分类”的模式。这种机制如同配备了一个多功能工具箱,能够根据不同任务自由调配功能组件。
为了实现这一多任务能力,研究团队在训练阶段采用了联合训练策略,融合多个来源、不同标注格式的数据集,并将每种数据的标注规范映射到特定的提示组合上。通过这种方式,模型被训练成能根据输入指令动态调整行为,就像一位全能助手可以根据不同的工作要求自动切换工作模式。
对于需要获取最完整信息的场景,研究人员提出了“最大信息提示”(MIP)的概念。该提示集成了全部功能:输出markdown格式、预测边界框、预测语义分类,形成一个全方位的信息提取方案。启用此提示后,模型表现得如同一台智能扫描仪,能够全面捕捉文档中的文字、位置与结构信息,提供最详尽的理解结果。
这种统一的提示驱动架构显著提升了模型的部署效率和维护便利性。用户无需为不同任务加载多个专用模型,只需更改输入提示即可获得所需输出。这不仅减少了系统资源消耗,也降低了集成复杂度,使模型更易于嵌入各类应用场景中。

五、输出格式设计:模拟人类阅读逻辑
为了让计算机真正理解文档,关键不仅在于识别字符,更在于还原其内在结构与阅读顺序。Nemotron-Parse 1.1 在输出格式的设计上深度模仿了人类的阅读习惯,实现了内容、位置与语义的有机整合。
每个文本块的输出遵循固定结构:起始为左上角坐标,随后是文本内容,接着是右下角坐标,最后附加语义类别标签。这种组织方式相当于为每一个文本片段建立完整的“身份档案”,清晰记录其空间位置、语义角色和具体内容。
在坐标表示方面,模型采用相对坐标体系,并统一归一化至1024×1280的标准尺寸。这种处理方式类似于比例尺地图,无论原始文档分辨率如何变化,都能保持一致的空间表达逻辑,增强了模型对多尺度输入的适应能力。
尤为关键的是,输出中的文本块排序严格遵循符合直觉的阅读路径。基础版本中,元素按传统逻辑排列:页眉优先,继而章节标题、正文、列表项、公式等主体内容依次呈现,最后是脚注、页脚、表格、图片及其说明等辅助部分。这种结构化排序犹如专业编辑整理文稿,确保信息层次分明、条理清晰。
Nemotron-Parse-TC 版本在此基础上进一步优化,引入页面级自然排序机制。它不再机械区分主次内容,而是依据元素在页面上的实际视觉分布顺序进行排列,包括通常被视为浮动内容的脚注、图表和插图。这一改进使得输出序列更加贴近人眼浏览页面时的自然视线流动。
在语义识别层面,模型具备对多种文档元素的精细分类能力,涵盖页眉、页脚、标题、正文、列表项、表格、图片、公式、脚注及图片说明等类型。每类元素都对应特定的处理逻辑和结构定位,如同为文档各组成部分贴上功能性标签,极大提升了后续处理系统的理解和利用效率。
六、训练数据构建:兼顾多样性与高质量
一个强大的文档理解模型必须经历广泛而精准的学习过程。Nemotron-Parse 1.1 采用多源数据融合策略,巧妙整合合成数据、公开数据集与人工标注样本,打造了一个兼具广度与深度的训练环境。
其中,NVpdftex 管道生成的合成数据构成了训练集的核心。该系统如同自动化文档工厂,直接从 LaTeX 源码生成带有精确标注的训练样本。区别于传统的PDF转换方法,它在编译过程中实时提取字符级边界框和语义标签,保证了标注的高度准确性和一致性。这种方法相当于在文档生成之初就内嵌了结构元数据,避免了后期反向推断可能带来的误差。
为提升多语言适应能力,研究团队对 NVpdftex 数据进行了机器翻译扩展,覆盖6种主要语言。同时,在LaTeX源码层级实施了多样化增强手段,如字体变换、颜色扰动和布局调整,这些操作如同为文档穿上不同风格的“外衣”,帮助模型学会在复杂视觉条件下依然稳定识别内容。
此外,训练数据还融合了多个高质量公开数据集。DocLayNet 提供了丰富的版面分析标注基础,研究团队在其原有标签基础上补充了阅读顺序和markdown格式标注;Common Crawl 则贡献了真实世界中海量、多样化的网页与文档样本,涵盖各种格式与样式。这些数据均经过严格的人工校验与自动化清洗流程,确保整体质量达到训练标准。
在表格处理能力的训练中,研究团队高度重视数据的多样性与覆盖广度。除了采用PubTables、FinTabNet和TabRecSet等公开可用的表格数据集外,团队还自主合成了大量具有不同样式与布局结构的表格图像。这些合成数据涵盖了多种复杂情形,如不同程度的稀疏性、包含复选框元素、多样化的文本格式等。通过这种全面的数据训练,模型如同经历了一场“表格识别全科培训”,能够有效应对现实文档中可能出现的各种表格形态。
针对密集OCR场景的挑战,团队专门构建了多语言密集文本图像数据集。这些图像中包含了随机排列的词汇、字符及符号,并以六种不同语言呈现,模拟真实世界中文字高度聚集的复杂页面。这样的训练方式类似于让模型不断穿越“文字迷宫”,从而显著提升了其在高密度文本环境下的识别鲁棒性和定位精度。
此外,Wikipedia文本内容也被用作关键的数据来源之一,用于增强模型的多语言理解能力。研究人员将原始维基文本转换为LaTeX格式,并引入字体变化、背景噪声以及颜色扰动等视觉增强手段,生成更具视觉多样性的训练样本。这一过程不仅扩展了语言种类的覆盖范围,也丰富了主题类型和写作风格的多样性,使模型能够在更广泛的文档样式中保持稳定表现。

在性能评估方面,Nemotron-Parse 1.1经历了多项严格测试,展现出卓越的综合能力。整个评估体系犹如对一名全能运动员进行全方位体能考核,涵盖基础OCR识别、阅读顺序还原、表格结构提取以及多语言处理等多项核心任务。
在自建的阅读顺序测试集上,该模型取得了领先成果。该数据集由789个PDF页面组成,内容涉及杂志、书籍和网页截图,版式结构丰富多样。对比Kosmos-2.5与GOT等主流模型,Nemotron-Parse 1.1在词错误率(WER)和F1分数两个指标上均拔得头筹,WER低至0.109,F1分数高达0.958。这表明模型不仅能精准识别文字内容,还能准确还原文档中的逻辑阅读流程,如同在阅读理解考试中斩获最高分。
在GOT基准测试中,模型同样表现优异。该测试重点考察OCR准确性与文本序列理解能力。结果显示,仅有Gemini Flash 2.0在个别指标上略占优势。考虑到后者在模型规模和计算资源上的明显优势,Nemotron-Parse 1.1的表现实属突出——好比一位轻量级选手在对抗重量级对手时仍能旗鼓相当。
OmniDocBench作为文档解析领域的重要综合性评测平台,覆盖了文本识别、数学公式解析、表格抽取以及阅读顺序判断等多个维度。在此测试中,Nemotron-Parse的基础版本与TC版本均展现出均衡而强大的能力。尤其值得注意的是,TC版本在阅读顺序任务上的得分反超基础版,归功于其优化后的页面元素排序机制。尽管在某些细分任务上仍有提升空间,但整体性能在同级别模型中处于前列。
[此处为图片2]
在表格提取专项测试中,两个版本均表现出强劲实力。在RD-TableBench测试中,其成绩仅次于专为表格优化设计的Reducto模型。这一结果尤为可贵,因为Nemotron-Parse本质上是一个通用型文档解析系统,而非专用表格提取工具。同时,在PubTabNet和OmniDocBench等多个标准表格基准上,模型也获得了具有竞争力的TEDS与S-TEDS分数,充分验证了其在结构化信息提取方面的强大能力。
多语言处理是现代OCR系统的关键能力之一。在NVpdftex多语言测试集中,Nemotron-Parse 1.1展现了出色的跨语言泛化性能。面对英语、德语、法语、意大利语、西班牙语、中文和日语七种语言,模型在所有语言上的F1分数均超过0.96,其中英语、中文和日语更是达到0.98的高水平。这意味着模型不仅擅长处理拉丁字母体系,也能高效应对汉字、假名等复杂书写系统。
对于实际部署而言,模型的价值不仅体现在精度上,更在于能否在有限资源下实现高效运行。Nemotron-Parse 1.1在工程实用性方面表现出色,提供了灵活的部署选项。
在NVIDIA H100 GPU上的实测数据显示,基础版本可实现每秒3800个令牌的处理速度,而TC版本则进一步提升至每秒4500个令牌。按平均每页面约含1000个令牌估算,基础版每秒可处理约4页文档,TC版本可达5页/秒。这一处理效率足以满足绝大多数应用场景的需求。
尤为关键的是,TC版本在速度提升的同时保持了极高的准确性。借助视觉令牌压缩技术,其推理速度提高了20%,仅伴随轻微的精度损失。这种权衡策略类似于汽车设计中兼顾燃油经济性与动力性能的选择:TC版本特别适合对响应速度要求较高的场景,例如大规模批量处理、边缘设备部署或实时交互式系统。
在实际部署方面,NVIDIA为模型提供了多样化的选择,以满足不同使用场景的需求。通过Hugging Face平台,模型权重已公开发布,支持FP32和BF16两种精度格式,并集成了VLLM支持,便于快速集成与调用。对于追求产品级性能的用户,NVIDIA还推出了经过专门优化的NIM容器版本。该版本在生产环境中具备更高的稳定性与运行效率,适合大规模应用部署。
模型在内存使用效率方面也进行了显著优化。尽管参数量达到8.85亿,但仍可在主流GPU硬件上顺畅运行,无需依赖高成本的计算设备。这种低门槛的部署能力,特别有利于中小型企业和科研机构,使其能够在自有硬件基础上高效部署先进的文档解析系统。
针对不同应用场景的功能需求,研究团队设计了灵活的提示机制。若仅需基础OCR功能,可采用简化的提示配置;而需要全面理解文档结构时,则可通过最大信息提示获取更完整的解析结果。这一设计使同一模型能够适应从简单文本提取到复杂语义分析的广泛任务场景。
在架构层面,模型采用了模块化设计与标准化接口,为后续维护和功能扩展提供了便利。尤其值得注意的是其无位置编码的设计方案,不仅简化了结构,还天然支持对长文档的处理——无需重新训练即可应对不同长度的输入内容,极大增强了实用性与可扩展性。
技术创新的深层意义:推动文档理解迈向新阶段
Nemotron-Parse 1.1的技术突破不仅体现在性能指标上,更在于它为文档理解领域带来了全新的方法论启示。这些创新如同技术发展道路上的灯塔,为未来的研究方向提供了清晰指引。
无位置编码的成功实践印证了“少即是多”的设计理念。传统深度学习往往追求复杂结构和海量参数,而该模型通过精简组件反而实现了性能提升。这一发现促使研究者重新评估模型中所谓“必要”模块的实际价值,推动更加简洁高效的模型设计趋势。这种简化策略不仅能提升运行效率,还有助于增强泛化能力。
多令牌推理技术则展现了并行处理在序列生成任务中的巨大潜力。该技术不仅加快了推理速度,还意外提升了单令牌生成的质量,表明联合训练多个相关任务可能带来协同增益。这为未来的模型训练提供了一个重要思路:让模型同时学习更多任务,有时反而能提升各项任务的表现。
统一的提示框架构建了一种新型多任务学习范式。相比多个专用模型并行运行的传统方式,该设计显著节省了计算资源,同时提高了系统的整体一致性与可维护性。更重要的是,不同任务之间得以实现知识共享,某一任务的优化成果可自然迁移到其他关联任务中,形成良性循环。
在数据策略方面,研究团队验证了合成数据与真实数据结合使用的有效性。NVpdftex生成管道的成功表明,高质量合成数据在缺乏标注资源的领域具有重大意义。这种方法不仅缓解了数据稀缺问题,还能精确控制数据质量,为模型训练提供更可靠、可控的基础支撑。
此外,模型采用的不对称架构也体现了任务导向的设计智慧。视觉编码器与语言解码器之间的参数分配反映了各自模态处理的复杂度差异,相较于对称结构更具资源利用效率。这一原则可推广至其他多模态任务中,依据各模态的信息密度与处理难度合理配置计算资源。
应用前景与实际价值:重塑文档处理生态
Nemotron-Parse 1.1的推出不仅是技术上的进步,更是对各行各业文档处理流程的一次深刻变革。它如同一把通用钥匙,能够解锁数字化转型过程中诸多文档处理难题。
在教育领域,该技术可大幅提升教材数字化效率。传统方式依赖大量人工录入与排版调整,耗时且易出错。借助Nemotron-Parse 1.1,系统可自动识别纸质教材中的章节、图表、公式及习题等内容,将其转化为结构化电子资源。这不仅加速教育资源的数字化进程,也为个性化学习平台提供了高质量的数据基础。
医疗行业同样受益显著。面对病历、检验报告和医学文献等包含复杂表格、图像和专业术语的文档,传统OCR系统常难以准确解析。本模型凭借强大的多模态理解能力和精细的结构识别,可大幅提升医疗文档数字化的准确性,为电子病历建设和临床数据分析提供坚实支撑。
在法律服务领域,合同审查、案例检索和法规分析均涉及海量文档处理。法律文书结构严谨,条款间的层级关系直接影响语义理解。模型的语义分类与结构还原能力可精准划分合同条文、法规章节和判决书段落,为法律AI系统提供结构清晰的输入,显著提升服务效率与判断准确性。
新闻媒体与出版行业亦能从中获益。无论是历史报刊的数字化归档,还是现代杂志内容的在线发布,都需要精确的版面分析与格式转换。Nemotron-Parse 1.1可准确识别标题、正文、图注、广告等元素,自动生成符合网络发布的结构化内容,极大提升内容再利用的效率与质量。
在学术研究领域,文献的数字化处理与关键知识的提取是科研工作中不可或缺的一环。科学论文通常包含大量图表、数学公式以及引用信息,这些内容的精准识别和结构化提取对于构建高质量的学术知识库具有重要意义。得益于Nemotron-Parse 1.1在表格解析和数学公式理解方面的强大能力,学术文献的处理效率与准确性得以显著提升,为研究人员及知识管理系统提供了强有力的技术支持。
与此同时,在企业级文档管理场景中,纸质文件的全面数字化始终是一项严峻挑战。财务报表、技术手册、合规性资料等各类文档需要高精度的转换与结构化输出。该模型凭借出色的识别精度和灵活多样的输出格式,能够适应不同行业和业务需求,有效支撑企业在数字化转型过程中的文档处理任务。
尤为关键的是,Nemotron-Parse 1.1的开源发布大幅降低了先进文档解析技术的应用门槛。如今,中小型组织乃至个人开发者也能在其项目中集成这一达到国际领先水平的文档理解能力。这种技术普及化的趋势,将推动更多创新应用场景的涌现,加速智能化工具在各领域的落地。
从本质上讲,Nemotron-Parse 1.1的价值在于它实现了高性能与轻量化之间的良好平衡。尽管参数量仅为8.85亿,却能完成以往依赖数十亿参数模型才能胜任的复杂文档解析任务。这种效率上的突破不仅减少了对计算资源的消耗,也使得先进技术更易于部署和推广。通过创新的架构设计、高效的训练策略以及精细的工程优化,研发团队成功打造了一个兼具实用性与可扩展性的文档理解工具。无论面向大规模文档处理的企业用户,还是希望嵌入解析功能的开发人员,该模型都提供了一种高效且易用的解决方案。随着应用边界的不断拓展,这项技术有望在未来的数字化进程中扮演愈发重要的角色。
Q&A
Q1:Nemotron-Parse 1.1与传统OCR系统有什么区别?
A:传统OCR系统仅能实现字符级别的文本识别,难以理解文档的整体结构,处理表格、公式或保持阅读顺序时需依赖多个附加模块协同工作。而Nemotron-Parse 1.1是一个端到端的文档理解模型,不仅能识别文字,还可自动解析文档布局、提取表格数据、理解数学表达式,并维持正确的语义顺序,实现一体化的深度文档分析。
Q2:为什么Nemotron-Parse 1.1只有8.85亿参数却能达到如此高的性能?
A:这得益于研究团队在模型设计上的多项技术创新:采用无位置编码架构以精简参数规模,引入多令牌推理机制提升解码效率,运用不对称的编码器-解码器结构优化计算资源配置,并利用高质量的合成数据进行训练,从而确保模型在低参数量下仍具备强大的表达能力和泛化性能。
Q3:普通用户如何使用Nemotron-Parse 1.1?
A:NVIDIA已在Hugging Face平台公开发布该模型的权重,支持通过VLLM框架快速部署,用户可直接下载并集成至自有系统中。针对企业级应用,还提供了经过性能优化的NIM容器版本。用户可通过调整输入提示(prompt)来控制输出类型,实现从基础文本抽取到完整文档结构还原等多种功能。


雷达卡


京公网安备 11010802022788号







