
基于单目视觉的多模态绳驱灵巧手设计体系
一、人形机器人触觉感知的技术路径:视觉主导的解决方案
近年来,基于视觉的触觉传感(Vision-based Tactile Sensing)逐渐成为提升人形机器人操作能力的关键技术。其核心机制是利用摄像头捕捉弹性光学敏感层——通常为透明硅胶或聚合物材料——在与物体接触时产生的微观形变,如褶皱、拉伸或压缩。通过计算机视觉算法分析这些图像变化,系统可提取包括压力分布、剪切力、表面纹理、几何轮廓乃至滑移趋势在内的多种触觉信息。
该技术具备多项显著优势:
- 高维感知能力:相较于传统点式或阵列式电子触觉传感器,视觉方法能提供更高空间分辨率和更丰富的触觉维度。
- 与主流感知架构兼容性强:输出为图像数据,天然适配当前主流的视觉处理模型及视觉-语言大模型(VLM),便于实现多模态融合与高层决策。
- 结构简化与成本可控:避免在狭小空间内集成大量微型电子元件,转而采用成熟的光学组件,有助于降低制造难度、提升系统可靠性并控制整体成本。

HapticVLM触觉识别系统
二、主要技术分类及其工作原理
根据成像方式与光路结构的不同,基于视觉的触觉传感技术可分为以下几类:
(一)反射光成像(主流方案)
目前绝大多数视觉触觉传感器均采用此类设计,即在同一侧完成光源发射与反射光接收。依据具体结构差异,又可细分为直视式与侧视式两种典型架构。
-
直视式(如GelSight及其衍生型号):作为最早被广泛研究的技术路线,其基本构成包括:
- 弹性光学敏感层:由掺有反光颗粒(如金属粉末)的透明硅胶制成,形成柔软且可变形的“皮肤”表面;
- 环形LED光源:用于均匀照亮敏感层内部;
- 后置摄像头:位于敏感层正后方,拍摄因接触引起的内部纹理变形。
-
侧视式(如哈工大VMS灵巧手方案):此方案突破传统指尖集成思路,创新性地将感知目标从直接接触面转移到驱动机构本身。具体而言,使用安装于机器人前臂的单一单目相机,实时观测连接手指的绳索在运动过程中的微小位移变化。
该设计实现了多重功能集成:仅用一个低成本相机便替代了多个传统的位置、力矩与接触力传感器,成功获取包括18个关节角度、外部负载、指尖受力以及物体软硬度和轮廓特征在内的多模态信息。此举大幅降低了系统的复杂度、维护成本与故障概率,展现出极高的工程实用性。
(二)光路追踪型
此类技术依赖光在波导结构中的传播特性变化来感知形变。常见实现方式是将透明弹性体本身作为光波导,或在其内部嵌入光纤网络。当材料受到外力作用发生形变时,光路随之弯曲或衰减,造成接收到的光强或相位发生变化。通过对这些光学信号进行检测,即可反演出施加的压力大小与分布情况。
优点在于传感器厚度较小,适合对空间要求严苛的应用场景;但相比反射光成像,其所能提供的触觉信息维度和精度相对有限。
(三)标记点追踪型
该方法在弹性体表面或内部预设高对比度的视觉标记点(例如彩色斑点图案),借助计算机视觉算法持续追踪这些标记点在接触过程中的位移与形变轨迹。基于标记点之间的相对运动关系,可精确计算出表面应变场和受力状态。
其优势在于算法逻辑清晰、计算效率较高,尤其适用于需要快速响应的动态抓取任务,同时能够较为准确地还原局部变形过程。
以下是几种主流技术路线的综合对比:

几种主流基于视觉的触觉传感技术比对
三、在人形机器人领域的应用进展
基于视觉的触觉传感技术正在深刻改变人形机器人的操作能力和交互安全性,尤其在灵巧手与智能皮肤两大方向上取得了实质性突破。
1. 灵巧手的精细操控与多模态感知
这是当前最核心的应用场景。高端视觉触觉传感器(如GelSight)常被集成于机械手指尖端,为机器人提供高精度的实时触觉反馈,支撑复杂的手部操作任务。
- 力控与安全交互:通过持续监测抓握力与接触力,有效防止对易碎物品(如鸡蛋)的破坏,确保与人类共处环境下的操作安全性,推动人机协作的实际落地。
- 物体属性识别:不仅能区分材质(金属/泡沫)、纹理(砂纸/丝绸),还能评估软硬程度,并结合形变数据重建物体轮廓。例如,哈工大的VMS灵巧手已成功实现对订书机、鼠标等日常物品的形状复原与材质判别。
- 滑移预警机制:通过捕捉指尖表面微小的剪切形变,及时发现潜在滑脱风险,并自动调整抓持力度,保障操作稳定性。
- 系统级创新:以VMS为代表的新型架构,利用前臂单目相机实现对手指多自由度状态与外部受力的联合估计,为降低灵巧手硬件复杂度与成本提供了全新范式。
2. 全身覆盖式感知:智能皮肤的发展
视觉触觉技术也开始向机器人全身扩展,用于构建具备大面积感知能力的“智能皮肤”。
日本JAIST研发的ProTac系统为此类探索树立了典范。该系统采用聚合物分散液晶(PDLC)材料作为外层介质,可在电压调控下实现透明与不透明状态的切换。
- 在透明模式下,内置摄像头可探测周围接近物体,实现非接触式的接近觉感知;
- 在不透明模式下,同一相机则用于捕捉皮肤表面因触碰引发的形变图像,从而执行触觉识别。
这一双模态设计仅需一套简单硬件即可完成两种感知功能,极大提升了系统集成效率,为人形机器人实现全方位环境感知开辟了新路径。
3. 与大模型的深度融合
由于视觉触觉传感器输出的是图像形式的数据,这与当前主流的视觉语言大模型(VLM)及视觉语言动作模型(VLA)输入格式高度一致,天然支持端到端的学习与推理。
例如,机器人可通过触觉图像理解“光滑且坚硬”的物理属性,并据此调整抓取策略——选择更大的摩擦系数接触面或采取更稳定的握姿。这种从底层感知到高层语义的理解闭环,显著增强了机器人在开放环境中自主决策的能力。

多感官触觉表征在机器人操作中的应用
四、现存挑战与局限性
尽管基于视觉的触觉传感展现出巨大潜力,但仍面临若干技术瓶颈:
- 对光照条件敏感,强光干扰或阴影可能导致图像失真;
- 部分方案(如直视式)存在视场受限问题,难以覆盖复杂曲面;
- 高帧率图像处理带来较大算力需求,边缘部署仍具挑战;
- 长期使用中硅胶老化、污损可能影响成像质量与测量精度;
- 不同材质与颜色的物体接触时,反射特性差异可能引入误差。
未来的研究将聚焦于提升鲁棒性、优化算法效率、增强环境适应性,并进一步探索其与AI大模型协同进化的可能性。
基于视觉的触觉传感技术虽然展现出显著优势,但在实际应用过程中仍面临若干关键挑战与技术瓶颈:
一、主要挑战
1. 体积与集成难度
传统的直视式传感器(如GelSight)通常需要容纳摄像头、光源及复杂的光学结构,导致整体厚度较大、体积较明显。这种物理特性使其在机器人指尖或多自由度手指等空间受限部位的集成变得困难,可能影响操作的灵活性和整体设计紧凑性。
2. 耐久性与维护需求
弹性光学敏感层(例如硅胶皮肤)直接暴露于外部环境,尽管其耐磨性能持续提升,但在长期接触尖锐物体或油污环境中仍易出现划伤、污染甚至撕裂等问题,需定期清洁、校正或更换,增加了使用成本与维护负担。
3. 数据处理压力与实时性限制
高分辨率图像带来的海量数据对计算资源和传输带宽提出较高要求。在需要快速响应的任务中,实现低延迟的数据处理仍是系统优化的重点方向。
4. 校准复杂性与生产一致性
环境光、温度变化等因素可能干扰传感器输出,且由于制造工艺差异,每个单元往往需要独立进行复杂校准以确保力感知精度。如何在大规模生产中保持性能一致,是当前工程化过程中的难点之一。
5. 多模态感知能力局限
尽管视觉能提供丰富的接触面细节,但在某些物理量感知方面仍有不足。例如,对微弱振动的检测灵敏度不及专用麦克风,而绝对力值的精确测量也可能逊于部分传统力传感器。
二、重点攻关方向
1. 微型化与高集成设计
当前主流趋势包括采用微型摄像头模组(如手机级镜头)以及MEMS工艺制造光学组件,从而缩小整体尺寸。例如国内叠动科技正在研发毫米级别的高性能视觉触觉传感器。此外,通过折返式光路等创新光学路径设计,可在有限空间内实现高效成像功能。
2. 新材料与结构革新
研发具备更高耐磨性、抗污性和自修复能力的新型弹性体材料,有助于延长敏感层使用寿命。同时探索掺杂微颗粒的新材料,以改善反光特性和信号稳定性。
日本JAIST开发的ProTac系统利用PDLC材料实现了接近觉与触觉模式的切换,展示了材料创新推动功能突破的潜力。
3. 算法升级与人工智能融合
借助深度学习模型可直接从触觉图像中提取特征,完成力估计、滑移识别、物体分类等任务,减少对复杂物理建模的依赖,提升系统的准确性与鲁棒性。
多模态融合算法也成为研究热点,将视觉触觉信息与音频信号(来自麦克风)、运动数据(来自IMU)相结合。Meta提出的Sparsh-X框架表明,融合多种感官信号能显著增强机器人对环境的理解能力和操作成功率。
4. 系统级架构创新
哈工大研发的VMS灵巧手提出了全新思路:不强行在末端执行器上集成全部传感器,而是通过系统层面的设计(如视觉监测绳驱机构状态),以低成本、高可靠性的方式实现核心触觉反馈功能。这一方法体现了从“局部感知”向“系统感知”的思维转变。
三、前沿进展与发展趋势
1. 先进传感器结构演进
研究正朝着更薄、更柔韧、更高分辨率的方向发展。部分团队尝试将光学元件直接印刷于柔性基底之上,致力于打造真正意义上的“视觉触觉电子皮肤”。
2. 多模态感知深度融合
单一视觉模态已难以满足复杂交互需求。当前前沿研究正积极整合视觉触觉与声学振动、惯性运动、温度等多种感知通道。
HapticVLM系统结合视觉语言模型推断环境温度,提供更全面的触觉反馈;Sparsh-X则系统验证了融合视觉、音频、IMU和压力四类信号可大幅提升机器人操控表现。
3. 与具身智能大模型协同发展
视觉触觉传感器生成的“触觉图像”有望成为训练具身智能大模型的重要输入源,使AI不仅能“看见”世界,更能“感知”物理交互规律,进而规划出更加自然、精准的动作策略。
4. 开放共享与标准化推进
为加速技术进步,越来越多的研究项目选择开源设计,如JAIST的ProTac系统。与此同时,行业也在推动建立统一的触觉数据集与评测基准,以便公正比较不同传感器的性能表现。
四、总结与未来展望
基于视觉的触觉传感技术通过“以视觉手段解决触觉问题”的巧妙思路,为人形机器人实现精细操作提供了强有力的支撑。凭借信息丰富、兼容主流AI框架、具备成本控制潜力等优势,该技术已成为灵巧手感知方案中的重要发展方向。
未来的演进将不再局限于单一技术迭代,而是呈现多维度融合的趋势:
- 感知融合:视觉触觉与听觉、惯性、温度等多模态传感深度融合,构建更完整的环境理解能力。
- 软硬协同:柔性新材料、先进光学材料与精密硬件设计紧密结合,提升整体性能与适应性。
- 算法-硬件协同优化:AI算法与专用传感硬件联合设计,实现效率与精度的双重提升。
- 系统级创新:打破“必须在接触点感知”的传统思维,从机器人整体系统出发,探索更具性价比和可靠性的感知解决方案。


雷达卡


京公网安备 11010802022788号







