楼主: 2019hansi
301 0

[论文期刊发表] 大语言模型与人类在医患沟通中任务意图理解差异分析 [推广有奖]

  • 3关注
  • 4粉丝

等待验证会员

院士

44%

还不是VIP/贵宾

-

威望
0
论坛币
14 个
通用积分
86.6083
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
40331 点
帖子
1759
精华
0
在线时间
809 小时
注册时间
2019-6-4
最后登录
2025-12-5

楼主
2019hansi 发表于 2025-11-17 11:17:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1 论文标题:大语言模型与人类在医患沟通中任务意图理解差异分析

2 作者信息:何明净, 陈 梅*, 刘小英:中央民族大学信息工程学院,北京;程怡凡, 郭婉蓉, 赵天宇:中央民族大学生命与环境科学学院,北京

3 出处和链接:何明净, 陈梅, 刘小英, 程怡凡, 郭婉蓉, 赵天宇. 大语言模型与人类在医患沟通中任务意图理解差异分析[J]. 人工智能与机器人研究, 2025, 14(6): 1339-1350. https://doi.org/10.12677/airr.2025.146125

4 摘要:大语言模型(LLMs)已广泛应用于医患沟通场景,能够生成符合常识和语言规范的回答。然而,它们是否具备与人类相当的任务意图理解能力,仍是一个关键问题。为探讨这一差异,本文设计了双盲实验,对比多个主流模型与人类在面对相同医疗问题时的任务理解方式。我们将模型生成的评分标准视为其对任务意图的显性表达,并通过语义熵与加权置信度等指标,评估其在评分任务中的执行表现。结果显示,模型执行自身生成的评分标准时的结果加权置信度显著高于执行人类评分标准。进一步分析表明,模型在构建评分标准时倾向于将临床表达中的复杂语义拆解为表层片段,聚焦于局部信息点,难以还原人类评分标准中所体现的临床推理链、语境敏感性和整体性判断。为验证这一理解偏差是否可通过输入调整加以缓解,我们设计了表达方式干预实验,发现通过引入动词、形容词、副词等语言结构约束对医疗指令进行微调,能够显著提升模型在执行人工评分标准时的表现。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中央民族大学 信息工程学院 理解能力 HTTP 表达方式

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 13:18