楼主: ewfwedwd
21 0

[经管数据集] MCTS 中文文本简化数据集 [推广有奖]

  • 0关注
  • 1粉丝

已卖:427份资源

学科带头人

14%

还不是VIP/贵宾

-

威望
0
论坛币
1313 个
通用积分
456.6953
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
12800 点
帖子
923
精华
0
在线时间
231 小时
注册时间
2022-11-18
最后登录
2026-2-18

楼主
ewfwedwd 发表于 2026-2-10 15:16:27 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

MCTS 中文文本简化数据集



MCTS 全称为 Multi-Reference Chinese Text Simplification Dataset,是由北京语言大学、东北大学和清华大学的研究团队于 2024 年发布的中文文本简化数据集,相关论文成果为「MCTS: A Multi-Reference Chinese Text Simplification Dataset」,旨在为自然语言处理领域中的文本简化任务提供丰富的资源和支持。



该数据集包含 723 条基于 Penn Chinese TreebankCTB)的标准、选自新闻语料的复杂结构句子,并且每一句都配有多个人工简化的版本,从而成为中文文本简化任务上规模最大、参考最多的评估数据集。此外,MCTS 还定义了三种类型的句子改写方法:改述、句子压缩和结构转换,这样的多样性覆盖了不同的文本简化策略。



MCTS 数据集不仅适用于分级阅读、机器翻译等研究领域,还能够帮助语言学习者更好地理解和处理复杂文本。



使用方法方面,MCTS 提供了训练用的平行数据,可以用于训练和优化中文文本简化模型。同时,研究者也可以通过对比系统生成的简化文本与数据集中的多参考简化版本,使用自动评估指标如 SARI BLEU HSK Level 等来量化系统的表现。





MCTS 中文文本简化数据集.zip (1.79 KB, 需要: RMB 10 元)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据集 Reference Chinese dataset erence

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-21 01:30