楼主: ewfwedwd
27 0

[经管数据集] LCCC 大型清洁汉语会话语料库 [推广有奖]

  • 0关注
  • 1粉丝

已卖:423份资源

学科带头人

10%

还不是VIP/贵宾

-

威望
0
论坛币
1313 个
通用积分
456.6953
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
12620 点
帖子
905
精华
0
在线时间
221 小时
注册时间
2022-11-18
最后登录
2026-2-2

楼主
ewfwedwd 发表于 2026-1-22 14:31:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

LCCC 大型清洁汉语会话语料库




LCCC(全称为 Large-scale Cleaned Chinese Conversation corpus)由清华大学和三星中国研究院于 2020 年发布。



数据集主要包含两部分:LCCC-base680 万个对话)和 LCCC-large1200 万个对话)。研究团队设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量,该流程基于一组规则和一个在手动注释的 110K 个对话对上训练的分类器构建。研究团队所过滤的噪声包括:脏文字、特殊的字符、表情、语法不通的语句、上下文不相关的对话等。清理后的数据集和预训练模型将促进短文本对话建模的研究。




LCCC 大型清洁汉语会话语料库.zip (10.35 KB, 需要: RMB 10 元)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:lcc 语料库 Conversation Large-Scale Chinese

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-3 02:03