ChineseWebText 是目前最新、最大的中文数据集,包含 1.42 TB 的数据。每个文本都被分配了一个质量分数,方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集,包含 600 GB 的中文文本,质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。
|
楼主: Lyon0898
|
24
0
ChineseWebText 中文网络文本数据集 |
|
已卖:4936份资源 院士 52%
-
|
| ||
|
|
扫码京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


