楼主: ewfwedwd
14 0

[经管数据集] pyMethods2Test 编程语言处理数据集 [推广有奖]

  • 0关注
  • 1粉丝

已卖:416份资源

学科带头人

2%

还不是VIP/贵宾

-

威望
0
论坛币
1313 个
通用积分
456.6953
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
10220 点
帖子
865
精华
0
在线时间
205 小时
注册时间
2022-11-18
最后登录
2026-1-7

楼主
ewfwedwd 发表于 2026-1-4 14:26:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

pyMethods2Test 编程语言处理数据集




pyMethods2Test 数据集是由内布拉斯加大学林肯分校(University of Nebraska–Lincoln)的研究人员于2025年创建的,包含大量的开源单元测试方法和对应的焦点映射,旨在为Python代码生成有效的单元测试用例,弥补了Python语言在大型测试数据集方面的空白。相关论文成果为「pyMethods2Test: A Dataset of Python Tests Mapped to Focal Methods」,该数据集被广泛用于训练大型语言模型(LLM)以生成良好的Python单元测试用例,为LLM提供了丰富的训练数据,使其能够学习如何生成针对Python代码的测试。




该数据集通过挖掘 GitHub 上使用 Pytest unittest 框架的 88,846 Python 项目,构建了一个包含 22,662,037 个测试方法和 2,198,378 个焦点映射的集合。





数据集包含超过 2,200 万个测试方法到焦点方法的映射,提供了每个映射的详细上下文信息,如测试文件路径、焦点文件路径、类名、方法名、行号等;采用了 JSON 格式存储,便于处理;同时提供了生成焦点方法上下文的脚本。





数据存储在两个 ZIP 文件中。如果您只想使用预先挖掘的焦点数据,请解压 focal-data.zip 文件(解压后约 2 GB)。较大的 raw-data.zip 文件(解压后约 42 GB)包含用于生成焦点数据的原始数据,例如从存储库中提取的类和方法。






pyMethods2Test 编程语言处理数据集.zip (38.7 KB, 需要: RMB 10 元)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Methods Method 编程语言 语言处理 处理数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 16:14