楼主: 2019hansi
592 0

[论文期刊发表] 基于乳腺癌数据的插补方法比较研究 [推广有奖]

  • 3关注
  • 4粉丝

等待验证会员

院士

44%

还不是VIP/贵宾

-

威望
0
论坛币
14 个
通用积分
86.6083
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
40341 点
帖子
1760
精华
0
在线时间
810 小时
注册时间
2019-6-4
最后登录
2025-12-8

楼主
2019hansi 发表于 2025-3-25 11:43:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1 论文标题:基于乳腺癌数据的插补方法比较研究

2 作者信息:杨 丹, 左俊希:重庆理工大学理学院,重庆

3 出处和链接:杨丹, 左俊希. 基于乳腺癌数据的插补方法比较研究[J]. 国际会计前沿, 2025, 14(1): 10-19. https://doi.org/10.12677/fia.2025.141002

4 摘要:缺失数据一直是数据分析工作中面临的难题之一,缺失数据的存在会导致模型性能的损耗,因此尽可能准确地预测填补缺失的方法变得尤为重要。本文将依托于“威斯康星乳腺癌诊断”数据集进行常见插补方法的比较研究,首先将原始数据按照完全随机缺失机制进行缺失处理,然后通过建立Logistic模型、支持向量机模型两种不同的模型,在不同缺失率(10%、30%)、不同协变量缺失个数(3个、6个)条件下,比较均值插补、KNN插补、多重插补3种不同插补方法的性能。同时,将准确率、F1值、AUC值作为衡量插补效果的量化指标。本文的实验结果表明,支持向量机模型对于乳腺癌数据集的拟合效果明显好于Logistic模型;同时对于所有的插补方法都会随着缺失率和缺失协变量的个数的增加,而性能发生降低。插补性能下降幅度却不相同,多重插补的性能明显更稳定,下降幅度最小,同时多重插补的插补效果综合来看也是最好的。对数据进行多重插补后拟合的Logistic模型和支持向量机模型在缺失率为30%、缺失协变量个数为6个的时候,对应准确率、F1值、AUC值分别为0.894、0.923、0.872和0.923、0.94、0.908。因此得出,基于生成多个数据集来模拟缺失数据不确定性的多重插值,在进行完全随机缺失处理后的“威斯康星乳腺癌诊断”数据集上相较于均值插补和KNN插补,其插补的稳健性和可信度明显更高。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:比较研究 乳腺癌 Logistic模型 logistic ogistic

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 05:42