楼主: 大多数88
417 19

[量化金融] 使用Azure机器评估医院病例成本预测模型 [推广有奖]

11
能者818 在职认证  发表于 2022-6-14 00:51:32
每个表都显示了调整前后的性能指标以及确定的最佳参数。此外,与默认参数相比,这些表显示了每个性能指标的改进程度。结果第4阶段在第4阶段进行了以下实验:  更改型号中的种子编号(从最初的12345更改为98642)(如果可能)。  将测试数据集和评分数据集之间的分割百分比从0.5(50%测试,50%评分)更改为0.7(70%测试,30%评分)。  改变数据集特征的数量:从初始成本、服务水平、RIW和年龄组到成本、服务水平、RIW。对于每个选项,运行Azure内置回归模型(5种类型),并记录和比较性能指标。附录中提供了包含指标数据的表格,显示了选项之间的绝对和相对差异:  更改种子编号–附录3。  更改测试数据集和评分数据集之间的分割百分比-附录4。  更改数据集功能的数量–附录5。结果第5阶段综合了综合工具的结果。图6显示了Azure内置回归模型和基于R的回归模型的组合工作流。表6显示了Azure内置回归模型和基于R回归模型的组合性能指标。优化版本的提升决策树回归和决策林回归的性能显示在列表的上方。未调整基于R的模块的参数。R包中的大多数模型都使用默认参数。此外,还使用glm和lm函数构建了多元线性回归模块。结果未显示,因为它们与Azure线性回归内置模型的结果相同。

12
kedemingshi 在职认证  发表于 2022-6-14 00:51:35
通常,如果需要直接宣布独立变量以添加或删除单个功能,那么在Azure实验中使用glm和/或lm函数可能是有原因的。函数glm和lm可以在Azure中使用,而无需调用R库(即{stats}或{cars})。14讨论-讨论阶段1选择信息最丰富的功能可以得到直观的预期结果。根据所有标准(见表1),RIW功能被确定为最重要的功能,其次是LOS(只有一个例外:卡方检验的第二个重要功能是诊断)。RIW和LOS的得分明显高于其他特征的得分。同时,大多数标准认为干预、诊断和性别最不重要。CMG和年龄组在量表的中间位置是混合的。讨论第2阶段对第2阶段测试的分析建议从进一步考虑中删除一些模型。快速查看测试结果表明,与其他模型相比,神经网络回归和泊松回归模型的所有性能指标值都显著降低。另外四(4)种模型(即线性回归、贝叶斯线性回归、决策林回归和增强决策树回归)通过三(3)个性能指标进行比较:平均绝对误差(MAE)、均方根误差(RMSE)和确定系数(CoD)。结果见附录2中的表A2.2。总的来说,所有模型的性能指标都显示出与测试数据集的特征数量相似的关联。当删除某些数据集特征时(从测试1到测试6),性能会提高(即MAE和RMSE降低,CoD增加)。从测试1到测试3,观察到显著改善(即诊断、干预、病例混合组列被逐一删除)。

13
nandehutu2022 在职认证  发表于 2022-6-14 00:51:38
对于从4到6的测试,所有模型的性能稳定在相同的范围内:MAE为400-500美元,RMSE为1990-2300美元,CoD为0.65-0.75美元。唯一的例外是DFR模型的性能,它在测试5中的结果有一定的下降。在第2阶段实验的基础上,使用测试数据集4、5和6进行进一步测试。对模型的个别性能进行比较,结果好坏参半。决策森林回归(DFR)显示了最佳MAE。线性回归(LR)和贝叶斯线性回归(BLR)证明了最佳RMSE。最佳CoD记录为决策林回归(DFR)和增强决策树回归(BDT)。再次重申,所有模型的性能指标差异均不显著,所有模型均被纳入第3阶段实验,数据集为测试4至测试6。如前所述,测试4至测试6包含在特征选择练习中确定的预测能力最强的特征。因此,特征选择过程的结果和实验中误差分析的结果相互支持,并证实使用信息量较少的特征不仅会导致效率低下,而且可能会直接降低预测性能。尝试使用Azure主成分分析(PCA)模块(位于Scale and Reduce,Data Transform)将信息量较小的功能(干预、诊断、CMG、性别)组合到一列中。组合列(一组正数和负数)已添加到测试4的数据集中。实验没有显示任何类型的回归对性能有任何改善。

14
可人4 在职认证  发表于 2022-6-14 00:51:41
使用基于滤波器的特征选择模块对该组合列进行的分析还表明,组合特征的预测能力可以忽略不计(但不是零)。15讨论阶段3参数调整实验表明,决策林回归和增强树回归模型对参数扫描有响应。通过最小平均误差进行的优化表明,决策林回归提高了5%,增强树回归提高了16.9%(见表4和表5)。优化模型的所有其他性能指标也得到了改进。均方根误差(RMSE)的减少提供了证据,证明在优化模型中,较大误差的扩散性较小,因为较大误差对RMSE值的贡献最大。优化决策林回归和增强树回归模型都显示了相似的性能指标绝对值:平均误差为402-403美元,确定系数为0.75-0.76%。与默认选项相比,使用所有其他类型的回归(即线性回归、贝叶斯线性回归、神经网络回归和泊松回归)进行的参数调整实验要么不可能,要么没有产生性能指标的改进。讨论阶段4种子数变化实验表明,决策林回归算法和增强决策树回归算法能够容忍这种变化(附录3)。MAE变化在1%以下。将分割比从0.5更改为0.75,即使测试数据集更大,从而提高了MAE大多数算法的性能(附录4)。将数据集特征的数量从初始成本、服务水平、RIW(HCC-Test\\u 5)和年龄组更改为成本、服务水平、RIW(HCC-Test\\u 6),即删除年龄组列,将大多数算法的MAE提高了2-8%,但贝叶斯线性回归和随机森林回归除外(附录5)。

15
能者818 在职认证  发表于 2022-6-14 00:51:44
讨论阶段5所有14个模型的实验结果表明,性能指标,尤其是MAE,在很大范围内变化(见表6)。就MAE而言,最小误差约为250美元,最大误差约为550美元。稳健回归显示出最好的性能(MAE$255)。这一结果明显优于所有其他基于R的模型。此外,稳健回归优于所有Azure MLS内置模型。为了证实这一发现,使用两种不同的算法计算了稳健回归:来自{MASS}的rlm函数和来自{robustbase}的lmrob函数。两种算法返回的结果几乎相同。对于大多数方法,确定系数接近0.70-0.75。Azure内置回归模型和基于R的回归模型的综合性能指标(考虑参数调整)表明,稳健回归模型表现最好(MAE 255美元),其次是增强决策树回归(402美元)和决策林回归(403美元)。尽管如此,后两者仅在进行调优(优化)时才显示此性能。这些算法对变化也表现出良好的耐受性。该工具的应用不限于成本预测。该工具也可用于类似类型的预测,例如住院时间预测,或用于医疗保健以外的部门。16限制注意,该工具仅使用数字数据构建和测试,没有n.a.(缺失)元素。某些回归模型不包括分类数据,可能需要转换为数字格式。请注意,实验中使用的数据集是模拟的,对于数据的有效性及其模拟真实世界信息的程度,不提供任何保证。请注意,由于上一点,实验的数值结果无法用于进行实际预测。

16
能者818 在职认证  发表于 2022-6-14 00:51:47
结束语本研究的实际贡献在于提供Azure机器学习工作室工具,用于快速评估多种类型的回归模型。该操作工具已在Azure MLS网站上发布(Botchkarev,2018a)。研究人员和从业者可以使用它来重现这项研究的结果,用他们自己的数据集进行实验,或者向框架中添加更多回归模型。

17
可人4 在职认证  发表于 2022-6-14 00:51:50
该工具为比较14种类型的回归模型提供了环境(线性回归、贝叶斯线性回归、决策林回归、增强决策树回归、神经网络回归、泊松回归、高斯回归过程、梯度增强机、非线性最小二乘回归、投影寻踪回归、随机林回归、稳健回归、带mm型估计器的稳健回归、支持向量回归)在一个统一的实验中,使用22个性能指标在一个表中显示评估结果:确定系数(CoD)、几何平均相对绝对误差(GMRAE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、平均绝对标度误差(MASE)、中位绝对误差(MdAE)、中位绝对百分比误差(MdAPE)、中位相对绝对误差(MdRAE),平均误差(ME)、平均百分比误差(MPE)、平均相对绝对误差(MRAE)、均方误差(MSE)、归一化为最大和最小实际数据之差的均方根误差(NRMSE\\u mm)、归一化为实际数据标准偏差的均方根误差(NRMSE\\u sd)、相对绝对误差(RAE),根中位平方百分比误差(RMdSPE)、根均方误差(RMSE)、根均方百分比误差(RMSPE)、相对平方误差(RSE)、对称平均绝对百分比误差(sMAPE)、对称中位绝对百分比误差(SMdAPE)、平方误差之和(SSE)。使用开发的快速评估Azure MLS工具,评估各种类型的回归机器学习模型,以进行医院病例成本预测。稳健回归模型和优化版本的增强决策树回归和决策林回归证明了更高的性能。

18
kedemingshi 在职认证  发表于 2022-6-14 00:51:53
承认本文件中表达的观点、意见和结论仅为作者本人的观点、意见和结论,不一定代表作者现任或前任雇主的观点。17参考文献Alpenberg,J.,&Scarbrough,D.P.(2015)。精益医疗和安大略案例成本核算——战略变革和管理控制系统的审查(2014年12月14日)。2015年加拿大学术会计协会(CAAA)年会。SSRN提供:https://ssrn.com/abstract=2538288或http://dx.doi.org/10.2139/ssrn.2538288Botchkarev,A.,&Andru,P.(2008年5月)。使用集成医疗保健数据库的财务建模。电气与计算机工程专业,2008年。CCECE 2008。加拿大会议(第001973-001976页)。IEEE。Botchkarev,A.(2018a)。第2版多类型回归机器学习模型快速评估的集成工具。在Microsoft Azure机器学习工作室中进行实验。Azure AI图库。https://gallery.azure.ai/Experiment/Revision-2-Integrated-tool-for-rapid-assessment-of-multi-type-regression-machine-learning-modelsBotchkarev,A.(2018b)。使用回归分析的多个性能指标增强模型评估。在Microsoft Azure机器学习工作室中进行实验。Azure AI图库。https://gallery.azure.ai/Experiment/Enhanced-model-evaluation-with-multiple-performance-metrics-for-regression-analysisBotchkarev,A.(2018c)。在Azure机器学习工作室(2018年5月12日)使用多个错误度量评估回归机器学习模型的性能。SSRN提供:http://ssrn.com/abstract=3177507插入符号:分类和回归训练。R包。https://cran.r-project.org/web/packages/caret/index.htmlCorral,M.,Ferko,N.,Hogan,A.,Hollmann,S.S.,Gangoli,G.,Jamus,N.,…&Kocharian,R.(2016)。

19
能者818 在职认证  发表于 2022-6-14 00:51:56
软组织和肝脏手术出血中纤维蛋白封闭剂补片的医院成本分析。临床经济学和结果研究:CEOR,8507。e1071:统计部概率论组的其他函数(原e1071)。R包。https://cran.r-project.org/web/packages/e1071/index.htmlkernlab:基于内核的机器学习实验室R包。https://cran.r-project.org/web/packages/kernlab/index.htmlMASS:支持Venables和Ripley的MASS的函数和数据集。R包。https://cran.r-project.org/web/packages/MASS/index.htmlMSBVAR:马尔可夫切换、贝叶斯、向量自回归模型。R包。https://cran.r-project.org/web/packages/MSBVAR/index.htmlOsnabrugge,R.L.、Speir,A.M.、Head,S.J.、Jones,P.G.、Ailawadi,G.、Fonner,C.E.,…&Rich,J.B.(2014)。预测冠状动脉旁路移植术的费用和住院时间。《胸外科年鉴》,98(4),1286-1293年。内政部:https://doi.org/10.1016/j.athoracsur.2014.05.073随机森林:用于分类和回归的布雷曼和卡特勒随机森林。R包。https://cran.r-project.org/web/packages/randomForest/index.htmlrobustbase:基本稳健统计。R包。https://cran.r-project.org/web/packages/robustbase/index.html18Srinivasan,K.、Currim,F.、Ram,S.(2017)。使用网络科学预测入院时的高成本患者。IEEE生物医学和健康信息学杂志,卷:PP,第99期。内政部:10.1109/JBHI。2017.2783049 Sushmita,S.、Newman,S.、Marquardt,J.、Ram,P.、Prasad,V.、Cock,M.D.、Teredesai,A.(2015年5月)。公共医疗数据集的人口成本预测。2015年第五届数字健康国际会议记录(第87-94页)。ACM。stats:R stats包。R包。

20
能者818 在职认证  发表于 2022-6-14 00:51:59
https://stat.ethz.ch/R-manual/R-devel/library/stats/html/00Index.html蒂格,L.、马奥尼,J.、古德曼,L.、保罗登,M.、波斯,J.、李,J.,…&Krahn,M.(2011年)。支持面在手术患者术中预防压疮:一项成本-效果分析。外科学,150(1),122-132.19附录1。数据集特征表A1.1干预诊断混合组(CMG)性别组相对强度权重(RIW)住院时间(LOS)成本1GJ50BAC3480F1.46314801GJ50BAC781M1.46315101FU89NZC783F1.40514603GY20WCA157F1.49932003GY20WAA150M2.13522303AN20WAA152M1.4991540Fig。A1.1大成本直方图20图A1.2低成本直方图A1.3相对强度权重直方图21图A1.4年龄组分布图A1.5干预措施分布(60例或以上)22图A1.6诊断分布(50例或以上)图A1.7 CMG病例数分布(50例或以上)23附录2。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 15:52