请选择 进入手机版 | 继续访问电脑版
楼主: mingdashike22
48 19

[量化金融] 使用Azure机器评估医院病例成本预测模型 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

80%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
56.5588
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
25284 点
帖子
4231
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

mingdashike22 在职认证  发表于 2022-6-23 17:59:24 |显示全部楼层

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Evaluating Hospital Case Cost Prediction Models Using Azure Machine
  Learning Studio》
---
作者:
Alexei Botchkarev
---
最新提交年份:
2018
---
英文摘要:
  Ability for accurate hospital case cost modelling and prediction is critical for efficient health care financial management and budgetary planning. A variety of regression machine learning algorithms are known to be effective for health care cost predictions. The purpose of this experiment was to build an Azure Machine Learning Studio tool for rapid assessment of multiple types of regression models. The tool offers environment for comparing 14 types of regression models in a unified experiment: linear regression, Bayesian linear regression, decision forest regression, boosted decision tree regression, neural network regression, Poisson regression, Gaussian processes for regression, gradient boosted machine, nonlinear least squares regression, projection pursuit regression, random forest regression, robust regression, robust regression with mm-type estimators, support vector regression. The tool presents assessment results arranged by model accuracy in a single table using five performance metrics. Evaluation of regression machine learning models for performing hospital case cost prediction demonstrated advantage of robust regression model, boosted decision tree regression and decision forest regression. The operational tool has been published to the web and openly available for experiments and extensions.
---
中文摘要:
准确的医院病例成本建模和预测能力对于有效的医疗保健财务管理和预算规划至关重要。已知各种回归机器学习算法对于医疗成本预测是有效的。本实验的目的是构建Azure机器学习工作室工具,用于快速评估多种类型的回归模型。该工具为在统一实验中比较14种类型的回归模型提供了环境:线性回归、贝叶斯线性回归、决策林回归、增强决策树回归、神经网络回归、泊松回归、高斯回归过程、梯度增强机、非线性最小二乘回归、投影寻踪回归、,随机森林回归,稳健回归,mm型估计稳健回归,支持向量回归。该工具使用五个性能指标在一个表中显示按模型精度排列的评估结果。对回归机器学习模型进行医院病例成本预测的评估显示了稳健回归模型、增强决策树回归和决策林回归的优势。该操作工具已发布到web上,并可公开用于实验和扩展。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Evaluating_Hospital_Case_Cost_Prediction_Models_Using_Azure_Machine_Learning_Studio.pdf (1.29 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Azure 预测模型 Quantitative Applications environment

mingdashike22 在职认证  发表于 2022-6-23 17:59:29 |显示全部楼层
1使用Azure机器学习工作室Alexei Botchkarev评估医院病例成本预测模型准确的医院病例成本建模和预测能力对于高效的医疗保健财务管理和预算规划至关重要。已知各种回归机器学习算法对于医疗成本预测是有效的。本实验的目的是构建Azure机器学习工作室工具,用于快速评估多种类型的回归模型。该工具为在统一实验中比较14种类型的回归模型提供了环境:线性回归、贝叶斯线性回归、决策林回归、增强决策树回归、神经网络回归、泊松回归、高斯回归过程、梯度增强机、非线性最小二乘回归、投影寻踪回归、,随机森林回归,稳健回归,mm型估计稳健回归,支持向量回归。该工具使用22个性能指标在一个表中显示评估结果:CoD、GMRAE、MAE、MAPE、MASE、MdAE、MdAPE、MdRAE、ME、MPE、MRAE、MSE、NRMSE\\U mm、NRMSE\\U sd、RAE、RMdSPE、RMSE、RMSPE、RSE、sMAPE、SMdAPE、SSE。对回归机器学习模型进行医院病例成本预测的评估显示了稳健回归模型、增强决策树回归和决策林回归的优势。该操作工具已发布到web上,并可在Azure MLS上公开用于实验和扩展。关键词:机器学习、回归、多种类型、模型、预测、预测、评估、Azure机器学习工作室、R、R包、错误、准确性、性能指标、医疗保健、案例成本。---------------------------------------------------------------注:这是工作文件的第二版。

使用道具

nandehutu2022 在职认证  发表于 2022-6-23 17:59:32 |显示全部楼层
它基于更新的Azure MLS操作工具:Botchkarev,A.(2018)。第2版多类型回归机器学习模型快速评估的集成工具。在Microsoft Azure机器学习工作室中进行实验。Azure AI图库。https://gallery.azure.ai/Experiment/Revision-2-Integrated-tool-for-rapid-assessment-of-multi-type-regression-machine-learning-models在该工具的第二次修订中,使用新开发的增强评估模型(EEM)模块评估所有回归模型。评估绩效指标的数量已增加到22个。EEM作为Azure MLS实验提供:Botchkarev,A.(2018)。使用回归分析的多个性能指标增强模型评估。在Microsoft Azure机器学习工作室中进行实验。Azure AI图库。https://gallery.azure.ai/Experiment/Enhanced-model-evaluation-with-multiple-performance-metrics-for-regression-analysisEEM详情见:Botchkarev,A.(2018)。在Azure机器学习工作室(2018年5月12日)使用多个错误度量评估回归机器学习模型的性能。SSRN提供:http://ssrn.com/abstract=3177507此外,已修复早期版本的错误。2简介医院治疗的患者层面成本信息对于成本效益分析至关重要(例如,Alpenberg&Scarbrough,2015;Teague等,2011)。准确的医院病例成本建模和预测能力对于高效的医疗保健财务管理、预算规划和分析目的非常重要(例如Osnabrugge等,2014;Corral等,2016)。各种类型的回归机器学习算法已被用于医疗成本预测。

使用道具

可人4 在职认证  发表于 2022-6-23 17:59:36 |显示全部楼层
例如,Botchkarev&Andru(2008)研究了多元线性回归,Sushmita等人(2015)研究了回归树、M5模型树和随机森林,Srinivasan、Currim&Ram(2017)进行了分层决策树、随机森林、线性回归和梯度增强树的实验。通常,研究团队在一个实验中调查较少的回归类型:两到四个。此外,算法实现的细节、不同性能指标的使用以及所用数据集的特殊性使得研究结果难以比较、解释和再现。为了克服这个问题,当前的研究重点是开发一种工具,该工具将在同一个实验中包含多种类型的回归模型,使用不同的(但所有算法都相同)性能指标,允许轻松更改输入数据集。方法学目的本实验的目的是构建Azure MLS工具,比较用于医院病例成本预测的各种回归机器学习模型,并选择性能更高的模型进行进一步检查。实验平台Microsoft Azure机器学习工作室(https://studio.azureml.net)已被选为构建工具和进行实验的平台。Azure MLS的选择源于以下直接有助于实现研究目标的功能:-基于云的机器学习即服务。-基于Web的解决方案–用户只需使用浏览器即可使用系统。无设置、安装和维护问题或复杂性。-易于使用的拖放画布界面,直观清晰地将计算模块聚合到实验中。-几个现成的内置回归模块。-使用R和Python语言编写实验代码的灵活性。-能够集成R包中的功能。

使用道具

能者818 在职认证  发表于 2022-6-23 17:59:39 |显示全部楼层
-易于访问、受密码保护的集成开发环境。-能够将实验结果发布到web上。-重复使用已发布实验或其组件的能力。-低费用(按量付费)甚至免费服务。实验中包括3个回归模型Azure内置模型:-线性回归,-贝叶斯线性回归,-决策林回归,-增强决策树回归,-神经网络回归和-泊松回归。Azure MLS内置算法得到了使用R语言模块开发的模型的补充:执行R脚本并创建R模型:-回归的高斯过程,-梯度增强机器,-非线性最小二乘回归,-投影寻踪回归,-随机森林回归,-稳健回归,-使用mm类型估计器的稳健回归,-支持向量回归(支持向量机)。数据分析这个实验使用了一个模拟数据集来模拟医院信息。数据集有以下列(特征):干预、诊断、病例组合组(CMG)、性别、年龄组(Age Gr)、相对强度体重(RIW)、住院时间(LOS)、费用。数据集中的总行数为7000。附录1提供了数据集特征的概述。请注意,数据集是模拟的,对于数据的有效性及其模拟真实世界信息的程度,不提供任何保证。超出范围。建立可操作的HCC模型和进行实际HCC预测超出了范围。实验阶段第1阶段。实验阶段1的目的是研究数据集特征(列)的预测能力。Azure MLS基于过滤器的功能选择模块用于对具有多个标准的所有功能进行评分,并选择最重要的功能。

使用道具

可人4 在职认证  发表于 2022-6-23 17:59:42 |显示全部楼层
该阶段允许确定实验中必须使用哪些列,因为它们对模型结果的贡献最大,哪些不应该使用。第2阶段。实验阶段2的目的是比较Azure MLS内置类型的回归机器学习模型:线性回归、贝叶斯线性回归、决策林回归、增强决策树回归、神经网络回归和泊松回归。在第2阶段,所有模型都使用Azure默认参数。为方便起见,所有模型的输出都显示在一个表中。在允许自定义

使用道具

能者818 在职认证  发表于 2022-6-23 17:59:45 |显示全部楼层
Azure MLS提供了一个“创建R模型”模块,用于使用R语言开发算法,并利用R Studio中实现的各种回归方法。实施了以下类型的回归:高斯回归过程、梯度推进机(GMB)、非线性最小二乘回归、投影寻踪回归、随机森林回归、稳健回归、使用mm型估计器的稳健回归、支持向量回归(支持向量机)。表1显示了实验中使用的R包和函数。表1:。实验中使用了R软件包和函数回归类型R软件包函数回归的高斯过程KernLabGaussprGradient Boosted Machine(GBM)CarettTrain(GBM)非线性最小二乘回归StatsNLS投影寻踪回归StatsPrrandom森林回归RandomForestRandomForestRobust回归MassRlmRobust回归带MM类型估计器RobustBaselRobSupport Vector回归(支持向量机)E1071SVM性能指标。在第1到第4阶段,Azure标准性能指标用于评估模型:平均绝对误差(MAE)、均方根误差(RMSE)、相对绝对误差(RAE)、相对平方误差(RSE)、确定系数(CoD)。

使用道具

可人4 在职认证  发表于 2022-6-23 17:59:48 |显示全部楼层
在第5阶段,使用增强的评估模型模块,将性能指标的数量增加到22:确定系数(CoD)、几何平均相对绝对误差(GMRAE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、平均绝对比例误差(MASE)、中位绝对误差(MdAE)、中位绝对百分比误差(MdAPE),中位相对绝对误差(MdRAE)、平均误差(ME)、平均百分比误差(MPE)、平均相对绝对误差(MRAE)、均方误差(MSE)、归一化为最大和最小实际数据之差的均方根误差(NRMSE\\u mm)、归一化为实际数据标准5偏差的均方根误差(NRMSE\\u sd),相对绝对误差(RAE)、根中值平方百分比误差(RMdSPE)、根均方误差(RMSE)、根均方百分比误差(RMSPE)、相对平方误差(RSE)、对称平均绝对百分比误差(sMAPE)、对称中值绝对百分比误差(SMdAPE)、平方误差之和(SSE)。术语在本文中,术语是按照Azure MLS约定使用的,例如,更常用的R平方称为确定系数(CoD)。附录6列出了缩略语列表。研究结果。操作工具已发布到网络上(Botchkarev,2018)。研究人员和从业者可以使用它来重现本研究的结果,用自己的数据集进行实验,或者在框架中添加更多回归模型。实验结果第1阶段结果使用基于Azure MLS过滤器的特征选择模块对数据集进行了测试,选择标准如下:Pearson相关性、互信息、Kendall相关性、Spearman相关性、卡方检验和Fisher评分。结果见表2。表2:。

使用道具

mingdashike22 在职认证  发表于 2022-6-23 17:59:52 |显示全部楼层
各种标准的评分数据集特征COSTRIWLOSAGE\\U GRCMGGenderdiagntervPearson Correlation0.8600.7640.0720.015COSTRIWLOSAGDIAGNIANtervAGE\\U grGenderMutual information 1.8520.3320.3080.2870.2440.0530.007CostRIWLOSAge\\U GRCMGGenderdiagntervkendall Correlation0.9570.4940.1560.023CostRIWLOSAge\\U GRCMGGenderdiagntervSpearman Correlation0.9860.6630.2230.030COSTRIWLOSAGE\\U Grgendarchi公司SquaredConstriwloscmgage\\u grGenderDiagnIntervFisher得分156.4827.4370.7730.551根据特征选择练习,训练数据集已转换为六(6)个版本,包含不同数量的特征。表3显示了数据集版本中的列列表。请注意,在版本之间顺序删除不太重要的列。该表还显示了基于他们使用的数据集的进一步实验中的测试名称。表3 testsTest\\u 1Test\\u 2Test\\u 3Test\\u 4Test\\u 5Test\\u 6Columns/featurescostcostcostcostcostcostriwriwriwriwriwloslosage\\u grAge\\u grAge\\u grAge\\u grAge\\u grgendergendergendergendermgcmgcmgdiagnodinagintervphase 2结果在Azure MLS内置模块中可用的以下类型的机器学习回归模型在实验中进行了测试:线性回归,贝叶斯线性回归、决策林回归、提升决策树回归、神经网络回归和泊松回归。第二阶段实验结果见附录2表A2.1。图1显示了MAE的图形比较,图2显示了RMSE的图形比较,图3显示了CoD的图形比较。7图1平均绝对误差图2均方根误差8图3 Azure内置模块的确定系数实验工作流程图如图4所示。图4:。

使用道具

大多数88 在职认证  发表于 2022-6-23 17:59:55 |显示全部楼层
回归比较实验流程图9结果第3阶段在第2阶段,所有模型都使用训练模型模块进行训练,针对每种回归类型,使用默认参数。Azure默认参数对于特定数据集可能不是最好的,也很可能不是最好的。调整模型参数可以在性能度量标准方面获得更好的结果。在一些资料中,这一过程被称为模型优化。Azure Tune模型超参数模块用于执行优化。调整决策林回归参数的实验结构如图5所示。该图表有两个平行流。一个用于使用默认参数进行实验,另一个位于右侧,用于调整参数。要运行调优实验,必须在两个模块中进行某些设置:决策林回归(DFR)和调优模型超参数(TMH)。DFR模块中的设置定义了参数调整的范围。有四个参数:每个叶节点的最小样本数、每个节点的随机分割数、决策树的最大深度和决策树的数量。TMH模块中的设置定义了在实验中改变参数值的方式,例如,该过程是否涉及扫描(扫描)所有可能的点组合-整个网格,或仅在随机参数值上进行扫描-随机扫描。此外,必须在TMH模块中选择优化标准。所有优化实验均以平均绝对误差为准则。图5:。直接林回归调整工作流图表11决策林回归和增强决策树回归的调整结果分别显示在表4和表5中。这些算法显示了最佳的调优能力。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-6-28 01:58