楼主: 时光永痕
706 0

[数据挖掘新闻] 通用机器学习-Kerneml-简单ML训练复杂ML [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

47%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
通用机器学习-Kerneml-简单ML训练复杂ML
我最近创建了一个“粒子优化器”,并发布了一个名为kernelml的pip python软件包。制作此算法的动机是为分析人员和数据科学家提供一种针对复杂损失函数和非线性系数的通用机器学习算法。优化器结合使用简单的机器学习和概率模拟,以使用损失函数,输入和输出矩阵以及(可选)随机采样器来搜索最佳参数。我目前正在使用更多功能,希望最终使该项目开源。
用例示例:
让我们考虑将经度和纬度坐标聚类的问题。诸如K均值的聚类方法使用欧几里得距离来比较观测值。但是,经度和纬度数据点之间的欧几里得距离并不直接映射到Haversine距离。这意味着,如果将0到1之间的坐标标准化,则在聚类模型中将无法准确表示距离。一种可能的解决方案是找到经度和纬度的投影,以使到数据点质心的Haversian距离等于在欧几里得空间中投影的经度和纬度的距??离。
通过此坐标转换的结果,您可以将相对于中心的Haversine距离表示为欧几里得距离,可以在群集解决方案中对其进行缩放和使用。
另一个更简单的问题是找到非线性系数的最佳值,即最小二乘线性模型中的幂变换。这样做的原因很简单:整数幂变换很少捕获最佳拟合变换。通过允许幂变换为任意实数,精度将提高,并且该模型将更好地推广到验证数据。  
为了阐明幂变换的含义,上面提供了该模型的公式。
算法:
kernelml背后的想法很简单。在机器学习模型中使用参数更新历史记录来决定如何更新下一个参数集。在后端使用机器学习模型会引起偏差方差问题,特别是,参数更新在每次迭代中都会变得更加偏差。可以通过在每次迭代后围绕最佳记录参数集进行蒙特卡洛仿真来解决该问题。
衔接问题:
该模型在每次迭代后保存最佳参数和用户定义的损耗。该模型还记录所有参数更新的历史记录。问题是如何使用这些数据定义收敛。一种可能的解决方案是:
         收敛=(best_parameter-np.mean(param_by_iter [-10:,:],axis = 0))/(np.std(param_by_iter [-10:,:],axis = 0))
         如果np.all(np.abs(convergence)<1):
            print('converged')
            中断
该公式使用最后10个参数和最佳参数创建Z分数。如果所有参数的Z分数均小于1,则可以说该算法已收敛。当存在理论上最佳的参数集时,此收敛解决方案将很好地工作。使用算法进行聚类时,这是一个问题。请参见下面的示例。
图1:使用kernelml进行聚类,二维多元正态分布(蓝色),聚类解决方案(其他颜色)
我们将不讨论集群解决方案的质量,因为它显然不能代表数据。群集解决方案最大程度地减少了多维直方图与6个正态分布(每个轴3个)的平均概率之间的差异。在这里,分布可以很容易地“交易”数据点,这可能会增加收敛时间。为什么不只拟合3个多元正态分布?由于某些参数具有约束,因此模拟分配参数存在问题。协方差矩阵必须为正,半定数,并且逆必须存在。正态分布的标准偏差必须> 0。该模型中使用的解决方案通过对每个单独的参数进行自定义仿真来合并参数约束。一世'
为什么使用kernelml代替Expectation Maximization?
非正态分布(例如Poisson)可能无法与多元正态聚类解决方案中的其他维度很好地拟合。另外,随着维数的增加,一个簇具有仅具有非零值的特征的可能性也增加。这给EM算法带来了一个问题,因为它试图更新协方差矩阵。唯一特征和其他维度之间的协方差将为零,或者另一个聚类将接受具有此非零值的观察值的概率为零。
概率优化器的好处:
与完全参数化的模型相比,参数的概率模拟具有很多优势。首先,正则化包含在先前的随机模拟中。例如,如果的先前随机模拟在-1和1之间,则可以推断出参数将以同等重要性进行更新。此外,在算法收敛的同时,每次迭代都会生成一组参数,这些参数围绕全局或局部最小损失进行采样。这有两个主要好处:1)可以为每个参数建立一个置信区间2)每个参数集的预测输出在统一模型中可能是有用的功能。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 maximization expectation Convergence Parameter

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 07:29