发帖

楼主: 时光永痕

1153 0

[数据挖掘新闻] KernelML-分层密度分解 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

14%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-8-10 19:04:48 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

KernelML-分层密度分解
目的，问题陈述和潜在的应用程序来自 datasciencecentral.com上的这篇文章。目标是使用内核的加权总和来近似任何多元分布。在此，内核是指参数化分布。这种使用核的衰减加权总和来近似分布的方法类似于泰勒级数，泰勒级数可以使用函数的导数在一个点附近近似函数。KernelML是一种粒子优化器，它使用参数约束和采样方法来最小化可自定义的损失函数。该软件包使用Cythonized后端，并通过Numba并行化跨多个内核的操作。KernelML现在可以在Anaconda云和PyPi（pip）上使用。请参阅KernelML 文档页面上的扩展。
目标
近似任何经验分布
建立参数化的密度估算器
离群值检测和数据集降噪
我的方法
我提出的解决方案已合并到python软件包KernelML中。示例代码可以在这里找到。
我的解决方案使用以下内容：
粒子群\遗传优化器
使用IID核的多Agent逼近
强化学习
粒子群\遗传优化器
大多数内核具有控制分布平均值和变化的超参数。尽管这些参数可能是可区分的，但我还是决定不使用基于梯度的方法。方差参数的梯度可能会消失，并且限制方差会使参数不可微。使用混合整数或粒子群策略来优化内核的超参数是有意义的。我决定使用统一分发内核，因为它对更高维度的异常值具有鲁棒性。
在过去的一年中，我独立开发了一种优化算法来解决非线性受限优化问题。它绝不是完美的，但是从头开始构建它使我可以：1）根据任务进行修改2）更好地理解我要解决的问题。
使用IID核的多Agent逼近
我最初的方法是使用多主体策略来同时拟合任何多变量分布。代理，在这种情况下，是内核，是独立的且相同分布的（IID）。我制定了一种算法，称为密度分解，以使任意数量的代理适合于分布。优化方法和细节可以在这里找到。以下视频逐帧显示了该解决方案在优化过程中的外观示例。
该算法在非稀疏，连续分布上似乎表现良好。一个问题是该算法使用了IID内核，这在对偏斜数据进行建模时是一个问题。每个内核具有相同的1 / K权重，其中K是内核数。从理论上讲，可以一次优化数百个内核，但是这种解决方案缺乏效率和粒度。
强化学习
我决定使用分层的，强化的方式来拟合经验多元分布。初始奖励R_0是经验分布，折现奖励R_1代表R_0处的初始多主体算法未捕获的数据点。等式（1）示出了奖励的更新过程。

关注 CDA 人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：kernel lml Science central python

[数据挖掘新闻] KernelML-分层密度分解 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] KernelML-分层密度分解 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群