发帖

楼主: casey_c

3056 1

[程序分享] Scikit-Learn 库核密度估计 [推广有奖]

0关注
10粉丝

博士生

92%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 96 个
通用积分: 2.1003
学术水平: 2 点
热心指数: 15 点
信用等级: 2 点
经验: 11502 点
帖子: 278
精华: 0
在线时间: 94 小时
注册时间: 2016-11-22
最后登录: 2022-5-2

楼主

casey_c 发表于 2017-7-14 10:30:41 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

以下内容转自数析学院，只节选了部分，有需要的同学可以直接查看原文

核密度估计（kernel density estimation）是非参数统计检验中的重要方法之一，常用于估计未知的密度函数。今天将向大家介绍在 Python 中如何利用 Scikit-Learn 库中的相关工具，对数据集的样本分布进行核密度估计。

导入可视化库：

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

复制代码

构建示例数据：

def make_data(N, f=0.3, rseed=1):
rand = np.random.RandomState(rseed)
x = rand.randn(N)
x[int(f * N):] += 5
return x
x = make_data(1000)

复制代码

可以看到，构建的数据为一维的随机数组，我们对其中后2/3的样本加上整数5。处理之后，其频率分布直方图如下所示：

hist = plt.hist(x, bins=30, normed=True)

复制代码

根据频率分布直方图的性质，所有柱形对应的频率之和为1:

density, bins, patches = hist
widths = bins[1:] - bins[:-1]
(density * widths).sum()

复制代码

1.0
频率分布直方图是非参数统计中的重要可视化方法，为了演示方便，我们构造一组规模相对较小的数据集：

x = make_data(20)
bins = np.linspace(-5, 10, 10)

复制代码

在 Python 中，我们可以自定义直方图中的分组。下面我们用两种不同的分组方式，绘制两幅频率分布直方图，并将数据集中每个样本的值标注在横轴刻度下方。其中，右图为将默认的分组边界向右平移0.6之后的频率直方图结果：

fig, ax = plt.subplots(1, 2, figsize=(12, 4),
sharex=True, sharey=True,
subplot_kw={'xlim':(-4, 9),
'ylim':(-0.02, 0.3)})
fig.subplots_adjust(wspace=0.05)
for i, offset in enumerate([0.0, 0.6]):
ax[i].hist(x, bins=bins + offset, normed=True)
ax[i].plot(x, np.full_like(x, -0.01), '|k',
markeredgewidth=1)

复制代码

以上内容节选自数析学院，原文内容较多，先搬运到这，后续有时间再补充，有需要的同学可以先直接到数析学院查看原文

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：scikit-learn 核密度估计 Learn Earn ear

[程序分享] Scikit-Learn 库核密度估计 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[程序分享] Scikit-Learn 库核密度估计 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群