发帖

楼主: 红红哒

1231 2

[数据挖掘理论与案例] 某公司的一道数据挖掘面试题，大家一起讨论一下。如果有数学系的发表一下看法 [推广有奖]

0关注
0粉丝

初中生

71%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 2121 个
通用积分: 10.0000
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 2333 点
帖子: 12
精华: 0
在线时间: 24 小时
注册时间: 2015-7-2
最后登录: 2021-12-10

楼主

红红哒 发表于 2020-7-30 16:41:03 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大家好，这是我第一次发帖（我发的是免费贴）。如有不周到之处还望见谅。附件是某公司发我邮箱的一道数据分析面试题。sheet1是自变量，sheet2是因变量。因变量应该是密度。按照说明，题目要求相关性，我的解题思路是：

方法一、精细，计算量大，但比较精准。将每个产地等级做为一个总体，再将每个总体互相作等效性测试。

1. 先通过描述性统计量对每个产地等级的各个变量进行分析，找出他们的大致分布。

2. 再对同一地区的两两产地等级每个变量进行配对样本检验，看他们的总体是否在一定区域内有等效性。如果全部变量总体等效可以一起进行相关性分析，否则要分产地等级进行分析。

3. 如果有一个单变量不服从正态分布就用斯皮尔曼相关分析，否则可以用皮尔森相关分析。

4. 在进行配对样本检验时每个变量也要满足正态分布才可以用T检验，否则用非参数检验。

5. 对于同一产地等级中抽取出的小样本，按照实际情况选择各个变量的平均数，中位数或众数来和因变量进行相关性分析。考虑到非等比例抽样，在进行相关分析时引入权重。

方法二、便捷，计算少。分玉溪与临沧两个大样本，下面再分层抽样各个小样本。

1. 先通过描述性统计量对两个样本的各个变量进行分析，找出他们的大致分布。

2. 对两个样本每个变量进行独立双样本检验，看他们总体是否等效。如果全部变量总体等效可以一起进行相关性分析，否则要分产地进行分析。

3，4，5同上。

方法三、粗犷快捷，但不精准。将所有观察值看作来自同一个总体，直接运用第5点进行相关性分析。

方法四、将每个产地等级做为一个总体，通过聚类方法将同质性的产地等级聚合为一个总体，达到某个水平后看一下有几个类（几个总体），然后在每个总体中分别做相关性分析。（但用一组数据作为一个观测值进行聚类没有找到这样的算法，如果用每个小样本（五个观测值）进行聚类又会打乱产地等级的秩序）

我的具体解法在附件中，请大家指点。我最后也没有被面试上，也不知道做错在哪里。望数学高手指点一二。谢谢大家！

数据（以此为准）.xlsx (31.18 KB)

说明.txt (476 Bytes)

相关分析前整理的数据.xlsx (13.45 KB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据挖掘面试题数学系描述性统计量相关性分析数据分析数据分析面试题

数据.xlsx
下载链接: https://bbs.pinggu.org/a-3273828.html

34 KB

参见《数据（以此为准）》

[数据挖掘理论与案例] 某公司的一道数据挖掘面试题，大家一起讨论一下。如果有数学系的发表一下看法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘理论与案例] 某公司的一道数据挖掘面试题，大家一起讨论一下。如果有数学系的发表一下看法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群