| 所在主题: | |
| 文件名: 说明.txt | |
| 资料下载链接地址: https://bbs.pinggu.org/a-3273829.html | |
| 附件大小: | |
|
大家好,这是我第一次发帖(我发的是免费贴)。如有不周到之处还望见谅。附件是某公司发我邮箱的一道数据分析面试题。sheet1是自变量,sheet2是因变量。因变量应该是密度。按照说明,题目要求相关性,我的解题思路是:
方法一、精细,计算量大,但比较精准。将每个产地等级做为一个总体,再将每个总体互相作等效性测试。 1. 先通过描述性统计量对每个产地等级的各个变量进行分析,找出他们的大致分布。 2. 再对同一地区的两两产地等级每个变量进行配对样本检验,看他们的总体是否在一定区域内有等效性。如果全部变量总体等效可以一起进行相关性分析,否则要分产地等级进行分析。 3. 如果有一个单变量不服从正态分布就用斯皮尔曼相关分析,否则可以用皮尔森相关分析。 4. 在进行配对样本检验时每个变量也要满足正态分布才可以用T检验,否则用非参数检验。 5. 对于同一产地等级中抽取出的小样本,按照实际情况选择各个变量的平均数,中位数或众数来和因变量进行相关性分析。考虑到非等比例抽样,在进行相关分析时引入权重。 方法二、便捷,计算少。分玉溪与临沧两个大样本,下面再分层抽样各个小样本。 1. 先通过描述性统计量对两个样本的各个变量进行分析,找出他们的大致分布。 2. 对两个样本每个变量进行独立双样本检验,看他们总体是否等效。如果全部变量总体等效可以一起进行相关性分析,否则要分产地进行分析。 3,4,5同上。 方法三、粗犷快捷,但不精准。将所有观察值看作来自同一个总体,直接运用第5点进行相关性分析。 方法四、将每个产地等级做为一个总体,通过聚类方法将同质性的产地等级聚合为一个总体,达到某个水平后看一下有几个类(几个总体),然后在每个总体中分别做相关性分析。(但用一组数据作为一个观测值进行聚类没有找到这样的算法,如果用每个小样本(五个观测值)进行聚类又会打乱产地等级的秩序) 我的具体解法在附件中,请大家指点。我最后也没有被面试上,也不知道做错在哪里。望数学高手指点一二。谢谢大家! |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明