计算分布集中度 - 经管之家

0关注
9粉丝

已卖：288份资源

博士生

92%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 49 个
通用积分: 111.0836
学术水平: 5 点
热心指数: 7 点
信用等级: 3 点
经验: 4300 点
帖子: 165
精华: 0
在线时间: 524 小时
注册时间: 2006-3-4
最后登录: 2026-2-3

楼主

winddr 发表于 2015-10-6 00:54:25 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

论坛各位高手，现有如下数据：

contest	t	solver
1	1	a
1	2	b
1	3	c
1	4	d
1	5	e
1	6	b
1	7	b
1	8	f
1	9	c
1	10	a
1	11	g
1	12	e
1	13	b
1	14	d
1	15	c
1	16	c
1	17	h
1	18	i
1	19	a
1	20	e
2	1	a
2	2	a
2	3	a
2	4	b
2	5	c
2	6	d
2	7	a
2	8	e
2	9	e
2	10	f
2	11	b
2	12	f
2	13	g
2	14	h
2	15	i
2	16	d
2	17	d

contest表示竞赛场数，solver表示竞赛参赛选手，t表示参赛选手方案提交时间。现欲计算方案提交集中度变量，此变量定义如下：
根据原始数据生成如下数据：

contest	t	solver	a	b	c	d	e	f	g	h	i	n1	n2	average	集中度1	集中度2
1	1	a	1									1	1	1	0	0
1	2	b	1	1								2	2	1	0	0
1	3	c	1	1	1							3	3	1	0	0
1	4	d	1	1	1	1						4	4	1	0	0
1	5	e	1	1	1	1	1					5	5	1	0	0
1	6	b	1	2	1	1	1					5	6	1.2	0.4	0.365148
1	7	b	1	3	1	1	1					5	7	1.4	0.8	0.676123
1	8	f	1	3	1	1	1	1				6	8	1.33333	0.745356	0.645497
1	9	c	1	3	2	1	1	1				6	9	1.5	0.763763	0.62361
1	10	a	2	3	2	1	1	1				6	10	1.66667	0.745356	0.57735
1	11	g	2	3	2	1	1	1	1			7	11	1.57143	0.728431	0.581087
1	12	e	2	3	2	1	2	1	1			7	12	1.71429	0.699854	0.534522
1	13	b	2	4	2	1	2	1	1			7	13	1.85714	0.989743	0.726273
1	14	d	2	4	2	2	2	1	1			7	14	2	0.92582	0.654654
1	15	c	2	4	3	2	2	1	1			7	15	2.14286	0.989743	0.676123
1	16	c	2	4	4	2	2	1	1			7	16	2.28571	1.160577	0.767649
1	17	h	2	4	4	2	2	1	1	1		8	17	2.125	1.165922	0.799816
1	18	i	2	4	4	2	2	1	1	1	1	9	18	2	1.154701	0.816497
1	19	a	3	4	4	2	2	1	1	1	1	9	19	2.11111	1.196703	0.823628
1	20	e	3	4	4	2	3	1	1	1	1	9	20	2.22222	1.227262	0.823273
2	1	a	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2	2	a	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2	3	a	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2	4	b	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2	5	c	…	…	…	…	…	…	…	…	…	…	…	…	…	…

n1表示参赛选手个数，n2表示方案个数。average表示人均方案数（=n2/n1），其中集中度1计算公式为：
集中度1(contest=1, t=1)=sqrt(((No.a-average)^2)/n1)
集中度1(contest=1, t=2)=sqrt(((No.a-average)^2+(No.b-average)^2)/n1)
集中度1(contest=1, t=3)=sqrt(((No.a-average)^2+(No.b-average)^2+(No.c-average)^2)/n1)
......
集中度2计算公式为：
集中度2(contest=1, t=1)=sqrt(((No.a-average)^2)/n2)
集中度2(contest=1, t=2)=sqrt(((No.a-average)^2+(No.b-average)^2)/n2)
集中度2(contest=1, t=3)=sqrt(((No.a-average)^2+(No.b-average)^2+(No.c-average)^2)/n2)
......

求论坛内各位高手如何计算集中度1和集中度2以便得到如下数据（见下表）。展示的数据中为了便于理解，我预先设置了a-i个solver。但是实际数据中solver的个数众多，事先并不知道solver的具体个数以及其提交方案的次数。

contest	t	solver	集中度1	集中度1
1	1	a	0	0
1	2	b	0	0
1	3	c	0	0
1	4	d	0	0
1	5	e	0	0
1	6	b	0.4	0.36515
1	7	b	0.8	0.67612
1	8	f	0.74536	0.6455
1	9	c	0.76376	0.62361
1	10	a	0.74536	0.57735
1	11	g	0.72843	0.58109
1	12	e	0.69985	0.53452
1	13	b	0.98974	0.72627
1	14	d	0.92582	0.65465
1	15	c	0.98974	0.67612
1	16	c	1.16058	0.76765
1	17	h	1.16592	0.79982
1	18	i	1.1547	0.8165
1	19	a	1.1967	0.82363
1	20	e	1.22726	0.82327
2	1	a	…	…
2	2	a	…	…
2	3	a	…	…
2	4	b	…	…
2	5	c	…	…

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：集中度 average Contest ABCDEFG Solver

相关帖子

沙发

teqel 发表于 2015-10-6 11:03:56

帮你做了一步

data test;
infile cards dlm='09'x;
input contest t solver $;
cards;
1 1 a
1 2 b
1 3 c
1 4 d
1 5 e
1 6 b
1 7 b
1 8 f
1 9 c
1 10 a
1 11 g
1 12 e
1 13 b
1 14 d
1 15 c
1 16 c
1 17 h
1 18 i
1 19 a
1 20 e
2 1 a
2 2 a
2 3 a
2 4 b
2 5 c
2 6 d
2 7 a
2 8 e
2 9 e
2 10 f
2 11 b
2 12 f
2 13 g
2 14 h
2 15 i
2 16 d
2 17 d
;
proc sql;
create table test1 as
select a.contest,
a.t,
a.solver,
sum(case when b.solver='a' then 1 else . end) as a,
sum(case when b.solver='b' then 1 else . end) as b,
sum(case when b.solver='c' then 1 else . end) as c,
sum(case when b.solver='d' then 1 else . end) as d,
sum(case when b.solver='e' then 1 else . end) as e,
sum(case when b.solver='f' then 1 else . end) as f,
sum(case when b.solver='g' then 1 else . end) as g,
sum(case when b.solver='h' then 1 else . end) as h,
sum(case when b.solver='i' then 1 else . end) as i
from test as A left join test as B
on B.t<=A.t and A.contest=B.contest
group by a.contest,
a.t,
a.solver
order by 1, 2;
quit;

复制代码

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
yongyitian	+ 5	+ 3	+ 3	+ 3	观点有启发

总评分: 论坛币 + 5 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

藤椅

teqel 发表于 2015-10-6 11:04:57

思路也是自己和自己join

板凳

teqel 发表于 2015-10-6 11:32:41

第二部分：

data test2;
set test1;
array arr{9} a b c d e f g h i;
n1=9-cmiss(of arr[*]);
n2=sum(of arr[*]);
average=n2/n1;
tt=0;
do j=1 to 9;
tt+(arr[j]-average)**2;
end;
con1=sqrt(tt/n1);
con2=sqrt(tt/n2);
drop tt j;
run;

复制代码

报纸

winddr 发表于 2015-10-6 14:18:21

teqel 发表于 2015-10-6 11:32
第二部分：

十分感谢！
展示的数据中为了便于理解，我预先设置了a-i个solver。但是我的实际数据中solver的个数众多，事先并不知道solver的具体个数，且solver自由提交他们的方案。能否根据数据信息生成相应的solver列表并统计此列表中solver的实时出现次数，以此来计算两个集中度？

地板

winddr 发表于 2015-10-6 19:39:53

自己顶，盼大神出现

7楼

teqel 发表于 2015-10-6 19:58:55 来自手机

一个工作中的实际问题，自己一点不出力，完全靠网上无偿给出解决方案，是让人不能接受的

8楼

jingju11 发表于 2015-10-10 09:14:54

teqel 发表于 2015-10-6 19:58
一个工作中的实际问题，自己一点不出力，完全靠网上无偿给出解决方案，是让人不能接受的

you are right. thanks for your answer. JingJu

proc sql;
select distinct quote(cats(solver)) into :sList separated by ',' from test;
select distinct cats(solver) into :vList separated by ' ' from test;
select count(distinct solver) into :nList separated by ',' from test;
quit;
data x;
set test;
by contest;
array ss[&nList] $ _temporary_(&sList);
array cc[&nList] &vList;/* if solver is valid sas name*/
if first.contest then call missing(of cc[*]);
cc[whichc(solver, of ss[*])] ++1;
n1 =n(of cc[*]); n2=sum(of cc[*]);
average =mean(of cc[*]);
cr1=sqrt(var(of cc[*])*(n1-1)/n1);
cr2=cr1*sqrt(n1/n2);
run;

复制代码

9楼

jingju11 发表于 2015-10-10 09:31:36

jingju11 发表于 2015-10-10 09:14
you are right. thanks for your answer. JingJu

one of my classmates suggests me a better way to assign values: JingJu

cc[whichc(solver, of ss[*])] ++1;

复制代码

10楼

jingju11 发表于 2015-10-15 19:33:38

To Sunflower: 在如此的情形之下，数据步较之SQL有优势。京剧

计算分布集中度 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

计算分布集中度 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群