楼主: soporaeternus
2160 4

[原创博文] 东风何处是人间-SAS粗糙版 [推广有奖]

  • 0关注
  • 58粉丝

学科带头人

60%

还不是VIP/贵宾

-

威望
1
论坛币
11689 个
通用积分
18.1205
学术水平
395 点
热心指数
427 点
信用等级
335 点
经验
74121 点
帖子
1719
精华
0
在线时间
2708 小时
注册时间
2007-7-5
最后登录
2024-12-18

初级热心勋章 中级热心勋章 初级信用勋章

楼主
soporaeternus 发表于 2011-12-16 09:36:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
转自mysas.net——一个供SASor技术交流,袒露心声,求职问路,八卦灌水的好地方,欢迎加入!

近来热议“东风何处是人间”,具体背景可以google之。


不用分词的蛮力统计规律是很赞的想法,这方法也是基于数学和统计研究文学的基本方法吧,纯属外行之言。

闲来无事,用SAS模仿之,取字长为2和3的所有词组,考虑标点的短句。文本使用随便下载的《全宋词》。由于没有做很精细的排版读入,所以有部分词牌名以及乱码出现,但是无关大局。仅供参考,希望博君一笑。

以下是2,3字长各自的出现频率top20排名



词        频数        排名
东风        1329        1
何处        1186        2
人间        1151        3
风流        818        4
归去        797        5
春风        779        6
西风        759        7
归来        743        8
相思        727        9
江南        713        10
梅花        697        11
千里        654        12
回首        633        13
明月        631        14
如今        628        15
多少        627        16
阑干        602        17
万里        583        18
一笑        574        19
年年        570        20




正道是:东风何处是?人间风流归去。春风西风?归来相思!江南梅花,千里回首望明月......



词        频数        排名
倚阑干        114        1
知何处        96        2
广寒宫        91        3
到如今        89        4
东风吹        84        5
水调歌        75        6
留不住        75        7
调歌头        73        8
人何处        73        9
三十六        70        10
有谁知        70        11
歌头(        67        12
西风吹        64        13
云深处        63        14
人不见        62        15
人间世        60        16
不知何        56        17
满江红        55        18
不如归        54        19
与谁同        54        20


                  

这个会有词牌名出现,读入太粗糙了......





附上代码,无注释,清吐槽......

代码:
data a;
infile "E:全宋词.txt";
input x:$1.;
str=compress(_infile_);
if kindex(str,",") or kindex(str,"。");
keep str;
run;

data _null_;
if _N_=1 then do;
declare hash myhash();
myhash.definekey("y");
myhash.definedata("y","cnt");
myhash.definedone();

end;
set a END=EOF;
h=1;
do until (compress(kscan(str,h,",。、")=""));
x=kscan(str,h,",。、");
do i=1 to klength(x);
do j=2 to min(3,klength(x)-i+1);
y=ksubstr(x,i,j);
rc=myhash.find();
if rc then do;
cnt=1;
rc=myhash.add();
end;
else do;
cnt+1;
rc=myhash.replace();
end;
end;
end;
h+1;
end;
if EOF then do;
rc=myhash.output(dataset:"b");
end;
run;
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:compress Defined dataset replace DEFINE google 人间 八卦 技术 数学

已有 1 人评分经验 收起 理由
lance0108 + 20 精彩帖子

总评分: 经验 + 20   查看全部评分

沙发
zhentao 发表于 2011-12-16 10:18:28
呵呵,有意思。学习了。

藤椅
webgu 发表于 2011-12-16 21:40:12
“东风何处是?人间风流归去。春风西风?归来相思!江南梅花,千里回首望明月”
看来SAS 基本 挖出了宋词的基调呀。
SAS资源
1. SAS 微信:StatsThinking
2. SAS QQ群:348941365

板凳
xgm9981 在职认证  发表于 2011-12-16 23:25:37
真厉害

报纸
一个人的孤独 发表于 2012-5-22 10:25:59
东风何处是?人间风流归去。春风西风?归来相思!江南梅花,千里回首望明月......
经济是何物?大腕权贵弄之。体制运作?前往祈读!世间怪相,经济论坛出诗作......

重要的不一 ...

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 10:38