楼主: 爱萌
5536 24

公告:人大经济论坛SAS版,关于SAS读取中文的程序大赛 [推广有奖]

贵宾

已卖:262份资源

学术权威

54%

还不是VIP/贵宾

-

威望
8
论坛币
96603 个
通用积分
12.3686
学术水平
231 点
热心指数
299 点
信用等级
157 点
经验
102555 点
帖子
6174
精华
1
在线时间
2024 小时
注册时间
2007-3-2
最后登录
2025-12-1

楼主
爱萌 发表于 2010-8-26 00:11:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本次大赛只有一个目的就是读取中文。
条件如下:
(1)现在有提供文本数据一个txt文件(需要考虑文章中汉字个数是不确定的)
(2)必须读入文件
(3)必须用SAS(以写程序者将获得比较高的分数)
(4)输出每个汉字(比如在文章中有10000个汉字)不论重复与否,都应该输出。
例如: “我们爱统计, 我LOVE华东师大”
输出应该是:
obs    x
1       我
2       们
3       爱
4       统
5       计
6       我
7       LOVE
8       华
9       东
10     师
11     大               
奖品:
一等奖:10000论坛币(2名)
二等奖:6000论坛(5名)
三等奖:3000论坛币(10名)
参与奖:1000论坛币(30名)
截止日期:2010年10月10日
结果发送到:wjw84221@yahoo.com.cn
我将组织相关人员进行评估,评估方法将公布!

————————————————————————————————————————————————————————————
我个人在实践过程中认为难处

难点有四:
1、如何分割中文使其一个字一个字,一个词一个词(达到比赛基本要求=150 score)
2、如何将段落之间的关系处理好。段与段之间怎么在文章中把他们自动连接在一起或者说怎么删除换行 (=120 score)
3、如何处理好各种标点符号(应该删除)、西文(英文、日文、俄文等等)(=60 score)
4、值得注意的是1个字好处理,汉字是汉字,英文是英文(解决了=30),但是两个字(一个双字词)的时候英文会变。如: we爱 变成 “wwee爱”;当是三个字以上,英文就消失了(这是一个问题)(=90 score)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:人大经济论坛 经济论坛 人大经济 经济论 1000论坛币 华东师大 一等奖 二等奖 三等奖 中文

已有 1 人评分威望 收起 理由
admin + 1 我很赞同

总评分: 威望 + 1   查看全部评分

沙发
admin 企业认证  发表于 2010-8-26 08:13:54
支持

藤椅
爱萌 发表于 2010-8-26 08:23:57
首先感谢管理人员的支持,
最恨对我说谎或欺骗我的人

板凳
论坛数据分析 发表于 2010-8-26 08:45:06
支持!很好的活动!
老夫聊发少年狂

报纸
crackman 发表于 2010-8-26 16:31:17
可以用SAS TEXT MINER模块么?

地板
peijiamei 发表于 2010-8-26 16:34:46
将大量中文读入sas在实际中是否有现实意义呢?望斑竹举例
我的微博:http://t.sina.com.cn/1087192374
欢迎互相加关注!

7
爱萌 发表于 2010-8-26 17:44:10
crackman 发表于 2010-8-26 16:31
可以用SAS TEXT MINER模块么?
对不起,不可以,必须用程序!
最恨对我说谎或欺骗我的人

8
爱萌 发表于 2010-8-26 17:45:01
peijiamei 发表于 2010-8-26 16:34
将大量中文读入sas在实际中是否有现实意义呢?望斑竹举例
呵呵,你看看为什么admin支持就明白了,这是当前的挑战
最恨对我说谎或欺骗我的人

9
爱萌 发表于 2010-8-26 22:56:28
peijiamei 发表于 2010-8-26 16:34
将大量中文读入sas在实际中是否有现实意义呢?望斑竹举例
这次就一点:怎么分割中文
我们有些中国学者认为中文不能做文本挖掘要换什么西文,我看到这种垃圾人,第一感觉就是没有水平,不要乱说话
发动我们论坛的人来证明:这些人的观点是完全错误的,是他们的水平不高
已有 1 人评分学术水平 热心指数 收起 理由
peijiamei + 1 + 3 好的意见建议

总评分: 学术水平 + 1  热心指数 + 3   查看全部评分

最恨对我说谎或欺骗我的人

10
byunhh 发表于 2010-8-27 10:41:17
不太明白,如果文本中有非汉字的字符是否应该舍去? 谢谢
believe in yourself

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-24 20:45