| 所在主题: | |
| 文件名: bisai.txt | |
| 资料下载链接地址: https://bbs.pinggu.org/a-728731.html | |
| 附件大小: | |
|
本次大赛只有一个目的就是读取中文。
条件如下: (1)现在有提供文本数据一个txt文件(需要考虑文章中汉字个数是不确定的) (2)必须读入文件 (3)必须用SAS(以写程序者将获得比较高的分数) (4)输出每个汉字(比如在文章中有10000个汉字)不论重复与否,都应该输出。 例如: “我们爱统计, 我LOVE华东师大” 输出应该是: obs x 1 我 2 们 3 爱 4 统 5 计 6 我 7 LOVE 8 华 9 东 10 师 11 大 奖品: 一等奖:10000论坛币(2名) 二等奖:6000论坛(5名) 三等奖:3000论坛币(10名) 参与奖:1000论坛币(30名) 截止日期:2010年10月10日 结果发送到:wjw84221@yahoo.com.cn 我将组织相关人员进行评估,评估方法将公布! ———————————————————————————————————————————————————————————— 我个人在实践过程中认为难处 难点有四: 1、如何分割中文使其一个字一个字,一个词一个词(达到比赛基本要求=150 score) 2、如何将段落之间的关系处理好。段与段之间怎么在文章中把他们自动连接在一起或者说怎么删除换行 (=120 score) 3、如何处理好各种标点符号(应该删除)、西文(英文、日文、俄文等等)(=60 score) 4、值得注意的是1个字好处理,汉字是汉字,英文是英文(解决了=30),但是两个字(一个双字词)的时候英文会变。如: we爱 变成 “wwee爱”;当是三个字以上,英文就消失了(这是一个问题)(=90 score) |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明