楼主: andystata
3487 12

[数据管理求助] 请问怎么在stata导入英文文本 [推广有奖]

  • 3关注
  • 0粉丝

本科生

25%

还不是VIP/贵宾

-

威望
0
论坛币
935 个
通用积分
0.0617
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1116 点
帖子
58
精华
0
在线时间
68 小时
注册时间
2015-7-2
最后登录
2017-11-1

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

我有一篇格式为txt的英文文章,想导入到stata里面创建一个变量m,其每一个元素为文章的一个单词,请问要怎么code?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata tata 英文文章 code txt 英文

沙发
andruw 在职认证  发表于 2015-7-5 15:24:53 |只看作者 |坛友微信交流群
  1. . clear

  2. . import delimited "C:\Users\think\Desktop\hotel california.txt", delimiter(space) varnames(nonames)
  3. (46 vars, 1 obs)

  4. . list

  5.      +----------------------------------------------------------------------------------------------------------+
  6.   1. |   v1 |    v2 | v3 |       v4 | v5 |  v6 |      v7 |  v8 |  v9 |  v10 | v11  | v12  | v13  |  v14  | v15  |
  7.      | last | thing |  I | remember |  I | was | running | for | the | door |   I  | had  |  to  | find  | the  |
  8.      |---------------------------------------------------------+-----------------------------------------+------|
  9.      |     v16 |  v17 | v18 | v19 |   v20 | v21 | v22 |    v23 |   v24 |  v25 | v26 |   v27 | v28 | v29  | v30  |
  10.      | passage | back |  to | the | place |   I | was | before | relax | said | the | night | man |  we  | are  |
  11.      |----------------------------+-------------------+-------------------------------------+-----+-------------|
  12.      |        v31 | v32 |     v33 | v34 | v35 |   v36 | v37 | v38 |  v39 | v40 |  v41 | v42 | v43 | v44 |   v45 |
  13.      | programmed |  to | receive | you | can | check | out | any | time | you | like | but | you | can | never |
  14.      |----------------------------------------------------------------------------------------------------------|
  15.      |                                                    v46                                                   |
  16.      |                                                  leave                                                   |
  17.      +----------------------------------------------------------------------------------------------------------+

  18. .
  19. . gen id = 1

  20. .
  21. . reshape long v, i(id) j(txt) string
  22. (note: j = 1 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24 25 26 27 28 29 3 30 31 32 33 34 35 36 37 38 39 4 40 41 4
  23. > 2 43 44 45 46 5 6 7 8 9)

  24. Data                               wide   ->   long
  25. -----------------------------------------------------------------------------
  26. Number of obs.                        1   ->      46
  27. Number of variables                  47   ->       3
  28. j variable (46 values)                    ->   txt
  29. xij variables:
  30.                           v1 v10 ... v9   ->   v
  31. -----------------------------------------------------------------------------

  32. .
  33. . destring txt, replace
  34. txt has all characters numeric; replaced as byte

  35. . sort txt

  36. . drop id

  37. . list, separator(0)

  38.      +------------------+
  39.      | txt            v |
  40.      |------------------|
  41.   1. |   1         last |
  42.   2. |   2        thing |
  43.   3. |   3            I |
  44.   4. |   4     remember |
  45.   5. |   5            I |
  46.   6. |   6          was |
  47.   7. |   7      running |
  48.   8. |   8          for |
  49.   9. |   9          the |
  50. 10. |  10         door |
  51. 11. |  11            I |
  52. 12. |  12          had |
  53. 13. |  13           to |
  54. 14. |  14         find |
  55. 15. |  15          the |
  56. 16. |  16      passage |
  57. 17. |  17         back |
  58. 18. |  18           to |
  59. 19. |  19          the |
  60. 20. |  20        place |
  61. 21. |  21            I |
  62. 22. |  22          was |
  63. 23. |  23       before |
  64. 24. |  24        relax |
  65. 25. |  25         said |
  66. 26. |  26          the |
  67. 27. |  27        night |
  68. 28. |  28          man |
  69. 29. |  29           we |
  70. 30. |  30          are |
  71. 31. |  31   programmed |
  72. 32. |  32           to |
  73. 33. |  33      receive |
  74. 34. |  34          you |
  75. 35. |  35          can |
  76. 36. |  36        check |
  77. 37. |  37          out |
  78. 38. |  38          any |
  79. 39. |  39         time |
  80. 40. |  40          you |
  81. 41. |  41         like |
  82. 42. |  42          but |
  83. 43. |  43          you |
  84. 44. |  44          can |
  85. 45. |  45        never |
  86. 46. |  46        leave |
  87.      +------------------+

  88. .
  89. end of do-file
复制代码

使用道具

藤椅
andystata 发表于 2015-7-5 16:24:20 |只看作者 |坛友微信交流群
andruw 发表于 2015-7-5 15:24
A3DB51B3-AAAD-461A-97DE-45DC1BC84A7F.png delimited 这个命令是否需要下载?为什么无法运行?

使用道具

板凳
andruw 在职认证  发表于 2015-7-5 18:05:48 |只看作者 |坛友微信交流群
andystata 发表于 2015-7-5 16:24
delimited 这个命令是否需要下载?为什么无法运行?
  1. help import
复制代码

使用道具

报纸
andruw 在职认证  发表于 2015-7-5 18:05:48 |只看作者 |坛友微信交流群
andystata 发表于 2015-7-5 16:24
delimited 这个命令是否需要下载?为什么无法运行?
  1. help import
复制代码

使用道具

地板
andystata 发表于 2015-7-5 23:36:01 |只看作者 |坛友微信交流群
andruw 发表于 2015-7-5 18:05
我知道了 是版本问题  下了个stata14就好了~

使用道具

7
夏目贵志 发表于 2015-7-6 03:55:03 |只看作者 |坛友微信交流群
Stata最大只支持32767个变量,所以处理特别长的文件的时候可能会有问题,要注意一下。

使用道具

8
andruw 在职认证  发表于 2015-7-6 04:46:15 |只看作者 |坛友微信交流群
夏目贵志 发表于 2015-7-6 03:55
Stata最大只支持32767个变量,所以处理特别长的文件的时候可能会有问题,要注意一下。
确实。
当文档过大时,可以考虑用其他软件(如python)。或者,用notepad等txt编辑器,将所有空格转化为回车,再导入stata。

使用道具

9
夏目贵志 发表于 2015-7-6 07:11:28 |只看作者 |坛友微信交流群
andruw 发表于 2015-7-6 04:46
确实。
当文档过大时,可以考虑用其他软件(如python)。或者,用notepad等txt编辑器,将所有空格转 ...
你用Stata做text mining吗?我最近正好要做跟这个相关的题目呢。

使用道具

10
andruw 在职认证  发表于 2015-7-7 04:20:54 |只看作者 |坛友微信交流群
夏目贵志 发表于 2015-7-6 07:11
你用Stata做text mining吗?我最近正好要做跟这个相关的题目呢。
对text mining感兴趣。感觉stata做data mining 有点吃力啊。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-12 06:09