楼主: melgib
1606 0

[问答] 读取非传统格式但是又规律排列的数据 [推广有奖]

  • 0关注
  • 0粉丝

大专生

11%

还不是VIP/贵宾

-

威望
0
论坛币
8 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
324 点
帖子
25
精华
0
在线时间
58 小时
注册时间
2006-4-4
最后登录
2020-7-30

楼主
melgib 发表于 2010-12-7 01:30:33 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
新手就要处理大量数据,一直用data步程序弄,但是读取的数据总是不完整,宏又不会用,只好来求教。

原始文件是test.doc,这个文挡是400多个同样格式的文档组成的(我只保留了七个)。每个文档都有update date,generic name,latest news,Licensor, Latest Phase, Active Program, Indication, Action, Substance Origin, Class Description, 等等变量。把它转化成txt后,变量名和每个变量都占一行,变量和变量之间空格隔开。

我想把他们转换成excel文件,因为数据太多,数据里又有表格,所以我就先只取 Update Date,Licensor, Latest Phase,
Active Program, Class Description, Company, Patentee, Patent Data, History 这些数据。
但是像class description, company这种变量,它可能有多于一个的变量值,而且在不同行,我就不知道怎么读取了。
我读取像Licensor这种值的时候,只会用@‘Lincensor’这种语句,结果把文本里其他licensor的语句也读了,
实在是不知道怎么办了。
望高手解答。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:非传统 Description indication substance Program 数据 格式 规律 排列 非传统

test.txt
下载链接: https://bbs.pinggu.org/a-809364.html

24.75 KB

test.docx

36.43 KB

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 01:43