楼主: 时光永痕
848 0

[数据挖掘新闻] 从数据字典到使用Python进行简单文本排列的元数据 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

5%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-11-24 19:30:43 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
从数据字典到使用Python进行简单文本排列的元数据
尽管用于美国社区调查的强大家庭和人口档案的负载运行良好,但该数据(几乎完全是整数)代表不包含其元信息的分类属性。可以使用详细说明这些含义的数据字典,但是将字典连接到数据的难题留给了分析人员。   
我决定看看是否需要对数据字典进行纠缠,以期希望生成将元数据添加到R结构的代码-用R的话来说就是,将整数属性转换为具有级别和标签的因子。我决心不花很多时间在挑战上,而是接受一种快速而又肮脏的解决方案,该解决方案可以为我提供所需的75%。
事实证明,没有大量的工作,我确实取得了一点点成功,可惜的是,我激发了我的欲望,超越了又快又肮脏。数据字典文件非常配合,具有“规则性”,可以简化调试。
为此,我在Jupyter Notebook中使用了Python 3.5来解析字典文本,并最终针对现有的数值数据生成R因子create语句。此时,需要从Python笔记本中剪切并粘贴输出的R代码,然后在R中执行。这是一个难看的临时解决方案。最终,希望是解析将生成可在单个笔记本中无缝运行的代码。我已经有后续迭代的计划。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 数据字典 Notebook Create creat

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 14:46