签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 如何从大数据判断变量是否相同

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: edragon1983

4107 18

[有偿编程] 如何从大数据判断变量是否相同 [推广有奖]

0关注
0粉丝

讲师

15%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 5143 个
通用积分: 7.8889
学术水平: 0 点
热心指数: 3 点
信用等级: 0 点
经验: 7801 点
帖子: 217
精华: 0
在线时间: 417 小时
注册时间: 2007-8-29
最后登录: 2024-4-11

楼主

edragon1983 发表于 2015-11-26 14:38:04 |只看作者 |坛友微信交流群|倒序 |AI写论文

100论坛币

加入有100万条记录，每条记录有10个变量（文本型），需要对100万条记录任意两条记录进行比对（每个变量比对一次），以判断变量是否相同还是不同。
ID  x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1
2
3
4
……
100万

期待的结果（想得到1：判断为相同，0判断为不同）
ID1 ID2 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1 2 0  0  0 0  1  1  0  0  0  1
1 3 0  0  0 0  1  1  0  0  0  1
……
1 100万
2 3
2 4
……
100万-1  100万

有没有什么好的语句，能快速判断完。现在自己写的程序跑的好慢。

最佳答案

Tigflanker 查看完整内容

给你做出来一个很粗略的版本，你可以去dictionary抓变量名去做一下重命名等

分享0 收藏0 回帖

关键词：大数据文本型有没有如何程序记录

回复

使用道具举报

沙发

Tigflanker 发表于 2015-11-26 14:38:05 |只看作者 |坛友微信交流群

复制代码

给你做出来一个很粗略的版本，你可以去dictionary抓变量名去做一下重命名等

回复

使用道具举报

藤椅

Tigflanker 发表于 2015-11-26 14:46:29 |只看作者 |坛友微信交流群

楼主有没有更进一步的需求，还是这个就是根本目的？

感觉观测之间的遍历比较还真的有点。。。

回复

使用道具举报

板凳

edragon1983 发表于 2015-11-26 14:49:31 |只看作者 |坛友微信交流群

不是最终目的，但是这一步是影响sas程序速度的关键一步，后面的事都已解决。目前就是想比较任意两条记录之间的各个变量是否相同，然后赋值为1和0，不知道我有没有说清楚。

回复

使用道具举报

报纸

edragon1983 发表于 2015-11-26 14:50:26 |只看作者 |坛友微信交流群

任意两个记录的x1比对，x2比对。。。，x10比对

回复

使用道具举报

地板

Tigflanker 发表于 2015-11-26 14:55:44 |只看作者 |坛友微信交流群

我感觉还是可以做的，只不过需要新建十个flag变量，

从当前_N_用do until对自己的hash table比对到last，每一条output一次，

只不过你说大数据的话，而且还是字符型，可能内存会架不住

如果有会IML的高手出来帮忙，我估计会贼靠谱~

回复

使用道具举报

7楼

edragon1983 发表于 2015-11-26 15:02:35 |只看作者 |坛友微信交流群

谢谢！

回复

使用道具举报

8楼

edragon1983 发表于 2015-11-26 19:45:02 |只看作者 |坛友微信交流群

Tigflanker 发表于 2015-11-26 14:38
给你做出来一个很粗略的版本，你可以去dictionary抓变量名去做一下重命名等

我菜鸟一个，先学习下楼主的程序。

ps能否教下如何去dictionary抓变量名去做一下重命名？

回复

使用道具举报

9楼

edragon1983 发表于 2015-11-26 20:51:27 |只看作者 |坛友微信交流群

Tigflanker 发表于 2015-11-26 14:55
我感觉还是可以做的，只不过需要新建十个flag变量，

从当前_N_用do until对自己的hash table比对到last， ...

内存还是不够用

回复

使用道具举报

10楼

Tigflanker 发表于 2015-11-26 22:04:21 |只看作者 |坛友微信交流群

edragon1983 发表于 2015-11-26 20:51
内存还是不够用

用HASH表就怕就怕内存不够用，死穴

希望有大神路过可以给点建议。。。

我这边给你一个小建议，就是不妨探测下数据集每个变量的实际长度，用length语句都缩一下变量长度，也许会有用

回复

使用道具举报

发帖

本版微信群

加好友,备注cda
拉您进交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明