数据集A:
序号 | 变量a |
1 | 1423 AB12 |
2 | 241AC 141 |
3 | 112AD1241 |
4 | 656BC1215 |
5 | 123BD234 |
6 | 12CD4621 |
... | ... |
序号 | 变量b |
1 | BC |
2 | AD |
3 | AB |
4 | CD |
新生成变量c,如果数据集A中的变量a中,包含数据集B变量b中的任意一个值,那么c=b,否则c为空。
希望得到结果:
序号 | 变量a | 变量c |
1 | 1423 AB12 | AB |
2 | 241AC 141 |
|
3 | 112AD1241 | AD |
4 | 656BC1215 |
|
5 | 123BD234 |
|
6 | 12CD4621 | CD |
... | ... | ... |
当然,这只是举个例子,真实数据的变量a,变量b都是由数字和字母构成的。
而且真实数据中,数据A有2000万行,数据B有2万行,如果可以的话,希望还能考虑到效率的问题。
谢谢大家!



雷达卡





京公网安备 11010802022788号







