请选择 进入手机版 | 继续访问电脑版
楼主: 加油12345678
3516 15

[数据求助] 求大佬解答怎么处理一致行动人 [推广有奖]

  • 2关注
  • 1粉丝

本科生

21%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0079
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
668 点
帖子
25
精华
0
在线时间
118 小时
注册时间
2020-4-6
最后登录
2022-6-12

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一致行动人.png
大股东持股.png


如图所示 我想按照年份和证券代码分组 然后如果股东名称里面的股东出现在一致行动人里面过的话给删除 求教大佬需要怎么做 软件为R语言


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:怎么处理 如图所示 R语言 怎么做

回帖推荐

白青浅 发表于11楼  查看完整内容

Stata,我只需要看大股东是否存在在一致行动人条款中,用的regexm函数。 但是这个方法最bug的是,有的公司类型的股东。 股东数据中的名字与一致行动人条款中不完全一样,往往就简写,而且省略的字不一定是在哪个位置。
llb_321 在职认证  发表于 2020-7-9 14:39:49 |显示全部楼层 |坛友微信交流群
没读懂,您想删哪一个。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
加油12345678 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

llb_321 发表于 2020-7-9 14:39
没读懂,您想删哪一个。
大佬好 我想删除第二张图中的观测值 就是如果相同公司 同一年中这个大股东属于一致行动人的话就把这行观测删除

使用道具

llb_321 在职认证  发表于 2020-7-9 18:12:17 |显示全部楼层 |坛友微信交流群
这样啊,我在外面,而且没有数据,不好写代码,您先按这个思路试一试吧:
把第一张表的变量“一致行动人”的所有样本提取出来,形成一个字符串向量ccc,问题是向量ccc的各个元素是顿号分隔的字符串,所以要先将这个字符串向量合并成一个大的字符串,可以用d<-paste(ccc,collapse = "、"),注意函数里给的分隔符用原始表中显示的中文顿号。然后,用stringr包 d<-str_split(d,"、") %>% unlist(),这样大字符串就分词成单独的股东名称了,最后这个d应该是一个字符串向量。
接着就可以直接用dplyr::filter()将第二张表里股东名称与d里的股东名称相同的样本筛选掉。
应该不难,你摸索着来吧
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
加油12345678 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

llb_321 在职认证  发表于 2020-7-9 18:19:26 |显示全部楼层 |坛友微信交流群
处理的关键,是你第一张表里一致行动人的每个样本是不确定数量的股东字符串,所以必须想办法,把每个样本的股东名称分开。
因此,采用上面所说的先合并再分割的方法。
处理过程中,注意每一步形成的数据的属性。另外,在最开始读入形成数据框时,在代码中最好加上 stringsAsFactors = FALSE,以免出现因子型变量,可能会出错。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
加油12345678 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

llb_321 发表于 2020-7-9 18:12
这样啊,我在外面,而且没有数据,不好写代码,您先按这个思路试一试吧:
把第一张表的变量“一致行动人” ...
想问大佬 如果设成一个大的字符串那年份和公司怎么办

使用道具

llb_321 在职认证  发表于 2020-7-11 17:36:49 |显示全部楼层 |坛友微信交流群
通常,一致行动人关系是固定的,不会今年一个样明年另一个样,所以前面说的方法,只是把符合一致行动人标准的股东从第二张表删除,不管是哪年的。如果考虑年份的话,可以在处理之前按年份分组,分组处理后在再合并结果。你说的公司问题,其实是考虑有几家公司出现股东重叠的可能,比如传化集团就是传化股份和新安股份的股东。
需要复杂一些的处理,不分组了,思路是把之前的处理过程变化一下,可以编个字符串处理函数,然后用apply族函数对每一个样本使用函数,处理结果与这个样本的年份和代码变量关联,形成类似第二张表的结构,之后就可以用anti_join函数删除一致行动人了
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
加油12345678 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

llb_321 在职认证  发表于 2020-7-11 17:42:54 |显示全部楼层 |坛友微信交流群
比如第一张表第一个样本,用之前str_split方法把一致行动人字符串分成四个股东名称的字符向量,然后这个向量转成数据框,增加两个变量年份和代码,当然增加的变量的四个值是一样的。全部样本处理后,就会形成第二张表类似的结构了。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
加油12345678 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

白青浅 发表于 2020-7-18 10:17:04 |显示全部楼层 |坛友微信交流群
求问楼主的数据来源是哪个数据库?我也要用这项数据,可以一起探讨处理~

使用道具

白青浅 发表于 2020-7-18 10:17
求问楼主的数据来源是哪个数据库?我也要用这项数据,可以一起探讨处理~
大股东持股来自国泰安 一致行动人来自choice 想问小伙伴用啥子软件进行数据处理?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 01:23