签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

经管百科

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 怎么找到满足条件的区域

楼主: 不二不幸福

1345 1

[问答] 怎么找到满足条件的区域 [推广有奖]

0关注
1粉丝

硕士生

33%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 161 个
通用积分: 2.8500
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1641 点
帖子: 76
精华: 0
在线时间: 160 小时
注册时间: 2017-9-26
最后登录: 2024-6-14

楼主

不二不幸福 发表于 2018-12-24 17:02:05 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据如下：

Chr	Start	End	S1	S2	S3	S4
chr1	610908	610908	92.4	95.4	96.7	100
chr1	610916	610916	94.7	96.9	97.5	100
chr1	610932	610932	36.7	40	73.9	60
chr1	610963	610963	85.4	80	75.6	60
chr1	629882	629882	4	3.8	3.2	3.8
chr1	630017	630017	0	0	0	0
chr2	631860	631860	0.6	14.3	0.6	1.5
chr2	631933	631933	0.6	0	0.3	0.8
chr2	631969	631969	0.6	0	0.6	1.2
chr2	631979	631979	0	0	0.3	1.2
chr2	631996	631996	0	0	0.3	0.4
chr2	632011	632011	0	0	0	0.8
chr2	632023	632023	7.9	0	5.6	8
chr3	634024	634024	NA	0	0	0
chr3	634028	634028	NA	0	0	0
chr3	634047	634047	NA	0	0	0
chr3	727034	727034	96.6	93.3	100	100
chr3	727048	727048	100	100	100	100
chr3	727061	727061	89.7	100	100	100
chr3	727099	727099	100	100	100	100

我的目的是找到这样的区域：
在第一列相同的情况下，Start的距离和不超过150，并且在该区域内至少含有3个点，例如上面的结果就有3个区域

Chr	Start	End	S1	S2	S3	S4
chr1	610908	610908	92.4	95.4	96.7	100
chr1	610916	610916	94.7	96.9	97.5	100
chr1	610932	610932	36.7	40	73.9	60
chr1	610963	610963	85.4	80	75.6	60
chr2	631933	631933	0.6	0	0.3	0.8
chr2	631969	631969	0.6	0	0.6	1.2
chr2	631979	631979	0	0	0.3	1.2
chr2	631996	631996	0	0	0.3	0.4
chr3	727048	727048	100	100	100	100
chr3	727061	727061	89.7	100	100	100
chr3	727099	727099	100	100	100	100

同时，各个区域内要满足以下条件：
每一行的4-7列的最大值不超过2，平均值不超过1
因此最后的结果是：

chr2	631933	631933	0.6	0	0.3	0.8
chr2	631969	631969	0.6	0	0.6	1.2
chr2	631979	631979	0	0	0.3	1.2
chr2	631996	631996	0	0	0.3	0.4

我最后想输出两个文件，一个格式跟上面这个表一样，另一个格式如下

Chr	Start	End	Length	site_number	average
chr2	631933	631996	64	4	0.39375

也就是这个区域的起始位置和长度，以及这个区域内的点的数目和值的均值。

关于第一个输出文件，我的想法是用tidyverse：

library(tidyverse)
mydata<-read.table("test.txt",header = T,sep = ',')
data1<-data.frame(mydata,average=round(rowMeans(mydata[,3:6],na.rm = TRUE),2))
max<-apply(data1[,3:6],1,max,na.rm = TRUE)
data2<-cbind(data1,max)
data3<-data2 %>%
group_by(Chr) %>%
arrange(Start, .by_group = TRUE) %>%
mutate(diff = c(0, diff(Start)),
diff_flag = cumsum(diff >= 150)) %>%
group_by(Chr, diff_flag) %>%
mutate(num = n()) %>%
filter(num >= 3 & cummean<=1 & max<=2) %>%
select(1:6)
write.csv(data2,'filter_1.csv',row.names = F)

复制代码

但是结果总是不对，并没有按照我想的那样按照区域过滤。。。。。关于第二个输出文件我就完全没有思路了

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

回复

沙发

啊啊啊啊啊吖 发表于 2018-12-30 15:47:57

帮你顶顶帖子让更多人看到哈~~

回复

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明