楼主: snile
2770 5

[问答] 如何根据EntrezGeneID或者hgnc_symbol来批量下载人类基因3utr序列数据 [推广有奖]

  • 0关注
  • 0粉丝

大专生

28%

还不是VIP/贵宾

-

威望
0
论坛币
19 个
通用积分
0.1198
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
426 点
帖子
23
精华
0
在线时间
46 小时
注册时间
2017-12-8
最后登录
2023-1-19

楼主
snile 发表于 2021-3-12 10:20:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
目前我根据已EntrezGeneID,通过R包biomaRt获取了如下图所示的hgnc_symbol等信息,请问有木有大神知道如何根据EntrezGeneID、hgnc_symbol等信息来批量下载基因序列数据(格式为3utr)?biomaRt包中getSequence()和R包中示例获取5utr的代码都有尝试,但报参数Invalid,代码和运行结果如下图所示。请大神指教!十分感谢! p.s. 最终希望获得的数据类型为基因3utr序列数据
gene_info.png 代码

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:symbol 序列数据 批量下载 EID MBO bioMart 批量下载基因序列

code.jpg (200.27 KB)

code.jpg

code.jpg (200.27 KB)

code.jpg

沙发
llb_321 在职认证  发表于 2021-3-12 22:36:15
BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")
只试过安装人类基因组序列数据包
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

藤椅
snile 发表于 2021-3-14 20:50:37
llb_321 发表于 2021-3-12 22:36
BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")
只试过安装人类基因组序列数据包
感谢大侠帮助!大神一句话,菜鸟少十年。再请问下,如何从该包中获取人类基因组序列数据呢?看了下官方文档,没有思路。

板凳
llb_321 在职认证  发表于 2021-3-14 22:09:50
那个包里有个Hsapiens,比如,用Hsapiens$chr1可以得到第一条染色体的数据。但是,这是UCSC的hg19版本,相当于Grch37,版本略低。
最新的应该是Grch38,下面是ensembl的Grch38版本人类基因组数据的链接页面
http://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/
其中,Homo_sapiens.GRCh38.dna.toplevel.fa.gz 这个文件,大概1个多G压缩包,应该是最完整的数据,其他是各染色体的单独压缩包。
不同来源的、不同版本的基因组数据,读取的方法会有差别,具体你多查查网上的资料。一般地,在R中,用的比较多的是Biostrings包,可以对DNA、RNA、AA等序列进行操作,比如基本的转录、翻译、匹配、比对等。

你最开始用的biomaRt,有的时候不太稳定,受网络传输速率、访问超时等因素影响较大,而且现在有些mart的网站架构可能发生了变化,以前能过的代码现在可能就不好用了。

报纸
llb_321 在职认证  发表于 2021-3-14 22:11:47
ensembl的序列文件应该是fasta格式的,不是3utr

地板
snile 发表于 2021-3-15 11:06:24
llb_321 发表于 2021-3-14 22:09
那个包里有个Hsapiens,比如,用Hsapiens$chr1可以得到第一条染色体的数据。但是,这是UCSC的hg19版本,相 ...
好的,十分感谢大神!!让我对BSgenome包和人类基因组数据有了更深的了解和认识。多谢大神的帮助和指导!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-1 19:21