生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

手把手RefSeq注释下载及加工

RefSeq注释下载及加工


虽然是科班生信人,但是由于不咋用功,对于UCSC的使用也懵懵懂懂……

这里是最简单的使用

RefSeq基因下载

这个就不赘述了,直接上图



结果太长,看不出啥,看一下表头吧

#bin name chrom strand txStart txEnd cdsStart cdsEnd exonCount exonStarts exonEnds score name2 cdsStartStat cdsEndStat exonFrames



如何获得RefSeq的gtf文件

当然你可以自己编程从上面的文件提取,但似乎还是挺烦,所以UCSC提供了相应的工具genePredToGtf

1. 下载

64位linux系统下载地址:http://hgdownload.soe.ucsc.edu/admin/exe/external.x86_64/

在一大摞工具中选中genePredToGtf

注意:这是一个编译后的可执行文件,没有后缀,如果下载时带有后缀(比如我下载时有.txt)务必去除后缀

2. 安装

刚才已经说了这是一个可执行文件,所以不需要安装,直接使用

./genePredToGtf

或者加入到环境变量中

vim ~/.bashrc

添加

export PATH=$PATH:/你的目录/genePredToGtf

最后

source ~/.bashrc

3. 使用

假如在UCSC下载的文件是 mm10_ref.genePred ,由于该文件有表头#bin …,所以要先去除,然后遵循使用说明

grep -v “#” mm10_ref.genePred > mm10_ref.genePred

cut -f 2- mm10_ref.genePred | genePredToGtf file stdin mm10_ref.gtf

好了,大功告成!

当然,既然有genePredToGtf,当然也有gtfToGenePred。比如你想要把Ensembl的gtf文件转换一下,也是可以的!

点击以下「关键词」,查看往期内容:

TCGA | 小工具 | 数据库 |组装注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史



赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 手把手RefSeq注释下载及加工
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

meta分析、生信分析

meta、生信交流群综合科研交流群