生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

如何快速得到芯片探针与gene的对应关系,并将探针转换成基因?

ZSCI

现有的基因芯片种类很多,但重要而且常用的芯片并不多,一般分析芯片数据都需要把探针的 ID 切换成基因的 ID。



一般有三种方法可以得到芯片探针与 gene 的对应关系:

(1)金标准是去基因芯片的厂商的官网直接下载

(2)从 NCBI 里面下载文件来解析

(3)直接用 bioconductor 包。


其中前两种方法都比较麻烦,所以接下来要讲的是:

如何用 R 的 bioconductor 包来批量得到芯片探针与 gene 的对应关系。



一、说明

1 、一般重要的芯片在 R 的 bioconductor 里面都是有包的,用一个 R 包可以批量获取有注释信息的芯片平台,选取了常见的物种。       

如下:


2、 这些包首先需要都下载。


3、下载完了所有的包, 就可以进行批量导出芯片探针与 gene 的对应关系。



二、 实操

1、 通过 GEO 数据库下载探针矩。


2、 通过探针矩阵查找注释平台信息(GPL6244),根据平台信息在 jimmy 博客中搜索 bioconductor 中包含关系所对应的包(http://www.bio-info-trainee.com/1399.html),可知 GPL6244–>hugene10sttranscriptcluster.


3、 对探针矩阵预处理把基因 id 换成行名。


4、加载 hugene10sttranscriptcluster 包,并查看里面对象,获取想要的对象。

注:要将基因 id 转换成基因名所以选择 hugene10sttranscriptclusterSYMBOL。


5、 选择“hugene10sttranscriptclusterSYMBOL”对象,获取探针对应基因名。


6、过滤表达矩阵中基因 id 没有在包中的数据,并将探针 id 改一下顺序,使其与表达矩阵的顺序一致。


7、 根据包中的探针 id 和基因名的对应关系,将表达矩阵中的 id 转换成基因名,并保存修改文件。


文末福利


test数据包

关注底部公众号ZSCI

回复关键词“test”即可领取!


往期回顾

Meta分析+网状Meta分析自学教程(2019年最全汇总篇)

2019+2018年最新国自然升级版资源包

史上最快提升科研基本功资源包,覆盖科研全流程

内部资料!SCI选刊到录稿,最完整8个环节资源

2018-2019年生信资源汇总,自学生信不再难!



Tips:点击“阅读原文”领取更新资源!

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 如何快速得到芯片探针与gene的对应关系,并将探针转换成基因?
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

meta分析、生信分析

meta、生信交流群综合科研交流群