生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

使用FitHiC评估染色质交互作用的显著性

欢迎关注”生信修炼手册”!

通过Hi-C技术可以得到全基因组范围内的染色质交互信息, 在不同的分辨率下,首先得到bin之间的交互矩阵contact matrix, 通过热图的形式来展示该交互矩阵,即得到了contact map。在完整的contac matrix的基础上,可以进行A/B隔室,拓扑结构域,染色质环等不同层级空间结构单元的分析。

正是由于覆盖了全基因组范围内的染色质交互信息,才使得hi-C技术可以站在全基因组的高度对不同层级的空间结构进行挖掘,这个是hi-c技术独有的优势。作为3C技术的升级版,hi-c也是可以直接研究某些染色质之间的交互作用的,只不过由于测序和序列比对等系统误差的存在,在交互矩阵中还是有部分信息是不可靠的,为了通过hi-c技术来直接分析某些染色质之间的互作,科学家发明了很多的算法,对交互矩阵中的信息进行评估,通过打分等形式来提取限制性的交互信息,而FitHic就是其中最常用的一款软件。

该软件最初采用python进行开发,后来为了使用方便,将相关功能重写并封装成了一个R包,网址如下

https://bioconductor.org/packages/release/bioc/html/FitHiC.html

对应文章的链接如下

https://genome.cshlp.org/content/24/6/999.full.pdf

该软件的原理示意如下

从原始的交互矩阵中,根据事先定义的距离阈值提取出mid-range,即中等距离的同一个染色质bin之间的交互作用。在文章中指出,对于酵母,中等距离的范围为10kb到25kb, 对于人和小鼠,中等距离的范围为50kb到10Mb,  这里的距离为两个bin之间的线性距离。

根据提取出的mid-range交互信息,首先构建基因组线性距离与交互频率的模型,即图中的spline-1, 在该模型的基础上制定过滤的阈值,即虚线代表的outlier-threshold, 然后提出离群值数据,对应图中的红色原点。对于剩下的数据再次进行拟合,得到spline2。 然后在二项分布的基础上计算每个交互作用的pvalue,再进行多种假设检验的校正,得到qvalue。

该软件的用法简单,只不过需要对原始的交互矩阵进行格式化。一个经典的交互矩阵如下所示

Bin1    Bin2    Bin3    Bin4    Bin5    Bin6
7.85957 4.80329 11.4766 9.57416 4.5288 8.55022
8.61621 4.98956 2.35654 5.69483 11.1187 10.1322
4.06803 4.07801 7.98047 2.59144 6.3851 7.74306
4.52869 2.70624 8.94544 4.29185 8.29491 8.38257

每一行和每一列都代表一个bin, 数字代表两个bin之间的交互频率。在此文件的基础上,经过如下两步即可得到显著性评估的结果。

1.  准备输入文件

该软件至少需要准备两个输入文件,第一个文件为bin对应的染色质区域,称之为fragsfile, 内容示意如下

t分隔的5列,其中第二列和第五列的信息没有作用,用0或者1填充就可以了,第一列表示bin所在的染色体,第三列代表bin的中心位置, 第三列代表与该bin存在交互的频率总和,即交互矩阵中对应列或者行的总和。

第二个文件为bin之间交互频率的信息,称之为intersfile, 内容示意如下

t分隔的5列,前两列代表第一个bin的染色质名称和中心位置,第三列和第四列代表第二个bin的染色质名称和中心位置,第五列代表两个bin之间的交互频率。

2.  运行

准备好输入文件之后,就可以运行了,基本用法如下

FitHiC(
fragsfile,
intersfile,
outdir,
libname = "test_project",
distUpThres = 250000,
distLowThres = 10000,
visual = TRUE)

指定两个输入文件和输出结果的目录,libname指定输出文件的前缀,distUpThresdistLowThres指定距离的上下阈值,以此阈值来筛选得到mid-range。

在输出结果中所有文件分成了pass1pass2两个部分,每个部分有对应的以下4张图

第一张图表示基于mid-range的交互信息得到的基因组线性距离与交互概率的分布,第二张图表示拟合得到的分布,第三张图表示拟合模型筛选得到的离群值,第四张图表示不同FDR阈值筛选的显著交互作用的分布。

最终得到的显著性评估结果可以从后缀为pass2.significances.txt.gz的文件中得到,该文件内容示意如下

通过最后一列的qvaue作为阈值,去筛选得到显著性的染色质互作。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 使用FitHiC评估染色质交互作用的显著性
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

meta分析、生信分析

meta、生信交流群综合科研交流群