甲基化数据分析

DNA甲基化数据分析流程

  • 用Trimmomatic去除低质量序列(q<20),接头。
  • 用BSMAP比对,允许0.8的错配率。
  • 用methratio.py提取甲基化比例,选项-r去除PCR重复。

获得DMR

  • 为了得到可靠的DMR区域,合并两个生物学重复,仅考虑所有文库中深度至少为4的胞嘧啶。
  • 使用200bp窗口(50bp步长)识别DMR。
  • 对每个窗口内的甲基化和未甲基化胞嘧啶进行Fisher精确检验。使用Benjamini-Hochberg对p值进行调整,估计错误发生率(FDR)。
  • FDR<0.01,甲基化水平变化大于1.5倍且至少含有5个差异甲基化胞嘧啶(DMCs:Fisher精确检验中p<0.01)的窗口用于进一步分析,窗口在100bp内合并为更大的区域。

RNA-seq 数据分析

  • Trimmomatic去除低质量序列和接头
  • 用STAR进行比对,–sjdbGTFfile 用于提供基因组注释文件
  • htseq-count计算每个基因map上的片段数
  • DESeq2计算差异表达基因

DMR-associated基因分析

  • DMR相关基因定义为2kb启动子区域内具有DMR的基因
  • 仅用DMR-associated genes进行基因聚类
  • 差异基因定义,FPKM >= 1, FDR <= 0.01, fc >= 1.5

GO注释

  • 使用拟南芥(TAIR10)、番茄(ITAG3)、草莓(PhytozomeV12)的蛋白序列和GO注释文件
  • blast
  • 用GOATOOLs进行GO富集

小RNA分析

  • 使用BWA比对
  • 计算DMR的24 nt 小RNA丰度(normalized to per million per one hundred base pair)