DNA甲基化数据分析流程
- 用Trimmomatic去除低质量序列(q<20),接头。
- 用BSMAP比对,允许0.8的错配率。
- 用methratio.py提取甲基化比例,选项-r去除PCR重复。
获得DMR
- 为了得到可靠的DMR区域,合并两个生物学重复,仅考虑所有文库中深度至少为4的胞嘧啶。
- 使用200bp窗口(50bp步长)识别DMR。
- 对每个窗口内的甲基化和未甲基化胞嘧啶进行Fisher精确检验。使用Benjamini-Hochberg对p值进行调整,估计错误发生率(FDR)。
- FDR<0.01,甲基化水平变化大于1.5倍且至少含有5个差异甲基化胞嘧啶(DMCs:Fisher精确检验中p<0.01)的窗口用于进一步分析,窗口在100bp内合并为更大的区域。
RNA-seq 数据分析
- Trimmomatic去除低质量序列和接头
- 用STAR进行比对,–sjdbGTFfile 用于提供基因组注释文件
- htseq-count计算每个基因map上的片段数
- DESeq2计算差异表达基因
DMR-associated基因分析
- DMR相关基因定义为2kb启动子区域内具有DMR的基因
- 仅用DMR-associated genes进行基因聚类
- 差异基因定义,FPKM >= 1, FDR <= 0.01, fc >= 1.5
GO注释
- 使用拟南芥(TAIR10)、番茄(ITAG3)、草莓(PhytozomeV12)的蛋白序列和GO注释文件
- blast
- 用GOATOOLs进行GO富集
小RNA分析
- 使用BWA比对
- 计算DMR的24 nt 小RNA丰度(normalized to per million per one hundred base pair)