- t-SNE算法是什么?
可视化高维数据的一种算法。流形数据(manifold),像绳结一样的数据,虽然在高维空间中可分,但是在人眼所看到的低维空间中,绳结中的绳子是互相重叠的不可分的。t-SNE降维使高维数据在二维空间可分。t-SNE 运行极慢,PCA 则相对较快,因此更为一般的处理,尤其在展示(可视化)高维数据时,常常先用 PCA 进行降维,再使用 t-SNE。
- 什么是测序饱和度(sequencing saturation),具体需要多少数据量才能达到饱和?
饱和度计算具体可参考10X官方说明。饱和度代表了给定实验中文库复杂度的检出比例,具体受文库复杂度和测序深度的影响,不同细胞类型的RNA含量不同,若要达到饱和所需的测序深度也有差别,如PBMCs细胞一般相对较低的测序深度就能达到90%以上的饱和度。
- 什么是有效的 barcode (valid barcodes)?
能匹配到 whitelist 的 barcode(里面有 737,000 个 barcodes)。它包括能够完全匹配的,也包括经过矫正之后能匹配的。
- Fraction Reads in Cells是什么,有什么作用?
与有效GEM(即含有细胞的GEM)相关联的reads,该值过低表示样本中可能有许多裂解的细胞或是死细胞。
- 细胞定义的操作步骤
一是在差异基因结果中筛选marker基因,二是从marker基因入手,定位其所在主要细胞群。 软件 SingleR。
- 拟时(pseudotime)分析
拟时分析适用于发育生物学中的发育轨迹研究,或者肿瘤微环境中免疫细胞状态的变化研究等。拟时分析推荐在细胞定义完成的基础上进行,有自己预设的起点、终点或者分化轨迹。Monocle是一款常用的拟时分析软件。
- 建库过程中为什么要加TSO? - The TSO adds a common 5’ sequence to full length cDNA that is used for downstream cDNA amplification. 
- read1 GC 抖动异常对后续分析有没有影响? - 10X cellranger在分析时read1只用到前26bp的序列信息,后面序列的信息不会对结果产生影响。 
- 差异分析中的 Log2 Fold Change 是如何计算的? - Log2 Fold Change表示的是在特定cluster中相对于其他所有细胞的平均UMI(标准化后)的比值。 
- Fraction Reads in Cells 是什么意思? - The fraction of valid-barcode, confidently-mapped-to-transcriptome reads with cell-associated barcodes. 
task1:
统计文件ReplicatedAcousticFeatures-ParkinsonDatabase.csv中空白行所在的行数,结果保存为blank_line.txt文件;
| 1 | grep -n '^$' ReplicatedAcousticFeatures-ParkinsonDatabase.csv > blank_line.txt | 
task2:
保存文件ReplicatedAcousticFeatures-ParkinsonDatabase.csv中所有的非空行,结果保存为ReplicatedAcousticFeatures_ParkinsonDatabase_noblank.txt文件;
| 1 | grep -v '^$' ReplicatedAcousticFeatures-ParkinsonDatabase.csv > ReplicatedAcousticFeatures_ParkinsonDatabase_noblank.txt | 
task3:
写一个shell脚本,判读nohup.out文件是不是软链接;
| 1 | if [ -L nohup.out ] | 
task4:
去除掉winequality-white.csv文件中的双引号,并将分隔符替换为”\t”,输出并以最后一列排序,将输出保存为winequality_white.tsv文件
| 1 | sed -e 's/""//g' -e 's/;/\t/g' winequality-white.csv > winequality_white.tsv | 
task5:
对winequality_white.tsv文件的第二列进行求和,将结果保存为winequality_white_2.sum文件
| 1 | cat winequality_white.tsv | awk '{sum += $1} END {print sum}' > winequality_white_2.sum | 
task6:
对winequality_white.tsv文件的第4列求平均值,将结果保存为winequality_white_2.average文件
| 1 | cat winequality_white.tsv | awk '{sum += $4} END {print sum/(NR-1)}' > winequality_white_2.average | 
task7:
统计ReplicatedAcousticFeatures-ParkinsonDatabase_noblank.txt文件中,第一列出现的次数,表头可以不计入,报错为文件id_count.txt
| 1 | awk -F "," 'NR > 1 {print $1}' ReplicatedAcousticFeatures-ParkinsonDatabase.csv|sort|uniq -c|sort -n > id_count.txt |