单细胞测序

  1. t-SNE算法是什么?

可视化高维数据的一种算法。流形数据(manifold),像绳结一样的数据,虽然在高维空间中可分,但是在人眼所看到的低维空间中,绳结中的绳子是互相重叠的不可分的。t-SNE降维使高维数据在二维空间可分。t-SNE 运行极慢,PCA 则相对较快,因此更为一般的处理,尤其在展示(可视化)高维数据时,常常先用 PCA 进行降维,再使用 t-SNE。

  1. 什么是测序饱和度(sequencing saturation),具体需要多少数据量才能达到饱和?

饱和度计算具体可参考10X官方说明。饱和度代表了给定实验中文库复杂度的检出比例,具体受文库复杂度和测序深度的影响,不同细胞类型的RNA含量不同,若要达到饱和所需的测序深度也有差别,如PBMCs细胞一般相对较低的测序深度就能达到90%以上的饱和度。

  1. 什么是有效的 barcode (valid barcodes)?

能匹配到 whitelist 的 barcode(里面有 737,000 个 barcodes)。它包括能够完全匹配的,也包括经过矫正之后能匹配的。

  1. Fraction Reads in Cells是什么,有什么作用?

与有效GEM(即含有细胞的GEM)相关联的reads,该值过低表示样本中可能有许多裂解的细胞或是死细胞。

  1. 细胞定义的操作步骤

一是在差异基因结果中筛选marker基因,二是从marker基因入手,定位其所在主要细胞群。 软件 SingleR。

  1. 拟时(pseudotime)分析

拟时分析适用于发育生物学中的发育轨迹研究,或者肿瘤微环境中免疫细胞状态的变化研究等。拟时分析推荐在细胞定义完成的基础上进行,有自己预设的起点、终点或者分化轨迹。Monocle是一款常用的拟时分析软件。


  1. 建库过程中为什么要加TSO?

    The TSO adds a common 5’ sequence to full length cDNA that is used for downstream cDNA amplification.

  2. read1 GC 抖动异常对后续分析有没有影响?

    10X cellranger在分析时read1只用到前26bp的序列信息,后面序列的信息不会对结果产生影响。

  3. 差异分析中的 Log2 Fold Change 是如何计算的?

    Log2 Fold Change表示的是在特定cluster中相对于其他所有细胞的平均UMI(标准化后)的比值。

  4. Fraction Reads in Cells 是什么意思?

    The fraction of valid-barcode, confidently-mapped-to-transcriptome reads with cell-associated barcodes.


task1:
统计文件ReplicatedAcousticFeatures-ParkinsonDatabase.csv中空白行所在的行数,结果保存为blank_line.txt文件;

1
2
3
4
grep -n '^$' ReplicatedAcousticFeatures-ParkinsonDatabase.csv > blank_line.txt
grep -n '^\s$' ReplicatedAcousticFeatures-ParkinsonDatabase.csv > blank_line.txt
awk '/^$/{print NR}' ReplicatedAcousticFeatures-ParkinsonDatabase.csv
sed -n '/^$/=' ReplicatedAcousticFeatures-ParkinsonDatabase.csv

task2:
保存文件ReplicatedAcousticFeatures-ParkinsonDatabase.csv中所有的非空行,结果保存为ReplicatedAcousticFeatures_ParkinsonDatabase_noblank.txt文件;

1
grep -v '^$' ReplicatedAcousticFeatures-ParkinsonDatabase.csv > ReplicatedAcousticFeatures_ParkinsonDatabase_noblank.txt

task3:
写一个shell脚本,判读nohup.out文件是不是软链接;

1
2
3
4
if [ -L nohup.out ]
then
echo "it is a soft link."
fi

task4:
去除掉winequality-white.csv文件中的双引号,并将分隔符替换为”\t”,输出并以最后一列排序,将输出保存为winequality_white.tsv文件

1
sed -e 's/""//g' -e 's/;/\t/g' winequality-white.csv > winequality_white.tsv

task5:
对winequality_white.tsv文件的第二列进行求和,将结果保存为winequality_white_2.sum文件

1
cat winequality_white.tsv | awk '{sum += $1} END {print sum}' > winequality_white_2.sum

task6:
对winequality_white.tsv文件的第4列求平均值,将结果保存为winequality_white_2.average文件

1
cat winequality_white.tsv | awk '{sum += $4} END {print sum/(NR-1)}' > winequality_white_2.average

task7:
统计ReplicatedAcousticFeatures-ParkinsonDatabase_noblank.txt文件中,第一列出现的次数,表头可以不计入,报错为文件id_count.txt

1
awk -F "," 'NR > 1 {print $1}' ReplicatedAcousticFeatures-ParkinsonDatabase.csv|sort|uniq -c|sort -n > id_count.txt