1 Sequences Data to Expression Matrix
了解为主
1.1 Fastq
@<instrument>:<run num>:<flowcell ID>:<lane>:<tile>:<x>:<y>:<UMI> <read>:<filtered>:<control num>:<index>
Fastq文件形如:
@M00970:337:000000000-BR5KF:1:1102:17745:1557 1:N:0:CGCAGAAC+ACAGAGTT
ACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCT...AAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGC
+
DDDCDDDDDDFFGGGGGGGGGGHHHHHHHHHHHHHHH...HHHHGGGGHHHHHHHHHHHHHHHGHHGHHHHHHGGGGGGHHHH
每个碱基对应的字符在ASCII码中对应的十进制数字减去33即为该碱基质量(也即Phred33体系),例如上述序列中第一个碱基的质量为D,对应的十进制数字为68(见下表),则碱基质量为68-33=35。碱基质量Q=-10*lgP,P为碱基被测错的概率。也即Q为30代表被测错的概率为0.001,碱基质量越高,则被测错的概率越低。
Q = -10 log10(P)
FastQC v0.12.1 (Win/Linux zip file)
Trimmomatic软件
Cell Ranger 10XGenomics/cellranger https://www.nature.com/articles/ncomms14049。。。
。。。。。。