09-30 08:21 阅读 178

FastQC

“A quality control tool for high throughput sequence data.”

FastQC是JAVA语言编写的能够对高通量测序数据进行质控的软件。

其主要提供如下功能：

1. 可以快速的评估测序质量，并以丰富的图表形式展示。

2. 线下操作，参数简单，直接生成HTML版结果报告。

3. 输入文件格式丰富，BAM、SAM、FastQ等。

文档地址：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

首先看一下官方给出的结果文件示例（Illumina结果示例），同时官方给出了不同测序文件的结果示例（结果示例）

重点说明一下：不同测序得到的结果也不一样，结果中reads或是碱基的组成和分布也不一样，应该根据具体问题具体分析。

【下面的运行结果示例是按照人重WGS的分析结果进行展示的】

fastqc的运行命令

fastqc seqfile1 seqfile2 .. seqfileN

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

-o 结果输出目录，需要预先创建，程序不会自动创建，-f 指定文件格式，默认程序自动检测，-c 指定可以污染序列，文件需要预先建立，后面指定输入文件。-q quiet 运行提示要不要显示。

运行结束后，保存至输入文件的命名的zip文件中

解压后，目录文件如下图所示：

其中 fastqc_data.txt里面保留了运行过程中计算得到的指标参数，summary.txt中保留了每个运行指标的通过情况

查看html格式的结果报告。结果分为如下几项：

summary

结果绿色的"PASS"，黄色的"WARN"和红色的"FAIL"。

1． Basic statistics（基本统计）

如下面例子所示：

2． Per base sequence quality（每个碱基序列的质量）

quality就是Fred值，-10*log10(p)，p为测错的概率。所以一条reads某位置出错概率为0.01时，其quality就是20。quality越高，其出错概率越低，结果如下图：

Per base sequence quality

横轴代表read中碱基位置，纵轴quality。若任一位置的下四分位数低于10或中位数低于25，报"WARN"；若任一位置的下四分位数低于5或中位数低于20，报"FAIL".

3 .Per Sequence Quality Scores

每条reads的quality的均值的分布：

横轴为quality，纵轴是reads数目。当出现上图的情况时，我们就会知道有一部分reads具有比较差的质量。当峰值小于27（错误率0.2%）时报"WARN"，当峰值小于20（错误率1%）时报"FAIL"。

4 .Per Base Sequence Content

对所有reads的每一个位置，统计ATCG四种碱基（正常情况）的分布：

横轴为reads碱基位置，纵轴为含量百分比。正常情况下四种碱基的出现频率应该是接近的，而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时，即四条线平行但分开，往往代表文库有bias (建库过程或本身特点)，或者是测序中的系统误差。此处可以大致看出WES、WGS、RNA-Seq、WGBS等碱基的组成差异。当任一位置的A/T比例与G/C比例相差超过10%，报"WARN"；当任一位置的A/T比例与G/C比例相差超过20%，报"FAIL"。

5 .Per Sequence GC Content

reads的平均GC含量的分布。

红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC含量推断的）。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时，报"WARN"；偏离理论分布的reads超过30%时，报"FAIL"。

6 .Per Base N Content

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”。对所有reads的每个位置，统计N的比率：

正常情况下N的比例是很小的，所以图上常常看到一条直线，当Y轴在0%-100%的范围内也能看到“突起”时，说明测序系统出了问题。当任意位置的N的比例超过5%，报"WARN"；当任意位置的N的比例超过20%，报"FAIL"。

7 .Sequence Length Distribution

当reads长度不一致时报"WARN"；当有长度为0的read时报“FAIL”。

8. Duplicate Sequences

统计序列完全一样的reads的频率。测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在（如建库过程中的PCR duplication）。

横坐标是duplication的次数，纵坐标是duplicated reads的数目。当非unique的reads占总数的比例大于20%时，报"WARN"；当非unique的reads占总数的比例大于50%时，报"FAIL“。

fastuniq可以帮助去除测序结果中的重复的reads，由此可以减少后续分析（variant calling）的假阳性结果。作为对比，处理之后的重复分布情况如下图

9. Overrepresented Sequences

如果有某个序列出现次数“太多”，就叫做over-represented。为了计算方便，只取了fq数据的前200K条reads进行统计，所以有可能over-represented reads不在里面。而且只取50bp。如果命令行中加入了-c contaminant file，出现的over-represented sequence会从contaminant_file里面找匹配的hit（至少20bp且最多一个mismatch），可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“，当发现超过总reads数1%的reads时报”FAIL“。

参考来源：

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

作者:希望你会好

原文链接:https://www.jianshu.com/p/7f9d14ceac64