Illumina FASTQ-Dateibenennungsschema
Illumina verwendet ein Standardbenennungsschema für FASTQ-Dateien. Es ist nützlich zu verstehen, wie dieses Schema aufgebaut ist. Das allgemeine Schema für solche Dateien lautet
{Probenname}_{Barcode_sequenz}_L{Spurnummer}_R{Readnummer}_{Satz_Nummer}.fastq.gz
,
d.h., english
{sample_name}_{barcode_sequence}_L{lane}_R{read_number}_{set_number}.fastq.gz
.
Schauen wir uns die folgende GIAB-Datei (Genome in a bottle) an:
NIST7035_TAAGGCGA_L001_R1_001.fastq.gz
Die Bestandteile dieses Namens sind:
sample_name
: NIST7035. Dies ist der Probenname, der im Probenblatt für den Sequenzierungslauf angegeben ist.barcode_sequence
: TAAGGCGA. Dies ist die Nukleotidsequenz des molekularen Barcodes, der zur Markierung der Probe für das Multiplexing verwendet wird.lane
: 001. Die Lane-Nummer (1--8).Spurnummer
(d.h., read number): 1. Die Read-Nummer für Paired-End-Reads. R1 bedeutet Read 1, und für einen Paired-End-Sequenzierungslauf gibt es eine zusätzliche Datei mit R2 (Read 2), deren Name ansonsten genau dem Dateinamen für Read 1 entsprichtset_number
: 001. Die maximale Dateigröße von FASTQ-Dateien wird mit der Befehlszeilenoption--fastq-cluster-count
des SkriptsconfigureBclToFastq.pl
festgelegt, das Teil der Illumina \index{CASAVA} CASAVA-Software-Suite gehört. Wenn mehr Daten vorhanden sind, werden die Daten in separate FASTQ-Dateien mit der entsprechenden Dateigröße aufgeteilt (Um nur eine einzige FASTQ-Datei zu erstellen, kann eine ``0'' angegeben werden). Die verschiedenen Dateien, die derselben Probe/demselben Barcode/derselben Spur entsprechen, werden durch die mit 0 gefüllte dreistellige Set-Nummer unterschieden.
Bestimmte Illumina-Sequenzer verwenden andere FASTQ-Dateibenennungsschemata. Einzelheiten finden Sie in der Illumina-Dokumentation.
Paired-End-Sequenzierung
Beachten Sie, dass bei Paired-End-Läufen die übereinstimmenden FASTQ-Dateien genau die gleiche Anzahl von Reads aufweisen müssen und die Reads in beiden Dateien die gleiche Reihenfolge haben müssen. Dies kann mit den UNIX-Befehlen zcat
und wc
überprüft werden. Der Befehl cat
liest Daten aus Textdateien und gibt deren Inhalt auf der Befehlszeilenschnittstelle aus, und der Befehl \verb+zcat+ tut dasselbe mit gzip-komprimierten Dateien. Der Befehl wc
zählt Wörter, Zeilen und Zeichen in Textdateien. Wenn wir die Befehle wie folgt kombinieren, sehen wir, dass jede der beiden heruntergeladenen Dateien die gleiche Anzahl von Zeilen hat.
$ zcat NIST7035_TAAGGCGA_L001_R1_001.fastq.gz | wc -l 80812008 $ zcat NIST7035_TAAGGCGA_L001_R2_001.fastq.gz | wc -l 80812008
Wir können nun die Gesamtzahl der Zeilen durch vier teilen, um die Gesamtzahl der Reads zu erhalten (da jeder Read insgesamt vier Zeilen in der FASTQ-Datei einnimmt). Beachten Sie, dass wir nicht einfach nach Zeilen suchen können, die mit @
beginnen, da das ASCII-Symbol, das einem Phred-Score von 31 entspricht, ebenfalls @
ist und somit auch Qualitätszeilen mit diesem Zeichen beginnen können.