Read-Benenunng

Betrachten Sie die folgende Kennzeichnung, die von einem Read aus dem in Kapitel~\ref{ch:data} beschriebenen Exom-Datensatz NA12878 stammt.

@HWI-D00119:50:H7AP8ADXX:1:1101:2100:2202 1:N:0:TAAGGCGA

Die Syntax der Namenszeilen entspricht dem folgenden Schema:

@{instrument}:{rujn}:{flowcell_ID}:{lane}:{tile}:{x-pos}:{y-pos}\
    {read}:{is_filtered}:{control_number}:{index} 

Die im obigen Etikett gespeicherten Informationen sind in Tabelle 3 zusammengefasst. Der erste Teil dieser Bezeichnung, bis zum Leerzeichen, wird als Lesename oder Bezeichner verwendet.

Illumina-Sequenzkennungen
Element Erläuterung
HWI-D00119 Die eindeutige Gerätebezeichnung
50 Die Lauf-ID (dies ist das 50ste Mal, dass dieses Gerät betrieben wurde)
H7AP8ADXX Flowcell-ID
1 Flowcell-Lane (Spur: 1–8)
1101 Tile-Nummer innerhalb der Lane
2100 X-Koordinate des Clusters innerhalb des Tiles (d.h., der ``Kachel'')
2202 Y-Koordinate des Clusters innerhalb des Tiles
1 Mitglied eines Paares (1 oder 2; 2 kann nur für Paired-End- oder Mate-Pair-Sequenzierung verwendet werden)
N Y: Read hat den "Chastity"-Filter verletzt (solche Reads können herausgefiltert oder in der FASTQ-Datei belassen werden); N: Read hat den Keuschheitsfilter nicht verletzt
0 0, wenn keines der Kontrollbits aktiviert ist, andernfalls ist es eine gerade Zahl. Auf HiSeq X- und NextSeq-Systemen wird die Kontrollspezifikation nicht durchgeführt und diese Zahl ist immer 0.
TAAGGCGA Indexsequenz (Barcode)

Hinweis: Jedes Leseetikett speichert Informationen in einem Standardschema (Das Schema wurde mit CASAVA 1.8 und später verwendet). Wir haben die (optionale) UMI-Feld (Unique Molecular Identifier) weggelassen, da es nicht für die Exom- oder Genomsequenzierung verwendet wird.

S. auch Cook, 2010.