Read-Benenunng
Betrachten Sie die folgende Kennzeichnung, die von einem Read aus dem in Kapitel~\ref{ch:data} beschriebenen Exom-Datensatz NA12878 stammt.
@HWI-D00119:50:H7AP8ADXX:1:1101:2100:2202 1:N:0:TAAGGCGA
Die Syntax der Namenszeilen entspricht dem folgenden Schema:
@{instrument}:{rujn}:{flowcell_ID}:{lane}:{tile}:{x-pos}:{y-pos}\ {read}:{is_filtered}:{control_number}:{index}
Die im obigen Etikett gespeicherten Informationen sind in Tabelle 3 zusammengefasst. Der erste Teil dieser Bezeichnung, bis zum Leerzeichen, wird als Lesename oder Bezeichner verwendet.
Element | Erläuterung |
---|---|
HWI-D00119 |
Die eindeutige Gerätebezeichnung |
50 |
Die Lauf-ID (dies ist das 50ste Mal, dass dieses Gerät betrieben wurde) |
H7AP8ADXX |
Flowcell-ID |
1 |
Flowcell-Lane (Spur: 1–8) |
1101 |
Tile-Nummer innerhalb der Lane |
2100 |
X-Koordinate des Clusters innerhalb des Tiles (d.h., der ``Kachel'') |
2202 |
Y-Koordinate des Clusters innerhalb des Tiles |
1 |
Mitglied eines Paares (1 oder 2; 2 kann nur für Paired-End- oder Mate-Pair-Sequenzierung verwendet werden) |
N |
Y: Read hat den "Chastity"-Filter verletzt (solche Reads können herausgefiltert oder in der FASTQ-Datei belassen werden); N: Read hat den Keuschheitsfilter nicht verletzt |
0 |
0, wenn keines der Kontrollbits aktiviert ist, andernfalls ist es eine gerade Zahl. Auf HiSeq X- und NextSeq-Systemen wird die Kontrollspezifikation nicht durchgeführt und diese Zahl ist immer 0. |
TAAGGCGA |
Indexsequenz (Barcode) |
Hinweis: Jedes Leseetikett speichert Informationen in einem Standardschema (Das Schema wurde mit CASAVA 1.8 und später verwendet). Wir haben die (optionale) UMI-Feld (Unique Molecular Identifier) weggelassen, da es nicht für die Exom- oder Genomsequenzierung verwendet wird.
S. auch Cook, 2010.