SAM-TAGs: Optionale Felder

Auf die 11 Pflichtfelder können beliebig viele optionale Felder folgen. Alle optionalen Felder folgen dem TAG:TYPE:VALUE-Format, wobei TAG eine zweistellige Zeichenfolge, TYPE einer von sechs Datentypen (Tabelle 1) und VALUE der tatsächliche Wert ist.

SAM-Format: Datentypen für die optionalen Tags
Typ	Beschreibung
`A`	Einzelzeichen
`Z`	String
`i`	32-Bit-Ganzzahl mit Vorzeichen
`f`	Float mit einfacher Genauigkeit (reelle Zahl)
`H`	Hexadezimalzahl-String
`B`	Allgemeines Array

Verschiedene Aligner verwenden unterschiedliche optionale Felder. Leser finden eine vollständige Dokumentation allgemeiner Felder bei SAMtools Website¹ und Aligner wie BWA stellen ebenfalls Dokumentation zu den von ihnen verwendeten Feldern bereit. Hier stellen wir einige ausgewählte Bereiche vor, um den Lesern einen Eindruck davon zu vermitteln, wie diese Bereiche in der Praxis eingesetzt werden.

Das NM-Feld

Das vordefinierte NM-Tag nimmt einen ganzzahligen Wert (i) an. Das Feld NM gibt den Bearbeitungsabstand zur Referenz an, einschließlich Mehrdeutigkeit bases\footnote{``N'' bases, jedoch ohne Clipping. Denken Sie daran, dass der CIGAR-String 101M zeigt an, dass ein 101 nt langer Lesevorgang lückenlos mit dem Genom abgeglichen wurde. Allerdings macht es das nicht jede Aussage darüber, ob das Alignment nicht übereinstimmende Positionen (Sequenzinkongruenzen) enthielt. A Der CIGAR-String von 101M und das Tag NM:i:0 stimmen jedoch perfekt überein (Abstand bearbeiten). von Null). Bei einem Lesevorgang mit einer CIGAR-Zeichenfolge von 101M und dem Tag NM:i:1 stimmt eine nicht überein Basis (Distanz von eins bearbeiten).

Das MD-Feld

Das Feld MD liefert zusätzliche, referenzzentrierte Informationen über die Ausrichtung. Es handelt sich um eine Zeichenfolge für nicht übereinstimmende Positionen, die es ermöglicht, ohne Blick auf die Referenz abzuleiten, wo sich Einzelnukleotidvarianten (SNVs) und Deletionen befinden. Die Funktionsweise des Feldes MD lässt sich am einfachsten anhand eines Beispiels erklären. Einer der Reads im NA12878-Exom wurde auf chr1:21989502 mit einer Zuordnungsqualität von Null (es lässt sich genauso gut auf eine andere Position auf Chromosom 1 abbilden) und einer CIGAR-Zeichenfolge von 101M abgebildet. Betrachten Sie das MD-Tag:

MD:Z:2C77A4G4A5C4

Dies bedeutet, dass es zwei Sequenzübereinstimmungen gibt (beginnend an der Position POS=21989502 auf der Referenz chr1), gefolgt von einer Nichtübereinstimmung mit einem C in der Referenz, 77 Übereinstimmungen, einer Nichtübereinstimmung mit A, 4 weitere Übereinstimmungen, ein nicht übereinstimmendes G, 4 Übereinstimmungen, ein weiteres nicht übereinstimmendes A, 5 Übereinstimmungen, ein nicht übereinstimmendes C und endlich 4 Übereinstimmungen. Vergleichen Sie das Alignment mit der entsprechenden Region von Chromosom 1:

read: TGTGGTGACCTGACCATCCTGGTTTGCCTGGAACTTCAGGAGTGAAGACA
      || |||||||||||||||||||||||||||||||||||||||||||||||
ref:  TGCGGTGACCTGACCATCCTGGTTTGCCTGGAACTTCAGGAGTGAAGACA

read: CTGGACATTTAATGCTAAAACTGGGAAGGTCCCAGAAAAAGTGGGAAAAG
      |||||||||||||||||||||||||||||| |||| |||| ||||| |||
ref:  CTGGACATTTAATGCTAAAACTGGGAAGGTACCAGGAAAAATGGGACAAG

read: T
      |
ref:  T

Betrachten wir nun ein Beispiel mit einer Löschung. Dies ist ein auf chr1:31504512 abgebildeter Lesevorgang mit einer CIGAR-Zeichenfolge von 11M5D60M (Gesamtlänge des zugeordneten Lesevorgangs 83 Nukleotide) und einem Tag von MD:Z:11^TTTTG6G23G29 . Der CIGAR-String sagt uns, dass der Lesevorgang für die ersten 11 Basen ausgerichtet ist, dann eine Deletion von 5 Nukleotiden aufweist und erneut für 60 Basen ausgerichtet ist. Die CIGAR-Zeichenfolge sagt uns nicht, welche Basen gelöscht wurden, und sie sagt uns auch nicht, ob es sich bei den ausgerichteten Basen um Übereinstimmungen oder Nichtübereinstimmungen handelt. Der MD-String sagt uns, dass die ersten 11 Basen perfekt übereinstimmen, dass die Basen TTTTG gelöscht wurden (dies wird durch das Caret-Zeichen ^ gefolgt von den gelöschten Basen, ^TTTTG, angezeigt), die folgenden 6 übereinstimmende Basen, gefolgt von einem nicht übereinstimmenden G in der Referenz, 23 übereinstimmende Basen, gefolgt erneut von einem nicht übereinstimmenden G in der Referenz, gefolgt von 29 übereinstimmenden Basen.

read: TTGGGCAAGTT.....TTTTTTTTTTTTTTTTTTTTTTTTTGAGACAGAG
      |||||||||||     |||||| ||||||||||||||||||||||| |||
ref:  TTGGGCAAGTTTTTTGTTTTTTGTTTTTTTTTTTTTTTTTTGAGACGGAG

read: TCTCTCTCTGTTGCCCGGGCTGGAGT
      ||||||||||||||||||||||||||
ref:  TCTCTCTCTGTTGCCCGGGCTGGAGT

Wenn es mehrere benachbarte Nichtübereinstimmungen gibt, dann ist eine 0 gebraucht. Zum Beispiel

Read: CGATACGGGGAC
      |  |||  ||||
Ref:  CACTACTCGGAC

Dies würde die CIGAR 12M (zwölf ausgerichtete Positionen ohne Insertionen oder Deletion) ergeben.

Der MD-String MD:Z:1A0C3T0C4 hinweist darauf hin, dass es zwischen den nicht übereinstimmenden A und C und T und C keine (0) passenden Basen gibt. Falls es sich bei der ersten oder letzten Base um eine Sequenzfehlanpassung handelt, wird dieser ebenfalls eine 0 vorangestellt oder folgt (z. B. MD:Z:0A100 oder MD:Z:100A0).

Wenn es mehrere benachbarte Nichtübereinstimmungen gibt, dann ist eine 0 gebraucht. Zum Beispiel

read: CGATACGGGGAC
      |  |||  ||||
ref:  CACTACTCGGAC

Dies würde die CIGAR 12M (zwölf ausgerichtete Positionen ohne) ergeben Einfügungen oder Löschungen) und die MD-Zeichenfolge MD:Z:1A0C3T0C4, was darauf hinweist, dass es zwischen den nicht übereinstimmenden A und C und T und C keine (0) passenden Basen gibt. Falls es sich bei der ersten oder letzten Base um eine Sequenzfehlanpassung handelt, wird dieser ebenfalls eine 0 vorangestellt oder folgt (z. B., MD:Z:0A100 oder MD:Z:100A0).

Beachten Sie, dass Einfügungen nicht im Feld MD angegeben werden, da es referenzzentriert ist und eine Einfügung keinen Informationsverlust über die Referenz darstellt. Darüber hinaus können die eingefügten Basen zusammen mit dem CIGAR-String eines Lesevorgangs aus dem SEQ-Feld abgeleitet werden. Die CIGAR-Zeichenfolge 30M1I70M entspricht beispielsweise MD:Z:100, wenn alle ausgerichteten Basen (M) Sequenzübereinstimmungen aufweisen. Der Read hat insgesamt 101 Basen, aber nur die 100 Referenzbasen, an denen er ausgerichtet ist, werden im MD-Tag beschrieben.

Das Feld MD muss mit der CIGAR-Zeichenfolge kompatibel sein (Einfügungen ausgenommen).

Das RG-Feld

Das RG-Feld gibt die Lesegruppe des Lesevorgangs an, z. B. RG:Z:rg1.

Das AS-Feld

Das Feld AS gibt den vom Aligner generierten Alignment-Score an. Beispielsweise gibt \verb+AS:i:84+ an, dass BWA-MEM dem Lesevorgang einen Alignment-Score von 84 zugewiesen hat.

Für Endbenutzer reservierte Felder

Die Felder X?:?, Y?:? und Z?:? sind für Endbenutzer reserviert. Das bedeutet, dass Ausrichtungsprogramme wie BWA ihre eigenen Felder definieren dürfen, deren Tags mit den Buchstaben X, Y oder Z beginnen. BWA hat eine Reihe von Tags definiert, die mit X beginnen. Beachten Sie, dass die verschiedenen BWA-Programme unterschiedliche Kombinationen von verwenden Tags. Beispielsweise zeigt das Tag XA alternative Ausrichtungen im folgenden Format an: chr,pos,CIGAR,NM; für jede alternative Ausrichtung. Zum Beispiel,

XA:Z:chr1,+13074589,101M,3;chr1,-13152100,101M,3;chr1, \
-12882405,101M,3;chr1,-12827800,101M,4; \
chr1_KI270766v1_alt,-97694,98M3S,3;

Dieses Tag zeigt, dass der Lesevorgang auch alternativen Orten zugeordnet werden könnte. Der erste alternative Treffer befand sich auf Chromosom 1 an Position 13.074.589, er war ohne Indels ausgerichtet (CIGAR 101M) und die Bearbeitungsentfernung (NM) betrug drei. Eine negative Position zeigt an, dass die alternative Ausrichtung auf dem umgekehrten Strang liegt. Zu den weiteren optionalen Tags von BWA gehört XS, das den suboptimalen Alignment-Score anzeigt.

SAMtags. ↩

Keyboard shortcuts