CpG-Insel
CpG-Inseln (engl. CpG islands, abgekürzt CGIs, gelegentlich auch als CG-Inseln bzw. CG islands bezeichnet) sind Regionen im Genom von Eukaryoten mit statistisch erhöhter CpG-Dinukleotid-Dichte. Diese Dichte wird auf die Einzelnukleotid- und Dinukleotidfrequenzen im gesamten betrachteten Genomausschnitt bezogen.
„CpG“ bezeichnet ein Zwei-Basen-Sequenzmotiv. Das „p“ (für Phosphorsäure oder bei einem pH-Wert von 7 Phosphat) wird häufig mit angegeben, um z. B. besser zwischen dem hier gemeinten CG innerhalb eines DNA-Strangs und der CG-Basenpaarung eines DNA-Doppelstranges zu unterscheiden (siehe CpG-Stelle).
Typische Definitionen für eine CpG-Insel verlangen einen Genomabschnitt von mindestens 400 bis 500 bp Länge, der einen durchschnittlichen G+C-Gehalt von mindestens 50 % aufweist und in dem ein CpG-Verhältnis (beobachtet zu erwartet) von mindestens 60 % vorliegt.<ref name="PMID19376112">R. S. Illingworth, A. P. Bird: CpG islands–'a rough guide'. In: FEBS letters. Band 583, Nummer 11, Juni 2009, S. 1713–1720, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 19376112 (Review).</ref> Der GC-Gehalt des menschlichen Gesamtgenoms liegt beispielsweise bei ungefähr 42 %<ref name="PMID11237011"> E. S. Lander, L. M. Linton u. a.: Initial sequencing and analysis of the human genome. In: Nature. Band 409, Nummer 6822, Februar 2001, S. 860–921, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 11237011. </ref> und ist somit deutlich geringer als der in den CpG-Inseln.
CpG-Inseln entstehen durch Mechanismen, die mit der Nutzung der Erbsubstanz als Informationsträger zu tun haben. Dadurch sind CpG-Inseln wichtige Markierungen, die z. B. für die Genetik, Medizin und Bioinformatik Bedeutung haben.
Sie sind nicht zu verwechseln mit der GC-Box, die 60–100 bp vor Beginn des Transkripts liegt.
Eigenschaften
Bei Säugetieren sind je nach Spezies zwischen 2 % und 7 % der Cytosine einer Zelle methyliert. Etwa 70 bis 85 % der CpG-Dinukleotide in Säugern sind methyliert,<ref>K. Jabbari, G. Bernardi: Cytosine methylation and CpG, TpG (CpA) and TpA frequencies. In: Gene. Band 333, Mai 2004, S. 143–149, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 15177689.</ref><ref name="Chatterjee" /> während CpG-Inseln überwiegend unmethyliert sind,<ref>A. M. Deaton, A. Bird: CpG islands and the regulation of transcription. In: Genes & development. Band 25, Nummer 10, Mai 2011, S. 1010–1022, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 21576262, }} PMC 3093116 (freier Volltext{{#if:|, PDF}}).</ref> wodurch die Genexpression epigenetisch reguliert wird.<ref>J. A. Law, S. E. Jacobsen: Establishing, maintaining and modifying DNA methylation patterns in plants and animals. In: Nature Reviews Genetics. Band 11, Nummer 3, März 2010, S. 204–220, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 20142834, }} PMC 3034103 (freier Volltext{{#if:|, PDF}}).</ref> Etwa 5 % der CpG-Dinukleotide liegen in einer der 20.000 CpG-Inseln in Genomen von Säugern.<ref name="Chatterjee">R. Chatterjee, C. Vinson: CpG methylation recruits sequence specific transcription factors essential for tissue specific gene expression. In: Biochimica et Biophysica Acta. Band 1819, Nummer 7, Juli 2012, S. 763–770, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 22387149, }} PMC 3371161 (freier Volltext{{#if:|, PDF}}).</ref> Die Hälfte der CpG-Inseln liegt bei Säugern in Haushaltsgenen.<ref name="Chatterjee" /> Etwa 40 % der Promotoren in Säugetieren besitzen eine CpG-Insel.<ref>M. Fatemi, M. M. Pao, S. Jeong, E. N. Gal-Yam, G. Egger, D. J. Weisenberger, P. A. Jones: Footprinting of mammalian promoters: use of a CpG DNA methyltransferase revealing nucleosome positions at a single molecule level. In: Nucleic acids research. Band 33, Nummer 20, 2005, S. e176, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 16314307, }} PMC 1292996 (freier Volltext{{#if:|, PDF}}).</ref>
Meist sind es die Cytosine aus 5'-CpG-3' Dinukleotiden, die auf beiden komplementären DNA-Strängen eine Methylgruppe tragen, wodurch ein palindromisches Methylierungsmuster entsteht. Sind zwei Cytosine in dieser Konstellation methyliert, bewirken sie zusammen eine Veränderung der dreidimensionalen Struktur in der großen Furche der Doppelstrang-DNA.
Der durchschnittliche GC-Gehalt beim Menschen beträgt 42 %,<ref name="PMID11237011" /> womit das Dinukleotid CpG rechnerisch mit einer Häufigkeit von etwa 4 % im Genom vorliegen sollte. Tatsächlich sind aber CpG-Dinukleotide mit 0,8 % stark unterrepräsentiert, was hauptsächlich mit der relativ spontanen Reaktion von 5-Methylcytosin zu Thymin durch Desaminierung zu erklären ist (s. Erklärung und Abbildung weiter unten). Damit ist die CpG-Dinukleotiddichte in CpG-Inseln 10–20 mal höher als in anderen Bereichen des durchschnittlichen Genoms von Wirbeltieren. Im Vergleich zu anderen Dinukleotiden, wie beispielsweise GpC, ApT oder TpA, kommt dem CpG-Dinukleotid in vielen eukaryotischen Organismen eine Sonderstellung zu, da dessen Häufigkeit die CpG-Inseln definiert.
Funktionen von CpG-Inseln
Seit ihrer Entdeckung sind CGIs mit einer Vielzahl grundlegender Prozesse in Verbindung gebracht worden, unter anderem mit diesen drei Funktionen:<ref name="PMID29099304">S. Sarda, S. Hannenhalli: Orphan CpG islands as alternative promoters. In: Transcription. Band 9, Nummer 3, 2018, S. 171–176, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 29099304, }} PMC 5927659 (freier Volltext{{#if:|, PDF}}).</ref>
- DNA-Replikation; CGIs können als Replikationsursprung wirken; die Sequenzen selbst sind möglicherweise genomische Fußabdrücke, die durch Replikationsereignisse auf dem Chromosom hinterlassen wurden.<ref name="PMID10508580">{{#invoke:Vorlage:Literatur|f}}</ref>
- Prägung (Imprinting); CGIs können allelspezifisch unterschiedlich methyliert werden.<ref name="PMID9338788">{{#invoke:Vorlage:Literatur|f}}</ref>
- Transkriptionelle Regulation; CGIs fungieren hauptsächlich als Stellen für die Rekrutierung von RNA Pol II und die Initiierung der Transkription.<ref name="PMID2157626">{{#invoke:Vorlage:Literatur|f}}</ref>
Bei der dritten Funktion, der transkriptionellen Genregulation, spielen CpG-Inseln eine tragende Rolle. Sie befinden sich in Wirbeltieren gehäuft in der Nähe von Promotoren, insbesondere bei Haushaltsgenen.<ref>S. Saxonov, P. Berg, D. L. Brutlag: A genome-wide analysis of CpG dinucleotides in the human genome distinguishes two distinct classes of promoters. In: Proceedings of the National Academy of Sciences. Band 103, Nummer 5, Januar 2006, S. 1412–1417, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 16432200, }} PMC 1345710 (freier Volltext{{#if:|, PDF}}).</ref>
Die Methylierung von CpG-Stellen innerhalb einer CpG-Insel bedeutet zumeist, dass das zugeordnete Gen nicht abgelesen wird. Circa 40–45 % aller menschlichen Gene haben CpG-Inseln in ihren Promotorbereichen.<ref>Rolf Knippers: Molekulare Genetik. 9., komplett überarbeitete Auflage. Stuttgart, 2006, S. 340.</ref>
Methylierung von CpG-Inseln spielt sowohl in der Entstehung von Krebs (als Mechanismus zum Abschalten von Tumorsuppressorgenen) als auch bei der genomischen Prägung eine Rolle. In Tumoren findet sich oftmals eine allgemeine Untermethylierung der Cytosine in CpG-Dinukleotiden und eine Übermethylierung in CpG-Inseln bestimmter Tumorsuppressorgene.<ref>D. Sproul, R. R. Meehan: Genomic insights into cancer-associated aberrant CpG island hypermethylation. In: Briefings in functional genomics. Band 12, Nummer 3, Mai 2013, S. 174–190, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 23341493, }} PMC 3662888 (freier Volltext{{#if:|, PDF}}).</ref>
CG-Suppression und Entstehung der CpG-Inseln
Die beiden Cytosine in einer CpG-Stelle (DNA-Doppelstrang) sind im menschlichen Genom meist methyliert (DNA-Methylierung). In einigen Bereichen wird die Methylierung dauerhaft unterdrückt. Häufig sind diese Bereiche CpG-Inseln und liegen oft vor Genen (den sogenannten Promotorbereichen). Die methylierten CpG-Stellen sind einem Mutationsdruck ausgesetzt, der durch „CG-Suppression“ benannt und nachfolgend beschrieben wird:
Cytosine können in der Zelle einer Desaminierung (aus –NH2 wird =O) unterliegen. Eine hydrolytische Desaminierung von Basen kann ohne Katalysator<ref name="PMID11772041">M. J. Snider, L. Reinhardt, R. Wolfenden, W. W. Cleland: 15N kinetic isotope effects on uncatalyzed and enzymatic deamination of cytidine. In: Biochemistry. Band 41, Nummer 1, Januar 2002, S. 415–421, PMID 11772041.</ref> auftreten, aber auch enzymatisch<ref name="PMID11560484">M. J. Snider, R. Wolfenden: Site-bound water and the shortcomings of a less than perfect transition state analogue. In: Biochemistry. Band 40, Nummer 38, September 2001, S. 11364–11371, PMID 11560484.</ref> hervorgerufen werden. Aus methyliertem Cytosin wird dabei Thymin, aus unmethyliertem Cytosin (z.y B. in den CpG-Inseln) wird Uracil. Während Thymidin eine „normale“ Nukleobase der DNA ist, gehört Uracil nicht in die DNA. Uracil – eigentlich eine RNA-Base – wird sehr gut erkannt und durch Cytosin ersetzt. Die DNA-Reparaturmechanismen der Zelle nehmen das auf dem gegenüberliegenden DNA-Strang vorhandene Guanosin als Grundlage der Fehlerkorrektur. In den methylierten CpG-Dinukleotiden entsteht durch die Desaminierung hingegen Thymin. Dieser „Fehler“ wird wesentlich häufiger toleriert als Uracil und führt zu einer dauerhaften Mutation. Einen wesentlichen Unterschied für die Effizienz machen diejenigen Uracil-DNA-Glycosylasen aus (z. B.<ref name="PMID25252105">N. Schormann, R. Ricciardi, D. Chattopadhyay: Uracil-DNA glycosylases-structural and functional perspectives on an essential family of DNA repair enzymes. In: Protein science : a publication of the Protein Society. Band 23, Nummer 12, Dezember 2014, S. 1667–1685, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 25252105, }} PMC 4253808 (freier Volltext{{#if:|, PDF}}) (Review).</ref>), die Uracil ausschneiden können (Basenexision) und auf fehlerhaft entstandenes Thymin aber nicht anwendbar sind.
Das folgende Schema zeigt die möglichen Mutationen durch Desaminierung und die Folgen durch Reparatur der DNA bzw. durch dauerhafte Etablierung von Mutationen.
1. 2. 3.
|
Methyliert: |
m | m
a) --CpG-- Desaminierung --TpG-- häufig --CpG-- | → --CpG--
--GpC-- --GpC-- --GpC-- | --GpC--
m m m | m
|
|
b) selten --TpG-- | → --TpG--
--ApC-- | --ApC--
m |
Unmethyliert: |
|
c) --CpG-- Desaminierung --UpG-- sehr häufig --CpG-- |
--GpC-- --GpC-- --GpC-- |
|
|
|
d) sehr selten --UpG-- | → --TpG--
--ApC-- | --ApC--
|
Legende zum Schema: Dargestellt sind zwei CpG-Stellen, von denen sich eine in einem methylierten Bereich befindet [a) und b)], während die andere in einem unmethylierten Bereich – z. B. einer CpG-Insel – lokalisiert ist [c) und d)]. Die „auffälligen“ Nukleobasen sind fett hervorgehoben.
1. Eine Desaminierung führt zu einer neuen Base, so dass die komplementäre Basenpaarung an dieser Basenposition (fett markiert) aufgehoben wird.
2. Für die nachfolgende Wiederherstellung der komplementären Basenpaarung stehen jeweils zwei Varianten zur Verfügung, die mit unterschiedlicher Wahrscheinlichkeit verlaufen. Der Unterschied zwischen a) und b) mit häufig und selten kommt dadurch zustande, dass der gegenüberliegende Strang eine Methylierung des CpG aufweist. Dadurch wird dieser Strang in diesem Bereich vom DNA-Reparatursystem als „älterer“, konservierter Strang verstanden. Der größere Unterschied zwischen c) und d) mit sehr häufig und sehr selten geht darauf zurück, dass Uracil keine DNA-Base ist.
3. Im Anschluss an die mutativen Ereignisse werden gegebenenfalls falsche Methylierungen oder Nukleobasen ersetzt.
Bioinformatische Analyse
Verschiedene Algorithmen zur Identifikation von CpG-Inseln wurden beschrieben.<ref>Z. Zhao, L. Han: CpG islands: algorithms and applications in methylation studies. In: Biochemical and biophysical research communications. Band 382, Nummer 4, Mai 2009, S. 643–645, {{#invoke:Vorlage:Handle|f|scheme=doi|class=plainlinks|parProblem=Problem|errCat=Wikipedia:Vorlagenfehler/Parameter:DOI|errClasses=error editoronly|errHide=1|errNS=0 4 10 100}}, PMID 19302978, }} PMC 2679166 (freier Volltext{{#if:|, PDF}}).</ref>
Auffinden von CpG-Inseln mit Hilfe von Markow-Ketten
Eine Methode, die zur Auffindung von CpG-Inseln verwendet werden kann, sind Markow-Ketten. Bezeichnet <math>C^+_{st}</math> die Anzahl der st-Paare auf CpG-Inseln und <math>C^-_{st}</math> sonst (nicht CpG-Inseln) mit <math>s,t \in \{A,C,G,T\}</math>. Die Übergangswahrscheinlichkeiten werden über Maximum Likelihood berechnet: <math>a^+_{st}=\frac{C^+_{st}}{\sum_{t'}^{} C^+_{st'}}</math> und <math>a^-_{st}=\frac{C^-_{st}}{\sum_{t'}^{} C^-_{st'}}</math> Die Bestimmung basiert auf Sequenzabschnitten, von denen man weiß, ob es sich um CpG-Inseln handelt oder nicht. Gegeben sei nun eine unbekannte Sequenz X. Frage: „Handelt es sich um eine CpG-Insel?“ Bezeichnungen:
- P(+|X) Wahrscheinlichkeit, dass X CpG-Insel
- P(-|X) Wahrscheinlichkeit, dass X keine CpG-Insel
Zusätzlich wird eine Score-Funktion definiert: <math>S(X):=\log\left(\frac{P(+|X)}{P(-|X)}\right) = \begin{cases}>0, &\mbox{wenn CpG-Insel} \\<0, &\mbox{wenn keine CpG-Insel} \\ =0 & \mbox{nicht entscheidbar}\end{cases} </math>
Als „Prior“ wird die Gesamtlänge aller CpG-Inseln relativ zur Gesamtlänge des Genoms verwendet.
Auffinden von CpG-Inseln mit Hilfe des Hidden Markov Modells
CpG-Inseln können ebenfalls mithilfe des Hidden Markov Modells aufgefunden werden. Als sichtbare Zustände bezeichnet man hierbei die Basen (G,C,A,T) an den jeweiligen Stellen in der DNA-Sequenz. Der nicht-sichtbare Zustand sagt etwas darüber aus, ob diese Base Teil einer CpG-Insel ist oder nicht (+,-). Es gibt 4 mögliche Übergangswahrscheinlichkeiten:
<math> a_{st}= P(Z_{i}=t | Z_{i+1}=s) </math> <math> s, t \in\{+,-\} </math>.
Jeder versteckte Zustand s erzeugt mit einer Emissionswahrscheinlichkeit <math> e_{s}(b)</math> einen sichtbaren Zustand b (eine Base):
<math> e_{s}(b)=P(X_{i}=b | Z_{i}=s)</math>
Die Wahrscheinlichkeit, dass ein sichtbarer Zustand von einem versteckten Zustand emittiert wurde, ergibt sich demnach aus: <math> P(Z | X)=P(X | Z)*P(Z)/P(X)</math>
mit: <math> P(Z)=P(Z_{1}) {\prod_{i=2}^{N}{a_{Z_{i-1}}*Z_{i}} }=</math> <math> \prod_{i=1}^{N}{a_{Z_{i-1}}*a_{Z_{i}}}</math> (s. Markow-Kette)
Damit ergibt sich: <math> P(Z | X)=\frac{ \prod_{i=1}^{N}{a_{Z_{i-1}}*a_{Z_{i}}}*\prod_{i=1}^{N}{e_{Z}(X_{i})} }Vorlage:P(X) </math>
Da der Aufwand zur Maximierung von P(Z | X) mit der Länge der Sequenz exponentiell steigt, eignet sich der rekursive Viterbi-Algorithmus zur Lösung des Problems.
Einzelnachweise
<references />