Nervenheilkunde 2023; 42(10): 727-731
DOI: 10.1055/a-2106-0196
Geist & Gehirn

Das funktionelle Unbekanntom

Unwissenheit explizieren, um Forschung zu expandieren
Manfred Spitzer

Zugegeben, im Englischen klingt es besser: „Functional Unknomics“ [16]. Gemeint sind damit diejenigen der etwa 20 000 menschlichen Proteine, über die man nichts weiß, und um die es in einer spannenden, in PLoS Biology am 8. August 2023 erschienenen Arbeit geht. Aus der bloßen Existenz dieser Eiweißkörper kann man auf jeden Fall eines schließen: Für irgendetwas müssen sie gut sein, denn sonst wären sie nicht da. Die Evolution verschwendet weder Material noch Energie zum Bau von komplexen Molekülen, die der Organismus nicht braucht. Hinzu kommt, dass manche dieser Proteine evolutionär erstens recht alt und zweitens wichtig sein müssen, weil sie in vielen anderen Arten vorkommen.

Seit der ersten, noch recht „grobkörnigen“ Entschlüsselung[ 1 ] des menschlichen Genoms vor mehr als 20 Jahren [10] kennt man zwar viele Proteine, aber die Rate derer, deren Funktionen neu aufgeklärt werden, nimmt eher ab, wie der fast mystisch klingende Titel einer bereits vor 5 Jahren im Fachblatt Proteomics erschienenen Arbeit andeutet: Dunkelheit im menschlichen Gen- und Proteinfunktionsraum: weithin bescheidene oder fehlende Erhellung durch die biowissenschaftliche Literatur und der Trend zu weniger Proteinfunktionsentdeckungen seit 2000 [18]. Die Autoren dieser Arbeit legten eine quantitative Auswertung hierzu vor, die ergab, dass 95 % aller Publikationen in den Lebenswissenschaften sich auf weniger als 5000 gut bekannte Proteine beziehen. 10 Jahre nach der Entschlüsselung des menschlichen Genoms (von der man annahm, dass sie zu einer starken Ausweitung der Forschung zu neuen Genen und Proteinen führen würde) bezogen sich 75% der Publikationen auf die 10 % der Proteine, die bereits zuvor bekannt waren. Dies beklagten kanadische und US-amerikanische Wissenschaftler in einem Kommentar im Fachblatt Nature, der mit Too many roads not taken überschrieben war [4].

Das Ganze ist keineswegs ein rein akademisches oder grundlagenwissenschaftliches Problem: Viele Medikamente wirken, indem sie an Proteine andocken und dadurch deren Funktion modifizieren. Unentdeckte bzw. unbekannte Proteine, die noch etwa ein Drittel des menschlichen Proteoms ausmachen, könnten den Wirkungsmechanismus vieler Medikamente besser verständlich machen und damit zur Entwicklung neuer Medikamente führen [14]. Diese Datenlage veranlasste die US-amerikanische nationale Gesundheitsbehörde (National Institutes of Health, NIH) vor etwa 5 Jahren zur vollen Implementierung des seit 2014 bestehenden Pilotprogramms Illuminating the Druggable Genome im Jahr 2018 [16].[ 2 ] Andere Autoren sprechen davon, dass nur etwa 2000 der etwa 20 000 menschlichen Proteine im Fokus der Forschung stehen [20].

Die Autoren der Plos Biology Arbeit zu „Functional Unknomics“ führen die Bevorzugung bereits bekannter Proteine, bzw. die teilweise Blindheit der biologischen Forschung gegenüber unbekannten Proteinen auf mehrere Faktoren zurück: „Es liegt auf der Hand, dass Finanzierungs- und Begutachtungssysteme eher die Erforschung von Proteinen unterstützen, deren funktionelle oder klinische Bedeutung bereits nachgewiesen ist“ [16]. Kurz: Wenn man tut, was alle tun, hat man ein geringeres Risiko, völlig falsch zu liegen und damit Zeit und Geld zu verschwenden. So einleuchtend das klingt, in der Wissenschaft ist es langfristig fatal, wenn alle so denken (was leider einem langjährigen Trend entspricht, wie man im Fachblatt Nature vor gar nicht allzu langer Zeit lesen konnte [15]).

Das Problem verschwindet nicht von allein, sondern scheint zuzunehmen. Einige Autoren halten es für einen Fall von Streetlight-Effekt: Man sucht nicht dort, wo man etwas verloren hat oder vermutet, sondern dort, wo am meisten Licht ist.[ 3 ] Bewirkt wird dies durch die routinemäßige Verwendung von Big Data bei der genetischen Forschung: Man verwendet Datenbanken wie Gene Ontology (GO), Reactome, Comparative Toxicogenomics Database (CTD), DrugBank, Protein Data Bank (PDB), Pubpular oder NCBI GeneRIF, um die Funktionen von Gensequenzen zu identifizieren. Diese Datenbanken sammeln jedoch genau das, was schon publiziert ist, d. h. jede auf ihnen basierende Suche erfolgt dort, wo das Licht der Erkenntnis bereits leuchtet, und schließt damit systematisch genau das aus, was noch nicht gefunden wurde. Umgekehrt werden dadurch die bereits untersuchten Gene noch besser untersucht, und es entsteht eine Art negativer „hermeneutischer Zirkel“ – mit dem Effekt, dass man nur findet, was alle schon gefunden haben [8].

Wie aber findet man das Unbekannte? – Hier ist zunächst einmal das bekannte Unbekannte vom unbekannten Unbekannten zu unterscheiden ([ Abb. 1 ]). Diese Unterscheidung geht auf den libanesischen ehemaligen Finanzmathematiker und gegenwärtigen Wissenschaftler und Publizisten Nassim Nicholas Taleb zurück, der sich mit den Methoden der Berechnung und Interpretation von Zufallsereignissen und dem Umgang mit besonders seltenen unvorhergesehenen, aber bedeutsamen (wirkmächtigen) Ereignissen beschäftigt hat. Er hat für solche Ereignisse den Namen „Schwarzer Schwan“ populär gemacht – nicht zuletzt in seinem Bestseller mit dem gleichen Titel. Die in Abb. 1 dargestellte Einteilung zu Sachverhalten und unserem Wissen über sie ist selbst kein objektiver Sachverhalt, denn sie hängt von unserem Wissen ab. Dieses kann sich erstens ändern und zweitens ist es nicht bei jedem gleich: Was heute unbekannt ist (eine neue Art in der Tiefsee), kann morgen wahrscheinlich (bekanntes Unwissen) sein (Foto einer Unterwasserkamera) und sich übermorgen (weitere Fotos und genetische Analysen) bereits in bekanntes Wissen verwandeln. Wissenschaft schafft Wissen.[ 4 ]

Zoom Image
Abb. 1 Kenntnismatrix, die auf die Sozialpsychologen Joseph Luft und Harry Ingham [12] zurück geht und – nach einem Mix aus ihren Vornamen – auch Johari-Fenster genannt wird. Will man Handlungen begründen, kann man dies mit bekannten Fakten und Ursache-Wirkungs-Zusammenhängen tun, sich also auf bekanntes Wissen beziehen. Zum unbekannten Wissen zählen statistische Zusammenhänge, die man nicht weiter begründen kann. Aber es gibt sie: Die Risiken, an einem Verkehrsunfall oder Flugzeugabsturz zu sterben, gehören zu unserem Wissen; wann so etwas eintritt, weiß man jedoch nicht. Das bekannte Unwissen hingegen beschreibt Fälle wie beispielsweise Gegenstände der aktuellen Forschung (wenn man das wüsste, würde man nicht von Forschung sprechen) oder die Dunkelziffer bei Kriminalität oder Rauschmittelmissbrauch: Wir wissen, dass es eine Dunkelziffer gibt, aber wir kennen sie nicht (sonst läge sie nicht im Dunkeln). Und dann gibt es noch das unbekannte Unwissen, z. B. einen möglichen Kometeneinschlag oder andere extrem seltene Zufälle betreffend.

Die Autoren der neuen Studie untersuchten Gene mit unbekannter Funktion zunächst im Hinblick auf den Grad der Unbekanntheit der von ihnen kodierten Proteine. Sie untersuchten also nicht die Funktion selbst, sondern deren (Un-)Bekanntheit! Hierzu verwendeten sie Daten der weit verbreiteten Datenbank GO, in der verzeichnet ist, was Wissenschaftler zu verschiedensten Genen und Proteinen zusammengetragen haben. Weil alle eukaryontischen[ 5 ] Lebewesen sehr viel „biologische Maschinerie“ gemeinsam haben, ist es sinnvoll, deren Genetik (Genom) und Proteine (Proteom) auch über die verschiedensten Arten hinweg vergleichend zu untersuchen. Hierzu wurde 2000 die genannte Datenbank GO ins Leben gerufen, wie im Fachblatt Nature Genetics berichtet wurde [1]. Zur besseren Erforschung der biologischen Rolle von Proteinen in einem bestimmten Organismus kann mit ihrer Hilfe oft auf andere Organismen und das Wissen über sie zurückgegriffen werden. Das Ziel der Datenbank Go und des dafür gegründeten Konsortiums war es, „ein dynamisches, kontrolliertes Vokabular zu erstellen, das auf alle Eukaryonten angewendet werden kann, auch wenn sich das Wissen über die Rolle von Genen und Proteinen in Zellen ständig erweitert und verändert“, charakterisieren die Autoren ihre Bemühungen [1]. Um dieses Ziel zu erreichen, wurden 3 unabhängige Ontologien die über das World-Wide-Web allen Wissenschaftlern frei zugänglich sind [7].

  • zum biologischen Prozess,

  • zur molekularen Funktion und

  • zur zellulären Komponente entworfen,

Man konnte nun dieses Wissen nutzen, um Gene zu finden, zu denen fast nichts oder gar nichts zum Wissen um ihre Funktion existiert, und um auf diese Weise eine Unbekanntheits-Datenbank menschlicher Proteine zu erstellen, die mittlerweile publiziert und für alle zugänglich ist (Unknome database; http://unknome.org). In ihr kann man nach Proteinen suchen, die zwar einerseits kaum oder gar nicht bekannt sind, jedoch andererseits evolutionär sehr konserviert sind, also in vielen heute existierenden Lebewesen vorkommen. Die Suchkriterien, um unbekanntes Interessantes zu finden, bestanden also in bisheriger Unbekanntheit und hohem Grad der Konservierung.

Wie aber definiert man „unbekannt“? Um Proteinen einen Bekanntheitsgrad zuzuweisen, genügt die subjektive Bewertung definitiv nicht, denn „bekannt“ kann alles meinen, von „hat wahrscheinlich die Wirkung X“ bis hin zu „hat den molekularen Wirkungsmechanismus Y“. Dazwischen liegt, wie man gerne sagt, ein weites Feld! Man benötigte daher klare Kriterien für „bekannt“. Dieses Problem lösten die Autoren dadurch, dass sie die Annotationen von Proteinfunktionen in der Datenbank GO zählten – und nichts weiter.

Aber ist das hierdurch gefundene Unbekannte wirklich interessant? Um hier weiterzukommen, verwandten die Autoren einen Trick: Sie suchten 260 Proteine aus, die bei der Fruchtfliege (Drosophila melanogaster) und beim Menschen vorkommen, deren Funktion (bei Mensch und Drosphila) aber unbekannt war. Sie verwendeten die Methode der RNA-Interferenz, die auch als posttranskriptionelles Gene-Silencing bezeichnet wird. Hierbei handelt es sich um einen in den Zellen von Eukaryonten vorkommenden natürlichen Mechanismus, durch den ganz gezielt einzelne Gene abgeschaltet werden können. Dieses Abschalten nennt man „Silencing“, was man mit „Stilllegen“ übersetzen könnte. Als Folge der Stilllegung wird die mRNA in Bruchstücke gespalten und die zu übertragende Information damit zerstört. Die Proteine können somit nicht mehr produziert werden, d. h. deren Translation wird verhindert.

TRANSKRIPTION UND TRANSLATION; MRNA UND IRNA

Bekanntermaßen müssen Gene zunächst „eingeschaltet“ werden, um ihre Funktionen zu entfalten. Hierzu wird die Erbinformation (DNA) zunächst in RNA „abgeschrieben“. Dieses Abschreiben nennt man Transkription. Weil diese damit die Informationen („Nachrichten“, engl. „message“) enthält, um Proteine herzustellen, wird sie auch als messenger-RNA (kurz: mRNA) bezeichnet. Im Normalfall werden die mRNA-Informationen dann von den Ribosomen verwendet, um Aminosäuren aneinanderzuhängen und um auf diese Weise Proteine „zusammenzuhäkeln“ wie eine Schnur. Dieses Zusammenhäkeln nennt man Translation.

Beim posttranskriptionellen Gene-Silencing werden also Gene, die bereits abgelesen sind, um Proteine zu erzeugen, wieder stillgelegt, indem sie zielgerichtet abgeschaltet werden. Dies geschieht durch kurze RNA-Moleküle, die sich an die mRNA anlagern und diese dadurch an ihrer Funktion hindern. Man sagt auch, dass sie mit der Funktion interferieren, weswegen man diesen Typ RNA auch als iRNA bezeichnet. Aber wozu das alles – und warum so kompliziert? Mit iRNA lässt sich die Funktion von Genen noch beeinflussen, wenn sie schon abgelesen sind, was in der Natur vielfach vorkommt (siehe Haupttext).

In den Biowissenschaften hat sich das Stilllegen einzelner Gene durch RNA-Interferenz („Gen-knock-down“) seit Jahren als eine neue Möglichkeit zur Untersuchung der Funktion von Genen und deren Genprodukten etabliert. Dieser Mechanismus wurde ursprünglich beim Facenwurm C. elegans von den US-Wissenschaftlern Andrew Z. Fire und Craig C. Mello entdeckt [27], wofür sie im Jahr 2006 den Nobelpreis für Physiologie und Medizin erhielten.[ 6 ] Durch zielgerichtetes Abschalten einzelner Gene lässt sich auch ganz einfach untersuchen, ob das, was sie kodieren, zum Leben gebraucht wird. Zurück zu den 260 Drosophila-Proteinen mit unbekannter Funktion, die auch beim Menschen vorhanden sind. Wie sich zeigte, war das Abschalten von 62 dieser Proteine (24 % der 260) mit dem Leben nicht vereinbar. Das ist bemerkenswert, wenn man bedenkt, dass über Drosophila seit Jahrzehnten vielfach geforscht wird. Zudem gehen die Autoren aus verschiedenen Gründen davon aus, dass die Letalität mit ihrer Methode eher unter- als überschätzt wird.[ 7 ]

„Natürlich ist mehr am Leben dran als nur am Leben zu sein,“ fahren die Autoren in ihrer Arbeit fort[ 8 ] [16] und untersuchten die anderen 198 Gene, deren Ausfall zwar nicht zum Tode führt, aber vielleicht zugleich auch nicht folgenlos ist. Sie führten dazu 7 recht komplexe Untersuchungen zu unterschiedlichen wichtigen biologischen Funktionen durch, die nicht zu den üblichen Standardverfahren zum genetischen Screening gehörten und zum Teil neu entwickelt werden mussten. Bei diesen Funktionen handelte es sich um weibliche und männliche Fruchtbarkeit, gewebliches Wachstum, Protein-Qualitätskontrolle, Resilienz gegenüber oxidativem Stress und Stress durch reduzierte Nahrung sowie motorische Fähigkeiten. „In der Praxis bedeutete dies, phänotypische Screens zu entwerfen, die komplexer waren als üblich. Wir hofften, auf diese Weise einen größeren Anteil von Genen zu identifizieren, die in den üblichen Drosophila-Screens nicht gefunden wurden“, beschreiben die Autoren ihr Vorgehen. Und tatsächlich wurden sie bei weiteren 59 Genen fündig:

2 Gene reduzierten die weibliche Fruchtbarkeit, 7 Gene führten zu nahezu vollständiger männlicher Sterilität und 5 weitere zu reduzierter männlicher Fruchtbarkeit. Weitere Gene betrafen das Wachstum und die Entwicklung sowie die „Qualitätskontrolle“ und die Reaktion auf Stress. Störungen dieser Prozesse fallen nur dann auf, wenn man wirklich genauer hinschaut, weswegen die Autoren genau hier suchten: „[Wir hatten die] Vermutung, dass eine unverhältnismäßig hohe Anzahl der unbekannten Gene an der Qualitätskontrolle und an Stressreaktionen beteiligt sein könnte, die bei vielen traditionellen experimentellen Ansätzen wahrscheinlich übersehen wurden“ [16]. Manche der für Qualitätskontrolle (produzierter Proteine) zuständigen Gene führen in der Säugetierversion zu neurodegenerativen Erkrankungen, was das Vorgehen der Autoren sehr deutlich validiert. 8 Gene standen im Zusammenhang mit Stress durch Nahrungsreduktion und 11 Gene drehten sich um oxidativen Stress. 6 weitere Gene führten beim Ausschalten zu motorischen Störungen.

In ihrer Diskussion gehen die Autoren nochmals auf die Besonderheit ihres methodischen Vorgehens ein: Sie verwendeten Werkzeuge der Bioinformatik, um zunächst einmal herauszufinden, wo andere Wissenschaftler noch nicht gesucht hatten. Sie befassten sich also zunächst mit dem Suchraum, und nicht mit dem, was man in ihm sucht. Hierzu ist anzumerken, dass genau hier auch Künstliche Intelligenz in sehr unterschiedlichen wissenschaftlichen Kontexten wichtige Beiträge geliefert hat [19]: Durch ihre geschickte Anwendung lässt sich der Suchraum verkleinern, was im Falle von Grenzkontrollen in Griechenland während der Corona-Pandemie zu einer Verdopplung der Aufklärungsrate von Corona-Tests [2] und im Falle der Suche nach neuen Antibiotika gegen resistente Keime zu einer Verkleinerung des Suchraums auf ein Millionstel seiner ursprünglichen Größe geführt und damit die Suche überhaupt erst ermöglicht und zum Erfolg geführt hat [21].

Die Bedeutung des verbesserten Suchens für das Finden ist für die Autoren der wesentliche Punkt ihrer Arbeit, wie sie gegen Ende der Diskussion nochmals betonen: „Am wichtigsten ist vielleicht, dass unsere Datenbank eine leistungsfähige, vielseitige und effiziente Plattform für die Identifizierung und Auswahl wichtiger Gene mit unbekannter Funktion bietet, wodurch die Schließung der Lücke im biologischen Wissen, die das Unknown darstellt, beschleunigt wird. In praktischer Hinsicht stellt diese Datenbank eine Ressource für Forscher dar, welche die mit unerforschten Bereichen der Biologie verbundenen Möglichkeiten nutzen wollen. Solche Vorhaben sind natürlich mit einem gewissen Risiko verbunden, da die Ergebnisse ungewiss sind, und es gibt Hinweise darauf, dass Nachwuchswissenschaftler mit geringerer Wahrscheinlichkeit etablierte Wissenschaftler (principle investigator) werden, wenn sie an Genen arbeiten, die wenig beachtet wurden“ [16]. Sie halten daher „die Anerkennung und Bewertung von Unwissenheit für einen wichtigen Faktor bei Entscheidungen über die relative Priorität, die der Beantwortung der verbleibenden grundlegenden Fragen in der Biologie gegenüber der Umsetzung und Nutzung des vorhandenen Wissens eingeräumt wird“ [16]. Die Tatsache, dass während des Entstehens ihrer Arbeit eine ganze Reihe der unbekannten Gene genauer charakterisiert werden konnten, und die von den Autoren generierten Erkenntnisse – wie sie zeigen – sich vielfach nahtlos in dieses neue Wissen integrieren ließen, spricht eindeutig für das von ihnen gewählte Vorgehen. Kennt man erst einmal das Unbekanntom, kann man es untersuchen – und damit definitionsgemäß verkleinern.

Solange man dagegen in der Genforschung nur auf die Ausweitung bekannter Methoden mit immer mehr Daten setzt, die zudem weitgehend automatisiert (beispielsweise mittels Künstlicher Intelligenz) produziert und in das vorhandene Wissen integriert werden, handelt man sich den Autoren zufolge die Gefahr ein, dass sich falsche, widersprüchliche oder oberflächliche Ergebnisse einschleichen, die in absehbarer Zeit kaum Aussicht auf Korrektur haben. Die systemimmanente Bevorzugung bekannter Gene behindert daher eher den Forschungsfortschritt. „Zusammenfassend stellen wir fest, dass die genaue Bewertung der Unkenntnis über die Genfunktion eine wertvolle Ressource für die Ausrichtung biologischer Studien darstellt und sogar wichtig für die Festlegung von Strategien zur effizienten Finanzierung der Wissenschaft sein kann“ [16]. Big Science kostet eben Big Money. Je bürokratisierter die Forschungsförderung, desto eher werden Großprojekte mit geringem Risiko (aber auch geringem wirklichen Erkenntniszuwachs) gefördert. Aus meiner Sicht ist es sehr erfrischend, wie hier ein David durch sehr klare Gedanken zu seiner Unwissenheit gegen den Goliat der etablierten Big Science sehr erfolgreich antritt. Wissenschaft lebt vom Risiko, sich mit Unbekanntem zu beschäftigen. Die Strategie, erstmal aus unbekanntem Unbekanntem bekanntes Unbekanntes zu machen und dieses dann genauer zu untersuchen, ist durchaus mit Risiko verbunden. Aber wie heißt es so schön: No risk, no gain.



Publication History

Article published online:
09 October 2023

© 2023. Thieme. All rights reserved.

Georg Thieme Verlag KG
Rüdigerstraße 14, 70469 Stuttgart, Germany