
In ihrer Studie mit dem Titel „Scalable emulation of protein equilibrium ensembles with generative deep learning“ stellen die Wissenschaftler:innen BioEmu vor – ein generatives Deep-Learning-System, das das Gleichgewichtsverhalten von Proteinen mit bislang unerreichter Präzision und Genauigkeit nachbildet.
Da die Funktion vieler Proteine unmittelbar von ihrer dynamischen Struktur abhängt, eröffnet BioEmu neue Perspektiven für die Entwicklung von Wirkstoffen und könnte künftig die Erfolgsquote klinischer Studien verbessern.
Das KI-System BioEmu ist in der Lage, tausende statistisch unabhängiger Proteinstrukturen pro Stunde auf nur einer einzelnen Grafikkarte (GPU) zu generieren. „Damit sinken die Kosten und der Zeitaufwand erheblich, um funktionell relevante Strukturveränderungen zu analysieren“, erklärt Prof. Dr. Frank Noé, Honorarprofessor an der Freien Universität Berlin und Leiter der Studie. Durch die Kombination von über 200 Millisekunden molekulardynamischer Simulationen mit experimentellen Daten kann BioEmu Struktur-Ensembles und thermodynamische Eigenschaften mit nahezu experimenteller Genauigkeit vorhersagen.
Besonders bemerkenswert ist die Fähigkeit des Systems, komplexe und biologisch relevante Strukturveränderungen zu identifizieren – etwa versteckte Bindungstaschen, Bewegungen ganzer Protein-Domänen oder lokale Entfaltungen. Selbst Veränderungen in der Proteinstabilität kann BioEmu mit einer Genauigkeit prognostizieren, die der von Laboranalysen nahekommt. „Das eröffnet einen skalierbaren Ansatz zur großflächigen Modellierung von Proteinfunktionen – etwa auf genomischer Ebene“, betont Prof. Dr. Cecilia Clementi, Inhaberin einer Einstein-Professur an der Freien Universität Berlin.
Sowohl die Technologie als auch der vollständige Quellcode von BioEmu sind unter der MIT-Lizenz frei verfügbar. Zusätzlich hat Microsoft Research den umfangreichen Datensatz veröffentlicht, der für die Entwicklung von BioEmu verwendet wurde: Mit über 100 Millisekunden an Simulationen, verteilt auf tausende verschiedene Proteinsysteme, stellt dieser Datensatz die bislang größte öffentlich zugängliche Sammlung sequenzdiverser Proteinsimulationen dar.