Wie leistungsfähig ist KI in der Chemie?
Studie aus Jena vergleicht GPT-4 mit menschlichen Fachleuten
Eine aktuelle Studie von Forschenden der Friedrich-Schiller-Universität Jena hat untersucht, wie leistungsstark moderne KI-Modelle – darunter GPT-4 – in der Chemie sind und wie sie im Vergleich zu erfahrenen Chemikerinnen und Chemikern abschneiden. Das Team um Dr. Kevin M. Jablonka entwickelte hierfür das Prüfverfahren „ChemBench“ und veröffentlichte die Ergebnisse im Fachjournal „Nature Chemistry“.

ChemBench: Ein neues Testverfahren für Chemie-KI
Im Mittelpunkt der Untersuchung stand „ChemBench“, ein speziell entwickeltes Werkzeug, das reale, praxisrelevante Aufgaben aus der modernen Chemie enthält. Insgesamt wurden über 2.700 Fragen aus verschiedenen Bereichen – von organischer bis analytischer Chemie – integriert. Die Fragen deckten sowohl Grundlagenwissen als auch komplexe Problemstellungen ab und orientierten sich an gängigen Lehrplänen.
KI vs. Mensch: Ein fairer Vergleich
Die Leistung der KI-Modelle wurde mit der von 19 erfahrenen Fachleuten verglichen. Während die Menschen für einen Teil der Aufgaben auf Hilfsmittel wie Google oder chemische Programme zurückgreifen durften, mussten die KI-Modelle ausschließlich auf ihr zuvor erlerntes Wissen setzen. Zwei zusätzliche KI-Agenten mit Zugriff auf externe Tools schnitten schlechter ab als die besten reinen Sprachmodelle.
Auch interessant.
- „Universitas@Jena“ – Rund sechs Millionen Euro Förderung für die Uni Jena
- Kartenvorverkauf für das Uni-Sommerfest am 27.06.2025 ist gestartet
- 4. MINT-Festival Jena im September mit doppelter MINT-Power

Stärken und Schwächen der KI-Modelle
„Bei sehr anspruchsvollen Fragen aus Lehrbüchern zeigten einige KI-Modelle eine bessere Leistung als menschliche Expertinnen und Experten“, so Jablonka. Besonders bei standardisierten Aufgaben konnten sie überzeugen. Ein Problem zeigte sich jedoch bei der Einschätzung der eigenen Antwortsicherheit: Während Menschen Unsicherheiten offen zugaben, gaben KI-Modelle häufig falsche Antworten mit hoher Selbstsicherheit.
Veranstaltungshinweis:
Neue Fototour Jena – über den Dächern der Stadt
Risiken bei der Interpretation chemischer Strukturen
Ein besonders kritischer Bereich war die Interpretation chemischer Strukturen, etwa bei der Vorhersage von NMR-Spektren. Hier machten die KI-Modelle teilweise grundlegende Fehler, wirkten aber zugleich sehr überzeugt von ihren Antworten. Die Fachleute dagegen gingen vorsichtiger vor und hinterfragten ihre eigenen Schlussfolgerungen – ein Verhalten, das in sensiblen Bereichen der Forschung von großer Bedeutung ist.
KI als Partner, nicht als Ersatz
„Unsere Forschung zeigt, dass KI eine wertvolle Ergänzung zur menschlichen Expertise sein kann – nicht als Ersatz, sondern als Unterstützung“, resümiert Dr. Jablonka. Die Studie legt damit einen wichtigen Grundstein für die künftige Zusammenarbeit von Mensch und Maschine in der Chemie.
Veranstaltungen im Eventkalender >>
Info, Marco Körner // UNI Jena
Fotografik: Jens Meyer // UNI Jena und Illustration via Pixabay