Wie leistungsfähig ist KI in der Chemie?

Studie aus Jena vergleicht GPT-4 mit menschlichen Fachleuten

Eine aktuelle Studie von Forschenden der Friedrich-Schiller-Universität Jena hat untersucht, wie leistungsstark moderne KI-Modelle – darunter GPT-4 – in der Chemie sind und wie sie im Vergleich zu erfahrenen Chemikerinnen und Chemikern abschneiden. Das Team um Dr. Kevin M. Jablonka entwickelte hierfür das Prüfverfahren „ChemBench“ und veröffentlichte die Ergebnisse im Fachjournal „Nature Chemistry“.

Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern. (Foto: Jens Meyer/Universität Jena).
Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern. (Foto: Jens Meyer/Universität Jena).

ChemBench: Ein neues Testverfahren für Chemie-KI

Im Mittelpunkt der Untersuchung stand „ChemBench“, ein speziell entwickeltes Werkzeug, das reale, praxisrelevante Aufgaben aus der modernen Chemie enthält. Insgesamt wurden über 2.700 Fragen aus verschiedenen Bereichen – von organischer bis analytischer Chemie – integriert. Die Fragen deckten sowohl Grundlagenwissen als auch komplexe Problemstellungen ab und orientierten sich an gängigen Lehrplänen.

➤ Veranstaltungen in Jena

Keine Veranstaltung gefunden
Weitere laden

KI vs. Mensch: Ein fairer Vergleich

Die Leistung der KI-Modelle wurde mit der von 19 erfahrenen Fachleuten verglichen. Während die Menschen für einen Teil der Aufgaben auf Hilfsmittel wie Google oder chemische Programme zurückgreifen durften, mussten die KI-Modelle ausschließlich auf ihr zuvor erlerntes Wissen setzen. Zwei zusätzliche KI-Agenten mit Zugriff auf externe Tools schnitten schlechter ab als die besten reinen Sprachmodelle.

Auch interessant.

Wie gut sind KI-Modelle wie GPT-4 wirklich in der Chemie? Illustration via Pixabay
Wie gut sind KI-Modelle wie GPT-4 wirklich in der Chemie? Illustration via Pixabay

Stärken und Schwächen der KI-Modelle

Bei sehr anspruchsvollen Fragen aus Lehrbüchern zeigten einige KI-Modelle eine bessere Leistung als menschliche Expertinnen und Experten“, so Jablonka. Besonders bei standardisierten Aufgaben konnten sie überzeugen. Ein Problem zeigte sich jedoch bei der Einschätzung der eigenen Antwortsicherheit: Während Menschen Unsicherheiten offen zugaben, gaben KI-Modelle häufig falsche Antworten mit hoher Selbstsicherheit.

Veranstaltungshinweis:

Neue Fototour Jena – über den Dächern der Stadt

Fototour „Über den Dächern von Jena“ am Samstag, 20.09.2025, Foto: Frank Liebold // Jenafotografx
Fototour „Über den Dächern von Jena“, Foto: Frank Liebold // Jenafotografx

Du wolltest Jena schon immer einmal aus einer anderen Perspektive fotografieren? Dann nutze doch die Gelegenheit. Ich lade Dich zu einem gemeinsamen Fotowalk „Über den Dächern Jenas“ ein.

Risiken bei der Interpretation chemischer Strukturen

Ein besonders kritischer Bereich war die Interpretation chemischer Strukturen, etwa bei der Vorhersage von NMR-Spektren. Hier machten die KI-Modelle teilweise grundlegende Fehler, wirkten aber zugleich sehr überzeugt von ihren Antworten. Die Fachleute dagegen gingen vorsichtiger vor und hinterfragten ihre eigenen Schlussfolgerungen – ein Verhalten, das in sensiblen Bereichen der Forschung von großer Bedeutung ist.

KI als Partner, nicht als Ersatz

„Unsere Forschung zeigt, dass KI eine wertvolle Ergänzung zur menschlichen Expertise sein kann – nicht als Ersatz, sondern als Unterstützung“, resümiert Dr. Jablonka. Die Studie legt damit einen wichtigen Grundstein für die künftige Zusammenarbeit von Mensch und Maschine in der Chemie.

Veranstaltungen im Eventkalender >>
Info, Marco Körner // UNI Jena
Fotografik: Jens Meyer // UNI Jena und Illustration via Pixabay