ÖAZ

09. März 2026

Artikel drucken

Eine Studie in Nature Medicine deutet darauf hin, dass die Kommunikation zwischen Sprachmodellen und Nutzenden bei medizinischen Fragen fehleranfällig ist.

In Anfragen fehlen oft wichtige Informationen, während Antworten unvollständig sind oder missverstanden werden. Obwohl Sprachmodelle in Benchmarks gut abschneiden, lassen sich diese Ergebnisse nicht direkt auf reale Gespräche übertragen. In der Studie entwickelten Teams zehn fiktive Fallbeispiele und passende Verdachtsdiagnosen. Rund 1.000 britische Freiwillige wurden drei Chatbots oder einer Kontrollgruppe mit klassischer Recherche zugeteilt. Die Teilnehmenden sollten Diagnosen und Handlungsschritte ermitteln.

Die Kontrollgruppe lag dabei häufiger richtig, während alle Gruppen oft falsche Folgeschritte wählten und die Dringlichkeit unterschätzten. Analysen der Chatverläufe zeigten, dass Chatbots teils korrekte Diagnosen nannten, diese aber nicht genutzt wurden. Mit vollständigen Fallinformationen lieferten die Modelle bessere Ergebnisse, ebenso wenn sie Nutzende simulierten. „Die Ergebnisse lassen sich größtenteils durch Interaktionsfehler und nicht durch menschliche Inkompetenz erklären: Die Nutzenden haben Schwierigkeiten mit der Auswahl der anzugebenden Informationen, der Formulierung von Suchanfragen und der Bewertung und Umsetzung der Ergebnisse.

Ein medizinischer Chatbot müsste mehr können als nur Fragen beantworten, wenn er als erste Kontaktstelle nützlich sein soll. Er sollte die Nutzenden dazu anleiten, vollständige Informationen anzugeben, und gegebenenfalls Folgefragen stellen, wenn etwas fehlt. In der Praxis könnte er insbesondere für risikoarme Ratschläge verwendet werden“, so Prof. Dr. Iryna Gurevych, Professorin für Ubiquitous Knowledge Processing an der Technischen Universität Darmstadt.

Quelle
Bean AM, et al.: Nature Medicine 2026; 32: 609-615