Laut Ergebnissen, die am 8. Oktober veröffentlicht wurden, könnte ChatGPT die medizinische Bildgebung in der Notaufnahme zu stark verschreiben Naturkommunikation.
Forscher unter der Leitung von Christopher Williams, MD, von der University of California, San Francisco, fanden heraus, dass ChatGPT tendenziell unnötige Notfallmedizin und -versorgung, einschließlich Bildgebung, empfiehlt und weniger genau ist als Anwohner.
„Bevor große Sprachmodelle in die klinische Umgebung integriert werden können, ist es wichtig, sowohl ihre Fähigkeiten als auch ihre Grenzen vollständig zu verstehen“, schrieben Williams und Kollegen. „Andernfalls besteht die Gefahr unbeabsichtigter schädlicher Folgen, insbesondere wenn Modelle in großem Maßstab eingesetzt werden.“
Große Sprachmodelle werden weiterhin von medizinischen Forschern auf ihren Nutzen in der Klinik untersucht. In der Radiologie haben die Leistungen dieser Modelle gemischte Ergebnisse gezeigt. Während die Modelle genaue radiologische Berichte erstellen und Informationen für Patienten bereitstellen können, haben sie bei Borduntersuchungen auch schlechte Leistungen erbracht und Antworten mit Fachsprache erzeugt, die für Patienten nicht leicht zu verstehen ist. Eine von Williams et al. durchgeführte Studie zeigte, dass ChatGPT etwas besser bei der Entscheidung ist, welcher der beiden Notfallpatienten am akutsten krank war.
Skeptiker sagen jedoch, dass man sich nicht zu sehr auf diese Chatbots verlassen sollte, da sie bei medizinischen Empfehlungen keine vollkommene Genauigkeit bieten.
Williams und Co-Autoren ließen ChatGPT Empfehlungen geben, die ein Arzt nach der ersten Untersuchung eines Patienten in der Notaufnahme aussprechen würde. Dazu gehört die Entscheidung, ob der Patient aufgenommen, Röntgenuntersuchungen oder andere bildgebende Untersuchungen durchgeführt oder Antibiotika verschrieben werden sollen.
Für jede dieser Entscheidungen kuratierten die Forscher eine Reihe von 1.000 Besuchen in der Notaufnahme. Diese Sätze hatten das gleiche Verhältnis von „Ja“ zu „Nein“-Antworten bei Entscheidungen zu Aufnahme, Radiologie und Antibiotika. Das Team gab ärztliche Notizen zu den Symptomen und Untersuchungsergebnissen jedes Patienten in ChatGPT-3.5 und ChatGPT-4 ein. Anschließend testete es die Genauigkeit jedes Satzes mit einer Reihe von vier immer detaillierteren Eingabeaufforderungen und verglich sie mit der Genauigkeit der Assistenzärzte.
Die Antworten der Bewohner erreichten eine geringere Sensitivität, aber eine höhere Spezifität als die von ChatGPT-3.5. Das Team beobachtete ähnliche Trends beim Vergleich der Antworten von ChatGPT-4 mit den Antworten der Bewohner, mit Ausnahme der Aufgabe zum Antibiotika-Verschreibungsstatus, bei der dieser Chatbot eine höhere Spezifität, aber eine geringere Sensitivität zeigte.
Außerdem zeigten beide Versionen von ChatGPT im Vergleich zu den Bewohnern größtenteils eine schlechtere Leistung, wenn es um die Genauigkeit der Empfehlungen ging. ChatGPT-4 erreichte jedoch eine höhere Genauigkeit als die Assistenzärzte, wenn es um die Aufgabe zum Antibiotika-Verschreibungsstatus ging.
Genauigkeit von ChatGPT in Empfehlungen der Notaufnahme | |||
---|---|---|---|
Genauigkeitsmaß (mit 1 als Referenz) | Bewohner | ChatGPT-3.5 (Bereich) | ChatGPT-4 (Bereich für Zulassungsstatus) |
Zulassungsstatus | 0,83 | 0,29 bis 0,53 | 0,43 bis 0,58 |
Radiologische Untersuchung | 0,78 | 0,68 bis 0,71 | 0,74 |
Antibiotika-Verschreibungsstatus | 0,79 | 0,35 bis 0,43 | 0,83 |
Die Ergebnisse bedeuten, dass ChatGPT-4 und ChatGPT-3.5 8 % bzw. 24 % weniger genau sind als niedergelassene Ärzte.
Die Studienautoren betonten, dass ihre Ergebnisse darauf hindeuten, dass große Sprachmodelle „übervorsichtig“ seien, was eine höhere Rate falsch-positiver Fälle zur Folge habe.
„Ein solcher Befund ist angesichts der Notwendigkeit, sowohl der Verfügbarkeit von Krankenhausressourcen Priorität einzuräumen als auch die gesamten Gesundheitskosten zu senken, problematisch“, schrieben sie.
Die Autoren kamen zu dem Schluss, dass diese Chatbots zwar vielversprechende erste Anzeichen hinsichtlich ihres klinischen Nutzens gezeigt haben, es aber noch viel Raum für Verbesserungen gibt. Dies gilt insbesondere für die Bearbeitung zunehmend komplexer werdender Aufgaben.
Die vollständigen Ergebnisse finden Sie hier.