KI-Modelle haben in realen medizinischen Gesprächen Schwierigkeiten

KI-Modelle haben in realen medizinischen Gesprächen Schwierigkeiten
KI-Modelle haben in realen medizinischen Gesprächen Schwierigkeiten
-

Künstliche Intelligenz-Tools wie ChatGPT werden für ihr Versprechen gepriesen, die Arbeitsbelastung von Ärzten zu verringern, indem sie Patienten triagieren, ihre Krankengeschichte erheben und sogar vorläufige Diagnosen stellen.

Diese als Broad-Speak-Modelle bezeichneten Tools werden bereits von Patienten verwendet, um ihre Symptome und medizinischen Testergebnisse zu verstehen.

Aber wenn diese KI-Modelle in standardisierten medizinischen Tests beeindruckende Leistungen erbringen, wie gut schneiden sie dann in Situationen ab, die der realen Welt eher nachempfunden sind?

Nicht so toll, so die Ergebnisse einer neuen Studie von Forschern der Harvard Medical School und der Stanford University.

Für ihre Analyse, veröffentlicht am 2. Januar in Natürliche MedizinDie Forscher entwarfen einen Bewertungsrahmen – ; oder ein Test – ; namens CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) und setzte es auf vier große Sprachmodelle ein, um zu sehen, wie gut sie in Kontexten funktionierten, die reale Patienteninteraktionen genau nachahmten.

Alle vier breiten Sprachmodelle schnitten bei Fragen im Stil einer medizinischen Untersuchung gut ab, ihre Leistung verschlechterte sich jedoch, wenn sie an Gesprächen beteiligt waren, die Interaktionen in der realen Welt eher nachahmten.

Laut den Forschern verdeutlicht diese Lücke einen doppelten Bedarf: erstens, realistischere Bewertungen zu erstellen, die die Eignung klinischer KI-Modelle für den realen Einsatz besser messen, und zweitens, die Fähigkeit dieser Tools zur Erstellung von Diagnosen zu verbessern. basierend auf realistischeren Interaktionen vor ihrem Einsatz in der Klinik.

Laut dem Forschungsteam können Bewertungstools wie CRAFT-MD nicht nur KI-Modelle anhand der tatsächlichen körperlichen Verfassung genauer bewerten, sondern könnten auch dazu beitragen, ihre Leistung in der Klinik zu optimieren.

Unsere Arbeit offenbart ein bemerkenswertes Paradoxon: Während diese KI-Modelle bei medizinischen Untersuchungen hervorragende Leistungen erbringen, haben sie Schwierigkeiten, das grundlegende Hin und Her eines Arztbesuchs zu bewältigen. Die Dynamik medizinischer Gespräche – die Notwendigkeit, die richtigen Fragen zur richtigen Zeit zu stellen, verstreute Informationen zusammenzufügen und anhand von Symptomen zu argumentieren – stellt einzigartige Herausforderungen dar, die weit über die Beantwortung von Multiple-Choice-Fragen hinausgehen. Wenn wir von standardisierten Tests zu diesen natürlichen Gesprächen übergehen, zeigen selbst die ausgefeiltesten KI-Modelle einen erheblichen Rückgang der diagnostischen Genauigkeit. »

Pranav Rajpurkar, leitender Studienautor, Assistenzprofessor für biomedizinische Informatik an der Harvard Medical School

Ein besserer Test, um die tatsächliche KI-Leistung zu überprüfen

Derzeit testen Entwickler die Leistung von KI-Modellen, indem sie sie bitten, medizinische Multiple-Choice-Fragen zu beantworten, die typischerweise aus der National Graduate Medical Student Examination oder Tests abgeleitet werden, die an Assistenzärzte im Rahmen ihrer Zertifizierung durchgeführt werden.

-

„Dieser Ansatz geht davon aus, dass alle relevanten Informationen klar und prägnant dargestellt werden, oft mit medizinischer Terminologie oder Schlagworten, die den Diagnoseprozess vereinfachen, aber in der realen Welt ist dieser Prozess viel komplizierter“, sagte Shreya Johri, Studie Co-Autor und Doktorand. im Rajpurkar-Labor der Harvard Medical School. „Wir brauchen ein Test-Framework, das die Realität besser widerspiegelt und daher die Leistung eines Modells besser vorhersagen kann. »

CRAFT-MD wurde als eines dieser realistischeren Messgeräte entwickelt.

Um reale Interaktionen zu simulieren, bewertet CRAFT-MD, wie gut umfassende Sprachmodelle Informationen über Symptome, Medikamente und Familiengeschichte sammeln und dann eine Diagnose stellen können. Ein KI-Agent gibt sich als Patient aus und beantwortet Fragen in einem gesprächigen, natürlichen Stil. Ein weiterer KI-Agent bewertet die Genauigkeit der endgültigen Diagnose, die das große Sprachmodell liefert. Anschließend werten menschliche Experten die Ergebnisse jeder Begegnung aus, um ihre Fähigkeit, relevante Patienteninformationen zu sammeln, die diagnostische Genauigkeit bei der Präsentation verstreuter Informationen und die Einhaltung von Aufforderungen zu bestimmen.

Die Forscher verwendeten CRAFT-MD, um vier KI-Modelle zu testen –; sowohl proprietär oder kommerziell als auch Open Source –; für seine Leistung in 2.000 klinischen Vignetten mit häufigen Erkrankungen in der Primärversorgung und in 12 medizinischen Fachgebieten.

Alle KI-Modelle hatten Einschränkungen, einschließlich ihrer Fähigkeit, klinische Gespräche zu führen und auf der Grundlage der von Patienten bereitgestellten Informationen zu argumentieren. Dies wiederum beeinträchtigte ihre Fähigkeit, die Krankengeschichte zu erfassen und eine korrekte Diagnose zu stellen. Modelle hatten beispielsweise oft Schwierigkeiten, die richtigen Fragen zu stellen, um die relevante Patientengeschichte zu erfassen, übersahen wichtige Informationen bei der Anamneseerhebung und hatten Schwierigkeiten, verstreute Informationen zu synthetisieren. Die Genauigkeit dieser Modelle nahm ab, wenn ihnen offene Informationen anstelle von Multiple-Choice-Antworten vorgelegt wurden. Diese Modelle schnitten auch schlechter ab, wenn sie sich im Hin- und Her-Austausch befanden – ; wie die meisten Gespräche in der realen Welt – ; anstatt, wenn Sie an zusammengefassten Gesprächen beteiligt sind.

Empfehlungen zur Optimierung der KI-Leistung in der Praxis

Basierend auf diesen Erkenntnissen bietet das Team eine Reihe von Empfehlungen sowohl für KI-Entwickler, die KI-Modelle entwerfen, als auch für Regulierungsbehörden, die für die Bewertung und Genehmigung dieser Tools verantwortlich sind.

Dazu gehören:

  • Verwendung offener Konversationsfragen, die unstrukturierte Arzt-Patient-Interaktionen beim Entwurf, Training und Testen von KI-Tools genauer widerspiegeln
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen Sie Modelle, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen Sie KI-Modelle, die in der Lage sind, Textdaten (Gesprächsnotizen) und Nichttextdaten (Bilder, EKG) zu integrieren
  • Entwerfen Sie ausgefeiltere KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Darüber hinaus sollten in die Bewertung sowohl KI-Agenten als auch menschliche Experten einbezogen werden, empfehlen die Forscher, da es arbeitsintensiv und teuer sei, sich ausschließlich auf menschliche Experten zu verlassen. CRAFT-MD übertraf beispielsweise menschliche Bewerter und verarbeitete 10.000 Gespräche in 48 bis 72 Stunden plus 15 bis 16 Stunden Expertenbewertung. Im Gegensatz dazu würden menschenbasierte Ansätze eine umfangreiche Rekrutierung und etwa 500 Stunden für Patientensimulationen (fast 3 Minuten pro Gespräch) und etwa 650 Stunden für Expertenbewertungen (fast 4 Minuten pro Gespräch) erfordern. Der Einsatz von KI-Evaluatoren an vorderster Front hat den zusätzlichen Vorteil, dass das Risiko eliminiert wird, echte Patienten ungeprüften KI-Tools auszusetzen.

Die Forscher gehen davon aus, dass auch CRAFT-MD selbst regelmäßig aktualisiert und optimiert wird, um verbesserte Patienten-KI-Modelle zu integrieren.

„Als Arzt und Wissenschaftler interessiere ich mich für KI-Modelle, die die klinische Praxis auf effiziente und ethische Weise verbessern können“, sagte Roxana Daneshjou, Co-Seniorautorin der Studie, Assistenzprofessorin für biomedizinische Datenwissenschaft und Dermatologie an der Stanford University. „CRAFT-MD schafft einen Rahmen, der reale Interaktionen besser widerspiegelt und so dazu beiträgt, das Feld voranzubringen, wenn es darum geht, die Leistung von KI-Modellen im Gesundheitswesen zu testen.“ »

---

PREV Prognose für Sonntag, 26. Januar 2025
NEXT Die Ausstellung „We Are Here“ bricht mit über 600.000 Besuchern einen Besucherrekord!