Krebspatienten auf schwierige Entscheidungen vorzubereiten, ist die Aufgabe eines Onkologen. Allerdings erinnern sie sich nicht immer daran. Im Gesundheitssystem der University of Pennsylvania werden Ärzte mithilfe eines künstlich intelligenten Algorithmus, der die Sterbewahrscheinlichkeit vorhersagt, dazu aufgefordert, über die Behandlung und die Präferenzen eines Patienten am Lebensende zu sprechen.
Aber es ist alles andere als ein „Set-it-and-forget-it“-Werkzeug. Eine routinemäßige technische Überprüfung ergab, dass sich der Algorithmus während der Covid-19-Pandemie verschlechterte, was laut einer Studie aus dem Jahr 2022 die Todesvorhersage um 7 Prozentpunkte verschlechterte.
Es gab wahrscheinlich echte Auswirkungen. Ravi Parikh, ein Onkologe der Emory University und Hauptautor der Studie, sagte gegenüber KFF Health News, dass das Tool Hunderte Male versagt habe, Ärzte dazu zu bewegen, diese wichtige Diskussion – möglicherweise zur Vermeidung unnötiger Chemotherapie – mit Patienten zu beginnen, die sie benötigten.
Er glaubt, dass mehrere Algorithmen zur Verbesserung der medizinischen Versorgung während der Pandemie an Schwäche verloren haben, nicht nur der von Penn Medicine. „Viele Institutionen überwachen die Leistung“ ihrer Produkte nicht systematisch, sagte Parikh.
Die Algorithmusprobleme sind eine Facette eines Dilemmas, das Informatiker und Ärzte seit langem erkannt haben, das jedoch Krankenhausmanager und Forscher allmählich fasziniert: Künstliche Intelligenzsysteme erfordern eine konsistente Überwachung und Personalausstattung, um eingerichtet zu werden und weiterhin ordnungsgemäß zu funktionieren.
Fazit: Sie brauchen Menschen und mehr Maschinen, um sicherzustellen, dass die neuen Werkzeuge nicht kaputt gehen.
„Jeder glaubt, dass KI uns helfen wird, unseren Zugang und unsere Fähigkeiten zu verbessern, die Pflege zu verbessern usw. sagte Nigam Shah, Chefdatenwissenschaftler bei Stanford Health Care. „Das ist alles schön und gut, aber wenn dadurch die Pflegekosten um 20 % steigen, ist das nachhaltig? »
Regierungsbeamte befürchten, dass Krankenhäuser nicht über die Ressourcen verfügen, diese Technologien auf die Probe zu stellen. „Ich habe sehr weit in die Zukunft geschaut“, sagte FDA-Kommissar Robert Califf kürzlich während eines Agenturpanels zum Thema KI. „Ich glaube nicht, dass es in den Vereinigten Staaten ein einziges Gesundheitssystem gibt, das einen in einem klinischen Pflegesystem implementierten KI-Algorithmus validieren kann. »
KI ist im Gesundheitswesen bereits weit verbreitet. Algorithmen werden verwendet, um das Sterbe- oder Verfallrisiko von Patienten vorherzusagen, Diagnosen vorzuschlagen oder Patienten zu triagieren, Besuche aufzuzeichnen und zusammenzufassen, um ärztliche Arbeit zu sparen, und Versicherungsansprüche zu genehmigen.
Wenn die Technologie-Evangelisten Recht haben, wird Technologie allgegenwärtig und profitabel werden. Die Investmentfirma Bessemer Venture Partners hat rund 20 gesundheitsorientierte KI-Startups identifiziert, die auf dem besten Weg sind, einen Umsatz von jeweils 10 Millionen US-Dollar pro Jahr zu erzielen. Die FDA hat fast tausend künstlich intelligente Produkte zugelassen.
Die Beurteilung, ob diese Produkte funktionieren, ist eine Herausforderung. Noch schwieriger ist es zu beurteilen, ob sie weiterhin funktionieren – oder ob sie das Software-Äquivalent einer durchgebrannten Dichtung oder eines undichten Motors entwickelt haben.
Nehmen Sie zum Beispiel eine aktuelle Studie von Yale Medicine, in der sechs „Frühwarnsysteme“ evaluiert wurden, die Ärzte warnen, wenn sich der Zustand der Patienten wahrscheinlich schnell verschlechtern wird. Ein Supercomputer habe die Daten über mehrere Tage analysiert, sagte Dana Edelson, Ärztin an der University of Chicago und Mitbegründerin eines Unternehmens, das einen Algorithmus für die Studie bereitgestellt hat. Der Prozess war erfolgreich und zeigte große Leistungsunterschiede zwischen den sechs Produkten.
Für Krankenhäuser und Anbieter ist es nicht einfach, die besten Algorithmen für ihre Bedürfnisse auszuwählen. Der durchschnittliche Arzt verfügt nicht über einen Supercomputer und es gibt keine Verbraucherberichte über KI.
„Wir haben keine Standards“, sagte Jesse Ehrenfeld, ehemaliger Präsident der American Medical Association. „Ich kann Ihnen heute nichts sagen, was einen Standard dafür darstellt, wie Sie die Leistung eines Algorithmusmodells bewerten, überwachen und überprüfen, ob KI-fähig oder nicht, wenn es bereitgestellt wird. »
Das vielleicht am weitesten verbreitete KI-Produkt in Arztpraxen heißt Ambient Documentation, ein technologischer Assistent, der Patientenbesuche zuhört und zusammenfasst. Letztes Jahr verzeichneten die Investoren von Rock Health, dass 353 Millionen US-Dollar in diese Dokumentationsunternehmen flossen. Ehrenfeld sagte jedoch: „Derzeit gibt es keinen Standard für den Vergleich der Ergebnisse dieser Tools. »
Und das ist ein Problem, denn selbst kleine Fehler können verheerende Folgen haben. Ein Team der Stanford University versuchte, mithilfe großer Sprachmodelle – der Technologie hinter beliebten KI-Tools wie ChatGPT – die Krankengeschichten von Patienten zusammenzufassen. Sie verglichen die Ergebnisse mit dem, was ein Arzt schreiben würde.
„Selbst im besten Fall hatten die Modelle eine Fehlerquote von 35 Prozent“, sagte Shah von Stanford. In der Medizin: „Wenn man eine Zusammenfassung schreibt und ein Wort vergisst, wie zum Beispiel ‚Fieber‘, dann ist das doch ein Problem, oder?
Manchmal sind die Gründe, warum Algorithmen versagen, ganz logisch. Beispielsweise können Änderungen an den zugrunde liegenden Daten deren Wirksamkeit beeinträchtigen, etwa wenn Krankenhäuser den Laboranbieter wechseln.
Manchmal offenbaren sich die Fallstricke jedoch ohne ersichtlichen Grund.
Sandy Aronson, technische Leiterin des Programms für personalisierte Medizin bei Mass General Brigham in Boston, sagte, als ihr Team eine App testete, die genetischen Beratern dabei helfen sollte, relevante Literatur zu DNA-Varianten zu finden, litt das Produkt unter „Nichtdeterminismus“ – das heißt, wenn man dasselbe fragt. Nachdem ich die Frage innerhalb kurzer Zeit mehrmals gestellt hatte, kam ich zu unterschiedlichen Ergebnissen.
Aronson ist begeistert vom Potenzial großer Sprachmodelle, Wissen für überarbeitete genetische Berater zusammenzufassen, aber „die Technologie muss verbessert werden.“
Was sollten Institutionen tun, wenn Messungen und Standards selten sind und aus seltsamen Gründen Fehler auftreten können? Investieren Sie viele Ressourcen. In Stanford, so Shah, habe es acht bis zehn Monate und 115 Arbeitsstunden gedauert, um die Fairness und Zuverlässigkeit zweier Modelle zu überprüfen.
Von KFF Health News befragte Experten brachten die Idee einer künstlichen Intelligenz zur Überwachung künstlicher Intelligenz in Umlauf, wobei ein (menschlicher) Datenexperte beides überwacht. Alle waren sich darüber im Klaren, dass die Organisationen dafür noch mehr Geld ausgeben müssten – eine schwierige Aufgabe angesichts der Realität der Krankenhausbudgets und der begrenzten Anzahl von KI-Technologiespezialisten.
„Es ist großartig, eine Vision zu haben, in der wir Eisberge schmelzen, damit wir ein Modell haben, das ihr Muster überwacht“, sagte Shah. „Aber ist das wirklich das, was ich wollte? Wie viele Leute werden wir noch brauchen? »
Dieser Artikel wurde von khn.org abgedruckt, einer nationalen Nachrichtenredaktion, die ausführlichen Journalismus zu Gesundheitsthemen produziert und eines der Kernbetriebsprogramme von KFF ist – der unabhängigen Quelle für Gesundheitsforschung, Umfragen und Gesundheitspolitik. |
Related News :