Mit künstlicher Intelligenz waren nur 65 bis 75 % der angebotenen Angebote korrekt … unzureichend

Sie müssen schnell handeln, um LLMs (Large Language Models) zu verwenden, diese Tools, die uns beim Schreiben von Artikeln helfen. Dabei handelt es sich um eine Anfang April 2024 im JMIR (Journal of Medical Internet Research) veröffentlichte Studie. In den Zeitschriften der JMIR-Gruppe wurden bisher 150 Artikel zum Thema Künstliche Intelligenz (KI) im Gesundheitsbereich veröffentlicht. JMIR ist seit 25 Jahren die beste Zeitschrift in der Disziplin „Medizinische Informatik“.

Bewertung der Leistung und Zuverlässigkeit großer Sprachmodelle für Zitate und Referenzen im wissenschaftlichen Schreiben: Interdisziplinäre Studie

Es war ein chinesisches Team, das diese Arbeit durch die Veröffentlichung von ChatGPT-3.5 im Juli/August 2023 erledigte. Sie baten es, die Einleitung für fünf Artikel in den Naturwissenschaften und fünf Artikel in den Geisteswissenschaften zu schreiben. ChatGPT generierte 102 Referenzen, die die Autoren analysierten. Es gibt zu viele Halluzinationen. Hier ist Tabelle 2 des Artikels, die leicht verständlich ist:

Zur Interpretation wiederhole ich ‘Der Levenshtein-Abstand war in den Geisteswissenschaften deutlich höher als in den Naturwissenschaften, was die geringere DOI-Genauigkeit widerspiegelt.’

Erwarteter Fortschritt: Wann?

Im April 2024 müssen wir sehr aufmerksam sein und die Zitate kontrollieren, nicht nur ihre Existenz, sondern auch ihr Interesse. Ist es nicht besser, es ohne LLM zu machen, um schneller voranzukommen? Ich weiß nicht. Vorsicht vor Halluzinationen! LLMs können Referenzen erfinden, indem sie exakte Elemente zusammenstellen: Die Autoren existieren in einer Veröffentlichung, dann ist der Titel der eines anderen Artikels und die Referenz (Zeitschrift, Jahr, Seiten) könnte einem anderen Artikel entnommen worden sein.

Kleiner Artikel, der in anderen wissenschaftlichen Bereichen, einschließlich der Medizin, und mit mehr Themen verfasst werden sollte. Die Einleitung zu diesem Artikel ist didaktisch, vielleicht zu lang. Es stellt sich die Frage der Reproduzierbarkeit: Je nach Abfrage, je nach Vernehmungszeitraum dürften die Ergebnisse unterschiedlich ausfallen.