Halluzinationen in GPT-5: Wie groß ist das Problem noch?

Das neue GPT-5 wirbt damit, „80% weniger Fehler“ zu machen als sein Vorgänger GPT-4o. Trotzdem melden erste Tests: Auch die fünfte Generation kann Tatsachen erfinden, Quellen verdrehen oder Zitate frei erfinden. In diesem Beitrag erläutere ich,

  • warum Large Language Models (LLMs) halluzinieren,
  • welche Fortschritte GPT-5 laut OpenAI tatsächlich erzielt,
  • wie man die verbleibenden Risiken im wissenschaftlichen Alltag handhabt,
  • und warum menschliche Prüfung unverzichtbar bleibt.

1 Warum halluzinieren Sprachmodelle?

LLMs entstehen durch das Wahrscheinlichkeits­training: Das Modell lernt aus riesigen Textkorpora, welches Wort statistisch am besten auf ein anderes folgt. Faktenkenntnis ist dabei Nebenprodukt, nicht Ziel. Wenn der Trainingsbestand unscharf oder widersprüchlich ist, füllt das Modell Lücken mit „plausiblen“ Phrasen – es halluziniert.

Typische Auslöser:

  • fehlende Trainingsdaten für Nischenthemen
  • widersprüchliche Quellen im Korpus
  • aggressive Temperatur- oder Top-p-Einstellungen
  • Prompts mit mehrdeutiger Aufgabenstellung
  • Druck, Antwortlängen einzuhalten (Trunkierung)

2 Wie viel besser ist GPT-5?

OpenAI nennt drei Kernmaßnahmen:

  1. Mehrschichtige Verifikationsschleife im Thinking-Modus: Der Entwurf wird intern gegen Fakten geprüft, bevor er den Chat verlässt.
  2. Größeres Kontextfenster: Bis zu 400,000 Tokens erlauben, Primärquellen direkt in den Prompt zu legen, statt sie grob zusammenzufassen.
  3. Safe-completions-Framework: Vor Veröffentlichung checkt ein Begleitmodell die Ausgabe auf Irrtümer und Richtlinienverstöße.

Interne Benchmarks berichten von rund 65% weniger Halluzinationen; externe Early-Access-Tests bestätigen eine deutliche Abnahme grober Fehler, finden aber weiterhin fiktive DOI-Nummern, falsch datierte Studien und ungenaue Statistiken.

3 Was heißt das für Forschende?

3.1 Erkennbare Verbesserungen

  • Stabilere Faktenketten: Längere argumentative Passagen bleiben konsistenter, selbst bei komplexen Hypothesen.
  • Besseres Quellen­tracking: GPT-5 zitiert häufiger reale Journale und Konferenzbände statt Fantasie­werke.
  • Geringere Zahlungen: Kürzere Outputs durch den Thinking-Modus senken Tokenkosten, wenn man Halluzinationen durch Multiple-Choice-Prompts vermeidet.

3.2 Bleibende Stolpersteine

  • Phantom-Referenzen: Titel existieren, DOI stimmen nicht.
  • Zahlenfettnäpfchen: Prozentwerte werden gelegentlich vertauscht (z. B. Sensitivität vs. Spezifität).
  • Detailverlust in langen Codeschnipseln oder DNA-Sequenzen: einzelne Zeichen verschoben.

4 Praxisleitfaden gegen Halluzinationen

SchrittZweckEmpfehlung
Primärtexte anfütternKontextlücken schließenRelevante Paper, Datentabellen oder Gesetzestexte direkt in den Prompt laden (Dank 400 k Tokens).
Rollen-PromptingStringenz steigern„Agiere als Peer-Reviewer. Verwerfe Antwort, wenn du <2 Primärquellen> findest.“
Chain-of-Thought offenlegen lassenZwischenlogik prüfen„Zeige deine Beweiskette Schritt für Schritt, bevor du die Schlussfolgerung ziehst.“
Fakten-Ping-PongSelbstkorrektur erzwingen„Nenne drei Studien, dann verifiziere jede Quelle mit DOI und Journal-Jahrgang.“
Temperatur ≤0.3Kreativität drosselnNiedrige Sampling-Werte reduzieren Wortfantasie.
Menschliche Reviewletzte InstanzZitate, Zahlen, Code immer gegen Originale prüfen – keine Abkürzungen.

5 Ausblick

GPT-5 beweist, dass systematische Reduktion von Halluzinationen möglich ist – ein echter Fortschritt für wissenschaftliche Anwendungen. Doch solange Statistik statt Semantik regiert, bleiben Phantome Teil des Spiels. Der kluge Umgang besteht darin, das Modell als Beschleuniger zu nutzen, nicht als Wahrheits­maschine:

  • Nutze den Thinking-Modus, wenn Genauigkeit zählt.
  • Liefere Quellenmaterial, statt die KI raten zu lassen.
  • Prüfe Ergebnisse mit denselben Maßstäben wie menschliche Assistenz.

So wird GPT-5 vom Risiko zum Research-Booster – mit klarer Verantwortung auf menschlicher Seite.