Halluzinationen in GPT-5: Wie groß ist das Problem noch?

Das neue GPT-5 wirbt damit, „80% weniger Fehler“ zu machen als sein Vorgänger GPT-4o. Trotzdem melden erste Tests: Auch die fünfte Generation kann Tatsachen erfinden, Quellen verdrehen oder Zitate frei erfinden. In diesem Beitrag erläutere ich,

warum Large Language Models (LLMs) halluzinieren,
welche Fortschritte GPT-5 laut OpenAI tatsächlich erzielt,
wie man die verbleibenden Risiken im wissenschaftlichen Alltag handhabt,
und warum menschliche Prüfung unverzichtbar bleibt.

1 Warum halluzinieren Sprachmodelle?

LLMs entstehen durch das Wahrscheinlichkeitstraining: Das Modell lernt aus riesigen Textkorpora, welches Wort statistisch am besten auf ein anderes folgt. Faktenkenntnis ist dabei Nebenprodukt, nicht Ziel. Wenn der Trainingsbestand unscharf oder widersprüchlich ist, füllt das Modell Lücken mit „plausiblen“ Phrasen – es halluziniert.

Typische Auslöser:

fehlende Trainingsdaten für Nischenthemen
widersprüchliche Quellen im Korpus
aggressive Temperatur- oder Top-p-Einstellungen
Prompts mit mehrdeutiger Aufgabenstellung
Druck, Antwortlängen einzuhalten (Trunkierung)

2 Wie viel besser ist GPT-5?

OpenAI nennt drei Kernmaßnahmen:

Mehrschichtige Verifikationsschleife im Thinking-Modus: Der Entwurf wird intern gegen Fakten geprüft, bevor er den Chat verlässt.
Größeres Kontextfenster: Bis zu 400,000 Tokens erlauben, Primärquellen direkt in den Prompt zu legen, statt sie grob zusammenzufassen.
Safe-completions-Framework: Vor Veröffentlichung checkt ein Begleitmodell die Ausgabe auf Irrtümer und Richtlinienverstöße.

Interne Benchmarks berichten von rund 65% weniger Halluzinationen; externe Early-Access-Tests bestätigen eine deutliche Abnahme grober Fehler, finden aber weiterhin fiktive DOI-Nummern, falsch datierte Studien und ungenaue Statistiken.

3 Was heißt das für Forschende?

3.1 Erkennbare Verbesserungen

Stabilere Faktenketten: Längere argumentative Passagen bleiben konsistenter, selbst bei komplexen Hypothesen.
Besseres Quellentracking: GPT-5 zitiert häufiger reale Journale und Konferenzbände statt Fantasiewerke.
Geringere Zahlungen: Kürzere Outputs durch den Thinking-Modus senken Tokenkosten, wenn man Halluzinationen durch Multiple-Choice-Prompts vermeidet.

3.2 Bleibende Stolpersteine

Phantom-Referenzen: Titel existieren, DOI stimmen nicht.
Zahlenfettnäpfchen: Prozentwerte werden gelegentlich vertauscht (z. B. Sensitivität vs. Spezifität).
Detailverlust in langen Codeschnipseln oder DNA-Sequenzen: einzelne Zeichen verschoben.

4 Praxisleitfaden gegen Halluzinationen

Schritt	Zweck	Empfehlung
Primärtexte anfüttern	Kontextlücken schließen	Relevante Paper, Datentabellen oder Gesetzestexte direkt in den Prompt laden (Dank 400 k Tokens).
Rollen-Prompting	Stringenz steigern	„Agiere als Peer-Reviewer. Verwerfe Antwort, wenn du <2 Primärquellen> findest.“
Chain-of-Thought offenlegen lassen	Zwischenlogik prüfen	„Zeige deine Beweiskette Schritt für Schritt, bevor du die Schlussfolgerung ziehst.“
Fakten-Ping-Pong	Selbstkorrektur erzwingen	„Nenne drei Studien, dann verifiziere jede Quelle mit DOI und Journal-Jahrgang.“
Temperatur ≤0.3	Kreativität drosseln	Niedrige Sampling-Werte reduzieren Wortfantasie.
Menschliche Review	letzte Instanz	Zitate, Zahlen, Code immer gegen Originale prüfen – keine Abkürzungen.

5 Ausblick

GPT-5 beweist, dass systematische Reduktion von Halluzinationen möglich ist – ein echter Fortschritt für wissenschaftliche Anwendungen. Doch solange Statistik statt Semantik regiert, bleiben Phantome Teil des Spiels. Der kluge Umgang besteht darin, das Modell als Beschleuniger zu nutzen, nicht als Wahrheitsmaschine:

Nutze den Thinking-Modus, wenn Genauigkeit zählt.
Liefere Quellenmaterial, statt die KI raten zu lassen.
Prüfe Ergebnisse mit denselben Maßstäben wie menschliche Assistenz.

So wird GPT-5 vom Risiko zum Research-Booster – mit klarer Verantwortung auf menschlicher Seite.