Das neue GPT-5 wirbt damit, „80% weniger Fehler“ zu machen als sein Vorgänger GPT-4o. Trotzdem melden erste Tests: Auch die fünfte Generation kann Tatsachen erfinden, Quellen verdrehen oder Zitate frei erfinden. In diesem Beitrag erläutere ich,
- warum Large Language Models (LLMs) halluzinieren,
- welche Fortschritte GPT-5 laut OpenAI tatsächlich erzielt,
- wie man die verbleibenden Risiken im wissenschaftlichen Alltag handhabt,
- und warum menschliche Prüfung unverzichtbar bleibt.
1 Warum halluzinieren Sprachmodelle?
LLMs entstehen durch das Wahrscheinlichkeitstraining: Das Modell lernt aus riesigen Textkorpora, welches Wort statistisch am besten auf ein anderes folgt. Faktenkenntnis ist dabei Nebenprodukt, nicht Ziel. Wenn der Trainingsbestand unscharf oder widersprüchlich ist, füllt das Modell Lücken mit „plausiblen“ Phrasen – es halluziniert.
Typische Auslöser:
- fehlende Trainingsdaten für Nischenthemen
- widersprüchliche Quellen im Korpus
- aggressive Temperatur- oder Top-p-Einstellungen
- Prompts mit mehrdeutiger Aufgabenstellung
- Druck, Antwortlängen einzuhalten (Trunkierung)
2 Wie viel besser ist GPT-5?
OpenAI nennt drei Kernmaßnahmen:
- Mehrschichtige Verifikationsschleife im Thinking-Modus: Der Entwurf wird intern gegen Fakten geprüft, bevor er den Chat verlässt.
- Größeres Kontextfenster: Bis zu 400,000 Tokens erlauben, Primärquellen direkt in den Prompt zu legen, statt sie grob zusammenzufassen.
- Safe-completions-Framework: Vor Veröffentlichung checkt ein Begleitmodell die Ausgabe auf Irrtümer und Richtlinienverstöße.
Interne Benchmarks berichten von rund 65% weniger Halluzinationen; externe Early-Access-Tests bestätigen eine deutliche Abnahme grober Fehler, finden aber weiterhin fiktive DOI-Nummern, falsch datierte Studien und ungenaue Statistiken.
3 Was heißt das für Forschende?
3.1 Erkennbare Verbesserungen
- Stabilere Faktenketten: Längere argumentative Passagen bleiben konsistenter, selbst bei komplexen Hypothesen.
- Besseres Quellentracking: GPT-5 zitiert häufiger reale Journale und Konferenzbände statt Fantasiewerke.
- Geringere Zahlungen: Kürzere Outputs durch den Thinking-Modus senken Tokenkosten, wenn man Halluzinationen durch Multiple-Choice-Prompts vermeidet.
3.2 Bleibende Stolpersteine
- Phantom-Referenzen: Titel existieren, DOI stimmen nicht.
- Zahlenfettnäpfchen: Prozentwerte werden gelegentlich vertauscht (z. B. Sensitivität vs. Spezifität).
- Detailverlust in langen Codeschnipseln oder DNA-Sequenzen: einzelne Zeichen verschoben.
4 Praxisleitfaden gegen Halluzinationen
Schritt | Zweck | Empfehlung |
---|---|---|
Primärtexte anfüttern | Kontextlücken schließen | Relevante Paper, Datentabellen oder Gesetzestexte direkt in den Prompt laden (Dank 400 k Tokens). |
Rollen-Prompting | Stringenz steigern | „Agiere als Peer-Reviewer. Verwerfe Antwort, wenn du <2 Primärquellen> findest.“ |
Chain-of-Thought offenlegen lassen | Zwischenlogik prüfen | „Zeige deine Beweiskette Schritt für Schritt, bevor du die Schlussfolgerung ziehst.“ |
Fakten-Ping-Pong | Selbstkorrektur erzwingen | „Nenne drei Studien, dann verifiziere jede Quelle mit DOI und Journal-Jahrgang.“ |
Temperatur ≤0.3 | Kreativität drosseln | Niedrige Sampling-Werte reduzieren Wortfantasie. |
Menschliche Review | letzte Instanz | Zitate, Zahlen, Code immer gegen Originale prüfen – keine Abkürzungen. |
5 Ausblick
GPT-5 beweist, dass systematische Reduktion von Halluzinationen möglich ist – ein echter Fortschritt für wissenschaftliche Anwendungen. Doch solange Statistik statt Semantik regiert, bleiben Phantome Teil des Spiels. Der kluge Umgang besteht darin, das Modell als Beschleuniger zu nutzen, nicht als Wahrheitsmaschine:
- Nutze den Thinking-Modus, wenn Genauigkeit zählt.
- Liefere Quellenmaterial, statt die KI raten zu lassen.
- Prüfe Ergebnisse mit denselben Maßstäben wie menschliche Assistenz.
So wird GPT-5 vom Risiko zum Research-Booster – mit klarer Verantwortung auf menschlicher Seite.