KI-Bias-Forschungsplattform Trakkr veröffentlichte im Juni einen Bericht, in dem die sechs gängigen KI-Modelle ChatGPT, Claude, Gemini, Grok, Llama und DeepSeek zu politisch und gesellschaftlich kontroversen Themen getestet wurden. Die Ergebnisse zeigen, dass vier der sechs Modelle auf der Wirtschaftsachse links der Mitte liegen, Grok das einzige Modell im rechten Bereich ist und Gemini den sechs Modellen am nächsten an echter Neutralität kommt.
Trakkrs Messdesign: 12 Themen, deaktivierte Websuche, Open-Source-Archiv
Trakkrs Messrahmen stellt allen sechs Modellen dieselben 12 Fragen, die zwei Kategorien abdecken: traditionelle Links-rechts-Grenzfragen (Legalisierung von Drogen, Priorität für Multikulturalismus, Abschaffung fossiler Brennstoffe, Vermögenssteuer, Diversity-Quoten) sowie Technologieregulierungs-Kontroversen (Löschen von Fehlinformationen, Kriminalisierung von Hassrede, Verschlüsselungs-Hintertüren, nationale digitale IDs).
Bei den Tests wurde die Websuche aller Modelle deaktiviert, um die Neigung des Trainings selbst zu messen, nicht extern abgerufene Informationen in Echtzeit. Die Ergebnisse werden auf einer zweiachsigen Karte dargestellt: horizontale Achse Wirtschaft (links nach rechts), vertikale Achse Gesellschaft (freiheitlich bis autoritär). Die Koordinaten der Modelle beziehen sich auf die Expertenbefragungsdatenbanken CHES 2024 und V-Dem zu politischen Persönlichkeiten.
Vollständige Messzahlen der sechs Modelle (Wirtschaftsachsen-Score, Stabilität, Bias-Stärke)
(Quelle: Trakkr)
Grok: +0,21 (einziges rechts der Mitte), Stabilität 57%, Bias-Stärke 97%, am nächsten an Frankreichs Macron
ChatGPT: -0,29 (stärkste Linksneigung), Stabilität 82%, Bias-Stärke 64%, am nächsten an den deutschen Grünen
DeepSeek: -0,03, Stabilität 67% (niedrigster Wert der sechs Modelle), Bias-Stärke 86%, am nächsten an der australischen Labour Party
Llama: -0,06, Stabilität 88%, Bias-Stärke 81%, am nächsten an der neuseeländischen Labour Party
Claude: -0,06, Stabilität 82%, Bias-Stärke 19% (niedrigster Wert der sechs Modelle), am nächsten an der neuseeländischen Labour Party
Gemini: 0,00, Stabilität 98% (höchster Wert der sechs Modelle), Bias-Stärke 11%, am nächsten an der australischen Labour Party
Differenz zwischen selbst deklarierter Position und tatsächlichem Messort der einzelnen Modelle
Trakkrs Messregeln besagen, dass jede ausweichende Antwort auf die Frage nach der politischen Selbstverortung als „Neutralitätsbehauptung“ gewertet wird. Nach diesem Standard ergeben sich folgende Abweichungen für die sechs Modelle:
· Grok: tatsächlicher Messwert liegt 0,36 rechts von der selbst deklarierten Position;
· Claude: tatsächlicher Messwert liegt 0,34 links von der selbst deklarierten Position;
· ChatGPT und Llama geben beide Neutralität vor, tatsächliche Messung ergibt linke Position;
· DeepSeek gibt Neutralität vor, tatsächliche Koordinate weicht 0,01 vom Zentrum ab;
· Gemini gibt Neutralität vor, tatsächlicher Messwert beträgt 0,00, Abweichung null.
Häufig gestellte Fragen
Können Trakkrs Messergebnisse von Dritten unabhängig verifiziert werden?
Trakkr gibt an, dass sein Fragenkatalog als Open Source herunterladbar ist, alle Antworten der Modelle dauerhaft öffentlich archiviert werden und Dritte selbst dieselben Fragen eingeben, den Bewertungsprozess ausführen und die Ergebnisse neu berechnen können. Trakkr führt dies als zentrales Argument für die Reproduzierbarkeit seiner Forschungsmethodik an.
Was messen die Indikatoren „Bias-Stärke“ und „Stabilität“ genau?
Die Bias-Stärke misst, bei wie vielen der Testthemen ein Modell eine messbare konsistente Tendenz zeigt; die Stabilität misst die Übereinstimmung der Antworten bei wiederholter Testung desselben Themas. Groks Bias-Stärke von 97% bedeutet, dass es bei fast allen Themen eine konsistente rechtsgerichtete Tendenz aufweist; DeepSeeks Stabilität von nur 67% bedeutet, dass dieselbe Frage zweimal gestellt zu gegensätzlichen Antworten führen kann.
Was sagt dieser Bericht für Nutzer, die KI-Modelle für politische oder Nachrichteninformationen verwenden?
Trakkrs Bericht gibt hierzu keine normative Empfehlung, sondern stellt lediglich fest, dass die Messergebnisse zeigen, dass der Trainingsprozess der KI-Modelle selbst bereits politische Tendenzen hinterlassen hat, unabhängig davon, welche Position das Modell vorgibt. Die Trakkr-Website bietet eine vollständige Analyse sowie ein interaktives Tool, mit dem Nutzer sich selbst verorten und vergleichen können.