Sprachmodelle können bei bestimmten IQ-ähnlichen Aufgaben hohe Punktzahlen erzielen — berichtet werden Werte etwa im Bereich 120 bis 135 für einzelne Tests —, aber das ist kein echter menschlicher IQ. Diese Ergebnisse beruhen auf Trainingsdaten und Mustererkennung, während IQ-Normen für Menschen konstruiert sind und allgemeine Intelligenz (g) messen sollen.
Ja, bei einigen IQ-typischen Aufgaben schneiden große Sprachmodelle hoch ab. Berichtet wurden Werte um 120 bis 135 für bestimmte Tests, vor allem bei sprachlichen Analogien und manchen Matrizenaufgaben, und einzelne Muster-Benchmarks liegen noch höher. Die Ergebnisse schwanken jedoch stark je nach Test, weshalb keine einzelne Zahl als "der" KI-IQ gelten kann.
Nein, ein hoher Testwert spiegelt Mustererkennung und Trainingsdaten wider, nicht menschliche allgemeine Intelligenz. IQ-Tests sind darauf ausgelegt, den Faktor g bei Menschen zu erfassen, der unter anderem an Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit gebunden ist. Eine KI unterliegt solchen Beschränkungen nicht und kann auf riesige Mengen ähnlicher Aufgaben aus dem Training zurückgreifen — die Vergleichbarkeit mit einem menschlichen IQ ist daher begrenzt.
Weil das Ergebnis stark vom konkreten Test, der Aufgabenform und davon abhängt, ob ähnliche Inhalte im Training vorkamen. Bei rein bildbasierten oder neuartigen Aufgaben fallen KI-Werte oft deutlich niedriger aus als bei sprachlich formulierten Aufgaben. Ein einzelner "KI-IQ = N"-Wert sollte deshalb immer mit starken Vorbehalten betrachtet werden.
Streng genommen nicht, denn IQ-Normen wurden an menschlichen Stichproben standardisiert. Ein IQ-Wert ist immer relativ zu einer menschlichen Vergleichsgruppe mit Mittelwert 100 und Standardabweichung 15 definiert. Eine KI in diese Skala einzuordnen ist eher eine anschauliche Analogie als eine wissenschaftlich saubere Messung.
Solche Zahlen sind Spekulation, keine gesicherte Tatsache. Projektionen über künftige KI-"IQ-Werte" beruhen auf Annahmen über Entwicklung und Testdesign und lassen sich nicht wie ein gemessener menschlicher IQ interpretieren. Behandeln Sie derartige Aussagen ausdrücklich als Prognose oder Spekulation und nicht als belegte Größe.
| Test / Benchmark | Berichtetes KI-Ergebnis | Was es tatsächlich misst |
|---|---|---|
| Sprachliche Analogien | Hoch, oft im Bereich 120 bis 135 | Sprachliche Mustererkennung aus Trainingsdaten |
| Manche Matrizen-Aufgaben | Teils hoch, stark schwankend | Erkennen vertrauter Aufgabenstrukturen |
| Neuartige / rein visuelle Muster | Oft deutlich niedriger | Generalisierung ohne passende Trainingsbeispiele |
| Wichtiger Vorbehalt | Keine verlässliche Einzelzahl | Nicht menschliches g — IQ-Normen gelten für Menschen |