Büyük dil modelleri bazı IQ tarzı soru setlerinde şaşırtıcı derecede iyi puan alabilir; belirli testlerde 120-135 civarı, bazı örüntü kıyaslamalarında daha da yüksek değerler bildirilmiştir. Ancak bu sayılar insan genel zekasını (g) değil, eğitim verisini ve örüntü eşleştirmeyi yansıtır; IQ normları hiçbir zaman makineler için tasarlanmadığından, tek bir "yapay zeka IQ'su" rakamı ağır çekincelerle ele alınmalıdır.
Bazı testlerde evet, bir yapay zeka yüksek puan üretebilir, ama büyük çekincelerle. Modern LLM'ler sözel benzetmelerde ve bazı matris sorularında iyi performans gösterir ve bildirilen puanlar belirli testlerde 120-135 civarına ulaşmıştır. Ancak sonuçlar teste ve sürüme göre büyük ölçüde değişir ve seçili sorularda "geçmek", insan tarzı zekaya sahip olmakla aynı şey değildir.
Esas olarak, modelin o belirli soru biçiminde eğitim verisiyle ne kadar iyi örüntü eşleştirdiğini ölçer. IQ testleri; sınırlı çalışma belleğine, sonlu işlem hızına ve sorularla önceden hiç karşılaşmamış olmaya sahip insan bir katılımcıyı varsayar. Bir yapay zeka tüm bu varsayımları ihlal eder; dolayısıyla puanı, testlerin insanlarda tahmin etmek için kurulduğu altta yatan yapıyı (g) değil, istatistiksel öğrenmeyi yansıtır.
Çünkü IQ normları tamamen insan nüfusları üzerinde, ortalama 100 ve standart sapma 15 olacak şekilde kalibre edilmiştir. Bir yapay zekanın gelişimsel bir geçmişi yoktur, hafıza veya hıza dair biyolojik kısıtları yoktur ve benzer problemleri etkin biçimde daha önce görmüş olabilir. Aritmetik bir sayı üretse bile, bir makineyi insan çan eğrisine yerleştirmek bir kategori hatasıdır.
Çünkü performans soru biçimine, sorunun nasıl ifade edildiğine ve modelin ne üzerinde eğitildiğine son derece duyarlıdır. Aynı sistem metin tabanlı sözel akıl yürütmede parlak görünüp insanların kolay bulduğu yeni görsel veya uzamsal bulmacalarda tökezleyebilir. Bu istikrarsızlık, puanın istikrarlı ve genel bir kapasiteyi değil, dar bir beceriyi ölçtüğünün kendi başına bir ipucudur.
Hayır; bunlar ölçüm değil spekülasyondur ve öyle etiketlenmelidir. Tek bir yükselen "yapay zeka IQ'su" rakamına ilişkin projeksiyonlar, oynak ve teste bağlı bir ölçütü sanki öngörülebilir bir yörüngedeki sabit bir insan özelliğiymiş gibi ele alır. Geleceğe dair herhangi bir özgül "yapay zeka IQ'su" rakamını yerleşmiş bir gerçek değil, bir tahmin veya pazarlama iddiası olarak görün.
| Test / kıyaslama | Bildirilen yapay zeka sonucu | Gerçekte ölçtüğü |
|---|---|---|
| Sözel benzetme soruları | Yüksek; çoğu zaman insandan üstün | Geniş metin eğitim verisi üzerinde örüntü eşleştirme |
| Progresif matrisler (bazı setler) | Bildirilen puanlar ~120-135 | Tanıdık biçimlerde görsel örüntü tanıma |
| Yeni / alışılmadık akıl yürütme soruları | Tutarsız, bazen zayıf | Problemler eğitim dışına çıkınca kırılganlık |
| Çekince: herhangi bir tek 'yapay zeka IQ'su' | Teste göre büyük ölçüde değişir | İnsan genel zekası (g) değil; normlar yalnızca insanlar içindir |