結論から言うと、大規模言語モデル(LLM)は言語的類推や一部の行列推理などのIQ風問題で高得点を取ることがあり、特定のテストでIQ120〜135相当という数値が報告された例もあります。ただしこれは膨大な学習データとパターン照合による結果で、人間の一般知能(g)を測ったものではなく、「AIのIQはN」という単一の数字は強い留保つきで読む必要があります。
はい、テストの種類によってはAIは高得点を取ります。言語的アナロジーや一部のレーヴン型行列推理では、特定の問題セットでIQ120〜135相当という結果が報告され、一部のパターン認識ベンチマークではさらに高い値も出ています。ただし得点はテストごとに大きく変動し、図形を画像として正しく解釈できない問題では大きく崩れることもあります。
いいえ、同じ意味ではありません。IQの基準(平均100・標準偏差15)は人間集団を対象に標準化されたもので、人間ではないAIに当てはめると数値の前提が崩れます。AIには人間のような作業記憶や処理速度の制約がなく、訓練済みの知識を即座に呼び出せるため、同じ得点でも測っている中身が根本的に異なります。
現時点では、LLMが人間と同じ意味での一般知能(g)を持つとは言えません。人間のgは多様な認知課題に共通する潜在的な能力として統計的に抽出されますが、LLMの高得点は主に学習データに含まれる類似パターンの再現とみなせます。新規性の高い、訓練データに似た例の少ない課題では性能が落ちやすく、汎用的な推論能力そのものとは区別する必要があります。
そうした数値は事実ではなく、あくまで推測・予測として扱うべきです。「何年までにAIのIQが195に達する」といった主張は、人間用に作られたIQ尺度を将来のAIに外挿した投機的なシナリオであり、確定した測定値ではありません。AIの能力向上は著しいものの、単一のIQ数値で将来を語る言説は、前提の妥当性を含めて慎重に受け止める必要があります。
「AIのIQ=N」という単一の数字は、重い留保つきの参考値として受け止めるのが適切です。テストの種類・出題形式・評価条件によって結果は大きく変わり、人間のための尺度を流用している点を忘れてはいけません。AIが特定タスクで人間以上の成績を出すことと、人間と同等の知能を持つことは別問題であり、両者を混同しないことが重要です。
| テスト・ベンチマーク | 報告されたAIの結果 | 実際に測っているもの |
|---|---|---|
| 言語的アナロジー(類推)問題 | IQ120〜135相当の報告例 | 学習データに基づく言語パターンの照合 |
| レーヴン型行列推理(一部) | 高得点〜苦戦まで変動 | 視覚パターンの抽象化(画像理解に依存) |
| パターン認識ベンチマーク | 人間平均を上回る例も | 特定タスクの最適化性能(汎用知能ではない) |
| ※共通の注意点 | 数値はテストごとに大きく変動 | 人間の一般知能(g)を測るものではない |