Sí y no: los grandes modelos de lenguaje pueden puntuar alto en ciertos ítems tipo test de CI (analogías verbales, algunas matrices), con cifras reportadas en torno a 120-135 en pruebas concretas, pero eso no significa que tengan un CI humano. Esos resultados reflejan datos de entrenamiento y reconocimiento de patrones, no inteligencia general (g) tal como se mide en personas.
Se han reportado cifras de alrededor de 120-135 en algunos conjuntos de ítems tipo CI, y en ciertos benchmarks de patrones incluso más altas. Sin embargo, los resultados varían enormemente según la prueba, el modelo y cómo se le presentan las preguntas. Por eso cualquier afirmación del tipo 'la IA tiene un CI de N' debe tomarse con muchas reservas: no es un valor estable ni comparable al de una persona.
No. Una puntuación alta refleja que el modelo ha aprendido patrones a partir de enormes cantidades de texto, no que posea inteligencia general humana. Los LLM no tienen las mismas limitaciones de memoria de trabajo ni de velocidad de procesamiento que una persona, así que el test no mide en ellos lo mismo que en nosotros. Sobresalir en analogías o matrices no implica comprensión, sentido común ni razonamiento flexible en el mundo real.
Porque los tests de CI se diseñaron y se baremaron para humanos. La media de 100 y la desviación típica de 15 se calculan sobre poblaciones de personas, no de máquinas, de modo que aplicar esa escala a una IA es una analogía, no una medición válida. Además, si los ítems o pruebas similares aparecen en los datos de entrenamiento, el modelo puede 'reconocerlos' en lugar de razonarlos, lo que infla artificialmente el resultado.
Puede fallar en razonamiento espacial novedoso, en problemas que requieren coherencia lógica sostenida y en tareas que exigen sentido común o experiencia del mundo físico. Un mismo modelo puede resolver una analogía compleja y a la vez equivocarse en un problema sencillo que cualquier persona resolvería. Esa irregularidad es justo lo contrario del factor g humano, que tiende a ser consistente entre tipos de tareas.
Con mucha cautela y distinguiendo siempre dato de especulación. Las cifras concretas de hoy ya son frágiles, así que proyecciones como 'la IA alcanzará un CI de 195 en tal año' son especulaciones, no hechos, y no deben presentarse como medidas reales. Lo riguroso es hablar de rendimiento en pruebas específicas, con sus caveats, y no de un 'CI' único que resuma la inteligencia de una IA.
| Test / benchmark | Resultado reportado de la IA | Qué mide realmente |
|---|---|---|
| Analogías verbales (ítems tipo CI) | Cifras altas, ~120-135 en pruebas concretas | Patrones lingüísticos del entrenamiento, no g humano |
| Matrices progresivas (estilo Raven) | Buen rendimiento en algunas, irregular en otras | Reconocimiento de patrones, no razonamiento espacial novedoso |
| Benchmarks de patrones abstractos | A veces puntuaciones muy elevadas | Capacidad de cálculo, posible filtración de datos de entrenamiento |
| Caveat general | Variable y poco estable entre tests | No es inteligencia general humana; normas pensadas para personas |