🌐 Una jungla de inteligencias artificiales
Hoy existen casi 70 modelos de lenguaje conocidos en el mercado y varios centenares si contamos los especializados. Plataformas como HuggingFace o Wikipedia reflejan el crecimiento explosivo de estos sistemas. Desde ChatGPT de OpenAI hasta Claude de Anthropic, pasando por Gemini de Google, DeepSeek R1 o Qwen de Alibaba, la competencia es feroz.
Pero con tantos LLM disponibles, ¿cómo saber cuál es mejor? ¿Y qué significa realmente «mejor»?
📊 ¿Qué es un benchmark de IA?
Los AI benchmarks o puntos de referencia son pruebas estandarizadas diseñadas para medir las capacidades de los LLM en tareas concretas, como:
-
Comprensión lectora 🧾
-
Razonamiento abstracto 🔍
-
Programación 💻
-
Generación de texto coherente ✍️
-
Veracidad en las respuestas ✅
¿Cómo funcionan?
-
Material de prueba: ejercicios, textos o preguntas.
-
Modo de evaluación: zero-shot (sin ejemplos), few-shot (con pocos ejemplos), o fine-tuned.
-
Puntuación: se comparan las respuestas con las correctas y se asigna una nota.
El objetivo es medir si un modelo resuelve problemas, razona o simplemente repite patrones aprendidos.
🏆 Los benchmarks más conocidos
| Benchmark | ¿Qué evalúa? | Creadores |
|---|---|---|
| MMLU | Cultura general en 57 temas | UC Berkeley |
| HellaSwag | Comprensión y coherencia de texto | Univ. Washington |
| HumanEval | Programación en Python | OpenAI |
| TruthfulQA | Veracidad y exactitud informativa | OpenAI + Oxford |
| MT-Bench | Calidad en chats y argumentación | LMSYS (Berkeley + Stanford) |
| SWE-bench | Reparación de bugs en software real | Princeton + Allen AI |
| ARC-AGI | Razonamiento lógico abstracto | François Chollet |
🔢 ¿Qué modelos obtienen las mejores puntuaciones?
-
MMLU:
-
🥇 Gemini 2.5 Pro (84.1%)
-
🥈 GPT-o1 (83.5%)
-
🥉 Claude 3.7 Sonnet (82.7%)
-
-
HellaSwag:
-
🥇 Claude 3 Opus (95.4%)
-
🥈 GPT-4 (95.3%)
-
🥉 Mistral Large (89.2%)
-
-
MT-Bench:
-
🥇 GPT-4 Turbo
-
🥈 Otros modelos de OpenAI
-
🥉 Mistral Medium y Claude 1
-
Los rankings cambian constantemente, y los resultados dependen de la potencia computacional empleada, el tipo de prueba y la metodología usada.
⚠️ ¿Son fiables los benchmarks?
Aunque útiles, los benchmarks tienen muchas limitaciones:
-
🔋 Requieren mucha potencia computacional.
-
🎯 Los modelos son entrenados para «ganar», no para razonar.
-
🧩 No miden comprensión real (falta de validez de constructo).
Un ejemplo polémico fue el caso del modelo o3 de OpenAI, que supuestamente superó la prueba ARC-AGI con un 87.5%. Pero según la experta Melanie Mitchell, el modelo no razonó: generó muchas respuestas y votó internamente por la mejor, violando el principio del test (uso limitado de recursos, sin entrenamiento específico).
🎭 Es como si un alumno diera todas las respuestas posibles al examen… y eligiera luego la correcta con ayuda externa.
🧑⚖️ Benchmarks con humanos: la nueva tendencia
Ante estas fallas, la evaluación humana vuelve a tomar protagonismo. Plataformas como LMArena (antes Chatbot Arena) permiten a cualquier persona comparar dos LLM de forma anónima y decidir cuál responde mejor.
-
Más de 3 millones de comparaciones hasta la fecha.
-
Ranking público actualizado con modelos como Gemini 2.5 Pro, GPT-4 Turbo y Claude Opus.
En campos como la medicina, ya se empieza a dejar de lado benchmarks como MedQA. Expertos proponen evaluaciones humanas basadas en juegos de rol médicos, tal como se forma a los profesionales en hospitales.
🧠 A medida que los LLM avanzan, la única forma de medir si piensan como humanos… es que los humanos lo comprueben.
🧭 ¿Cuál es el mejor LLM?
No hay una respuesta definitiva. Depende de:
-
La tarea concreta (programar, resumir, razonar).
-
El tipo de evaluación (benchmark técnico o juicio humano).
-
Los recursos disponibles (potencia, datos, acceso).
Pero sí hay una conclusión clara: los benchmarks son útiles, pero insuficientes. Y a medida que la inteligencia artificial se hace más compleja, nos toca a nosotros decidir si realmente se está volviendo… inteligente.




