🧠 ¿Cuál es el mejor modelo de lenguaje en 2025? Así se miden (y manipulan) los LLM con benchmarks

🌐 Una jungla de inteligencias artificiales

Hoy existen casi 70 modelos de lenguaje conocidos en el mercado y varios centenares si contamos los especializados. Plataformas como HuggingFace o Wikipedia reflejan el crecimiento explosivo de estos sistemas. Desde ChatGPT de OpenAI hasta Claude de Anthropic, pasando por Gemini de Google, DeepSeek R1 o Qwen de Alibaba, la competencia es feroz.

Pero con tantos LLM disponibles, ¿cómo saber cuál es mejor? ¿Y qué significa realmente «mejor»?


📊 ¿Qué es un benchmark de IA?

Los AI benchmarks o puntos de referencia son pruebas estandarizadas diseñadas para medir las capacidades de los LLM en tareas concretas, como:

  • Comprensión lectora 🧾

  • Razonamiento abstracto 🔍

  • Programación 💻

  • Generación de texto coherente ✍️

  • Veracidad en las respuestas ✅

¿Cómo funcionan?

  1. Material de prueba: ejercicios, textos o preguntas.

  2. Modo de evaluación: zero-shot (sin ejemplos), few-shot (con pocos ejemplos), o fine-tuned.

  3. Puntuación: se comparan las respuestas con las correctas y se asigna una nota.

El objetivo es medir si un modelo resuelve problemas, razona o simplemente repite patrones aprendidos.


🏆 Los benchmarks más conocidos

Benchmark ¿Qué evalúa? Creadores
MMLU Cultura general en 57 temas UC Berkeley
HellaSwag Comprensión y coherencia de texto Univ. Washington
HumanEval Programación en Python OpenAI
TruthfulQA Veracidad y exactitud informativa OpenAI + Oxford
MT-Bench Calidad en chats y argumentación LMSYS (Berkeley + Stanford)
SWE-bench Reparación de bugs en software real Princeton + Allen AI
ARC-AGI Razonamiento lógico abstracto François Chollet

🔢 ¿Qué modelos obtienen las mejores puntuaciones?

  • MMLU:

    • 🥇 Gemini 2.5 Pro (84.1%)

    • 🥈 GPT-o1 (83.5%)

    • 🥉 Claude 3.7 Sonnet (82.7%)

  • HellaSwag:

    • 🥇 Claude 3 Opus (95.4%)

    • 🥈 GPT-4 (95.3%)

    • 🥉 Mistral Large (89.2%)

  • MT-Bench:

    • 🥇 GPT-4 Turbo

    • 🥈 Otros modelos de OpenAI

    • 🥉 Mistral Medium y Claude 1

Los rankings cambian constantemente, y los resultados dependen de la potencia computacional empleada, el tipo de prueba y la metodología usada.


⚠️ ¿Son fiables los benchmarks?

Aunque útiles, los benchmarks tienen muchas limitaciones:

  • 🔋 Requieren mucha potencia computacional.

  • 🎯 Los modelos son entrenados para «ganar», no para razonar.

  • 🧩 No miden comprensión real (falta de validez de constructo).

Un ejemplo polémico fue el caso del modelo o3 de OpenAI, que supuestamente superó la prueba ARC-AGI con un 87.5%. Pero según la experta Melanie Mitchell, el modelo no razonó: generó muchas respuestas y votó internamente por la mejor, violando el principio del test (uso limitado de recursos, sin entrenamiento específico).

🎭 Es como si un alumno diera todas las respuestas posibles al examen… y eligiera luego la correcta con ayuda externa.


🧑‍⚖️ Benchmarks con humanos: la nueva tendencia

Ante estas fallas, la evaluación humana vuelve a tomar protagonismo. Plataformas como LMArena (antes Chatbot Arena) permiten a cualquier persona comparar dos LLM de forma anónima y decidir cuál responde mejor.

  • Más de 3 millones de comparaciones hasta la fecha.

  • Ranking público actualizado con modelos como Gemini 2.5 Pro, GPT-4 Turbo y Claude Opus.

En campos como la medicina, ya se empieza a dejar de lado benchmarks como MedQA. Expertos proponen evaluaciones humanas basadas en juegos de rol médicos, tal como se forma a los profesionales en hospitales.

🧠 A medida que los LLM avanzan, la única forma de medir si piensan como humanos… es que los humanos lo comprueben.


🧭 ¿Cuál es el mejor LLM?

No hay una respuesta definitiva. Depende de:

  • La tarea concreta (programar, resumir, razonar).

  • El tipo de evaluación (benchmark técnico o juicio humano).

  • Los recursos disponibles (potencia, datos, acceso).

Pero sí hay una conclusión clara: los benchmarks son útiles, pero insuficientes. Y a medida que la inteligencia artificial se hace más compleja, nos toca a nosotros decidir si realmente se está volviendo… inteligente.

Previous Post
Next Post