🚀 El lanzamiento de GPT-5 Codex
El 15 de septiembre, OpenAI anunció GPT-5 Codex, una versión optimizada de su modelo insignia enfocada en el desarrollo de software.
Ya disponible en Terminal, extensión de IDE y web, su despliegue progresivo promete cambiar la dinámica de los coding agents.
Entre sus primeras métricas destacan:
-
74,5% en SWE-bench Verified ✅
-
51,3% en refactorización de código (+51% respecto a GPT-5 base)
Estos números colocan a Codex como un competidor serio frente a Claude Code, que hasta ahora lideraba en productividad y estabilidad.
📊 Rendimiento en benchmarks
Si bien los benchmarks son un buen punto de partida, la clave está en la productividad real: issues cerradas por hora, pasos requeridos y latencia.
Comparativa de rendimiento inicial:
| Métrica | GPT-5 (Base) | GPT-5 Codex | Claude Code | Mejoría |
|---|---|---|---|---|
| SWE-bench Verified | 72,8% | 74,5% | 72,7% | +2,3% |
| Refactorización multiarchivo | 33,9% | 51,3% | 48% (aprox.) | +51% |
| Resistencia a inyección de prompts | N/D | 0,98/1.0 | 0,99/1.0 | Similar |
| Rechazo de malware | N/D | 1.0/1.0 | 1.0/1.0 | Empate |
📌 Claves:
-
GPT-5 Codex supera en benchmarks, pero Claude aún domina en scaffolding y tasa de PRs exitosos.
-
La refactorización multiarchivo es la gran mejora de Codex, aunque debe probarse en repos grandes.
🗂️ Contexto real: proyectos grandes y multiagente
Uno de los mayores desafíos de Codex será:
-
Coordinar cambios en proyectos grandes (monorepos, apps complejas).
-
Mantener coherencia de estilo y dependencias.
-
Sincronizar tareas multiagente (generar código, tests y diffs).
Claude Code destaca en este punto gracias a sus “Memory Files” y una orquestación madura, lo que le da ventaja en entornos empresariales.
🖥️ Integración local, IDE y seguridad
El verdadero campo de batalla está en el uso diario:
-
Claude Code → fuerte integración local con terminal e IDE, baja latencia y seguridad robusta.
-
GPT-5 Codex → despliegue inicial en VS Code y Cursor, con “guardrails” y controles ergonómicos en desarrollo.
Aquí Codex deberá mejorar si quiere desplazar al referente actual.
⚖️ Comparativa rápida: GPT-5 Codex vs Claude Code
| Característica / Métrica | GPT-5 Codex (OpenAI) | Claude Code (Anthropic) | Líder Actual |
|---|---|---|---|
| SWE-bench Verified | 74,5% | 72,7% | Codex |
| Refactorización | 51,3% | ~48% | Codex |
| Contexto multiarchivo | Mejorado | Superior con “Memory Files” | Claude |
| Integración local (CLI/IDE) | Despliegue inicial | Madura y robusta | Claude |
| Seguridad (inyecciones, malware) | Alta | Alta | Empate |
| Ecosistema empresarial | Integrado en ChatGPT | Plan dedicado ($200/mes) | Claude |
🔮 ¿Quién liderará el futuro del “agentic coding”?
-
Codex se perfila como un contendiente fuerte, con métricas superiores en benchmarks y refactorización.
-
Claude Code mantiene ventaja en proyectos grandes, integración local y experiencia empresarial.
👉 El próximo paso será medir cómo se comporta Codex en escenarios reales: estabilidad, velocidad y seguridad.
Si logra equilibrar rapidez y confianza, podríamos estar frente a un nuevo estándar en programación asistida por IA.




