Cada tercer jueves de noviembre, el mundo levanta la copa para celebrar el Beaujolais Nouveau: un vino apenas fermentado que se viste de solemnidad comercial, con sumilleres alabando “aromas vibrantes” y “final afrutado” como si fuera una obra maestra, cuando en realidad aquí lo confundiríamos con un vino mediocre. Y lo cierto es que ese día en las mejores tiendas de vinos y licores francesas te encontrarás largas colas para comprar ese vino, al precio de un buen Burdeos.
La presentación de GPT-5 siguió un libreto casi idéntico: un despliegue de novedades que suenan a revolución hasta que descorchas el modelo y descubres que el regusto es muy parecido al del ejercicio de marketing del año pasado.
OpenAI definió a GPT-5 como “un sistema unificado” que combina un modelo ágil para consultas corrientes, un motor de razonamiento profundo (“GPT-5 thinking”) para problemas complejos y un enrutador en tiempo real que decide cuál emplear en cada conversación, según la naturaleza y tu propia indicación de “piensa a fondo”. Cuando se agoten los límites de uso, una versión mini se encarga del resto, a la espera de que un futuro lo integre todo en un único bloque de silicio y software.
En términos de capacidades, GPT-5 presume de ser “más inteligente y útil”:
- Código: mejoras en generación front-end, depuración de repositorios grandes y sensibilidad estética en interfaces.
- Escritura creativa: dominio de estructuras poéticas complejas, desde pentámetros y versos libres hasta ritmo literario y ambigüedad estructural.
- Salud: superioridad en HealthBench, respuestas más precisas y contextualizadas, con advertencias proactivas y recomendaciones seguras (aunque insisten en que no sustituye al médico).
En los benchmarks, GPT-5 marca nuevos récords, pero sin pasarse, que los sitúa un poco por encima del resto de los modelos del mercado:
– Matemáticas: 94,6 % en AIME 2025 sin herramientas.
– Código: 74,9 % en SWE-Bench Verified y 88 % en Aider Polyglot.
– Multimodalidad: 84,2 % en MMMU.
– Salud: 46,2 % en HealthBench Hard.
GPT-5 Pro, con razonamiento extendido, roza el 88,4 % en GPQA.
En román paladino, ciertamente tendremos en el móvil a todos los doctores en todas las materias científicas del mundo. Hay que preguntarse para qué se necesitan doctores cuando tenemos jueces y políticos que no resisten un silogismo y con cuñados que saben de todo.
Además, promete “pensar más rápido y con menos recursos”: logra rendimientos equivalentes a modelos anteriores con un 50–80 % menos de tokens de salida, reduciendo el coste computacional y la latencia.
Por si fuera poco, disminuye las alucinaciones y la desinformación: un 45 % menos de errores fácticos que GPT-4o y un 80 % menos cuando emplea la modalidad de razonamiento. También es más honesto: sus respuestas engañosas bajan del 4,8 % al 2,1 % en tareas imposibles o mal planteadas. Además el precio es inferior a muchos modelos actuales.
¿Revolución? Más bien crianza en barrica de expectativas. Al igual que un Beaujolais del año pasado con etiqueta nueva, GPT-5 suma refinamientos: una vendimia de mejoras incrementales empaquetadas como giro de guión. Brindemos, pues, por el modelo y el vino, dos fermentos de marketing que nos recuerdan que la novedad a veces es solo una botella con la etiqueta cambiada.