GPT-5 fue lanzado en agosto de 2025 con grandes promesas: “inteligencia a nivel de doctorado”, respuestas más útiles, razonamiento iterativo y menor tendencia a “alucinar” o generar errores fácticos. Sin embargo, apenas semanas después, usuarios y expertos comenzaron a reportar fallos sorprendentes que cuestionan ese perfil idealizado de modelo superior.
Para muchos usuarios, GPT-5 se siente superficial, incluso frustrante. Reddit está lleno de críticas: respuestas más cortas, pérdida de “personalidad” en el tono, límites de uso más estrictos, y modelos previos que funcionaban mejor desactivados sin aviso. Un desarrollador lo resumió así: “short replies that are insufficient, more obnoxious AI-stylized talking…”, lamentando además la mayor lentitud del modelo frente a alternativas como Gemini 2.5 Pro.
En el plano de la factualidad, los errores también afloran. Un usuario notó que GPT-5 duplicaba cifras reales del PIB de algunos países — por ejemplo, situó el de Polonia en más de dos billones de dólares cuando según el FMI ronda los 979 000 millones. El problema de las «alucinaciones» persiste: generar datos imaginarios con confianza sigue siendo un talón de Aquiles, especialmente cuando el sistema no admite su ignorancia.
Más extraño aún resultaron etiquetas incoherentes e imágenes absurdas. En un experimento, al pedir etiquetar partes de un zarigüeya, GPT-5 colocó cada etiqueta en lugares incorrectos a tal punto que incluso al inducir un error tipográfico (“posse” en lugar de “possum”) siguió fallando — acabó generando un grupo de vaqueros con líneas apuntando etiquetas a sombreros o piernas, no partes anatómicas. También se documentaron errores de geografía y ortografía básicos. Por ejemplo, mal deletreó “Northern Territory” (“Northan Territor”), afirmó erróneamente que contiene solo tres “R” en vez de cinco, inventó estados ficticios como “New Jefst” y “Mitroinia”, e incluso doble listó California en un mapa generado.
Investigadores como Christoph Heilig, de la Universidad de Múnich, identifican un fenómeno llamativo: la prosa de GPT-5 puede parecer literaria y sofisticada, aunque carezca de sentido real — un estilo más ornamental que coherente. Heilig sugiere que GPT-5 podría estar optimizado para “engañar” a otros modelos de IA, generando un lenguaje aparentemente elaborado que esos sistemas valoran, pero que no necesariamente se comprende bien desde lo humano.
En medio del descontento, Altman reconoció errores en el lanzamiento y prometió mejoras, anticipando el próximo GPT-6 con mejor memoria de usuario y más personalización. Pero por ahora, el balance muestra un modelo con avances técnicos en pruebas controladas, según OpenAI, pero que en la práctica cotidiana exhibe fallos que erosionan su credibilidad.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.