Skip to main content

OpenAI estrena GPT-Realtime-2 en la API junto a nuevos modelos de traducción y transcripción en vivo, una apuesta por convertir la voz en la interfaz natural de los agentes de IA capaces de mantener contexto, usar herramientas y resolver tareas mientras la conversación sigue abierta.

OpenAI ha dado un paso importante en la carrera por convertir la voz en una interfaz central de la inteligencia artificial. La compañía ha presentado GPT-Realtime-2 en la API, un nuevo modelo de voz en tiempo real diseñado para que los desarrolladores construyan agentes capaces de escuchar, razonar, mantener una conversación fluida, usar herramientas y actuar mientras el usuario habla. El anuncio llega en un momento en que la interacción por voz con la IA empieza a salir del terreno anecdótico para convertirse en una forma práctica de volcar mucho contexto sin escribir, pedir ayuda en movimiento o delegar tareas complejas en conversaciones naturales.

La novedad fue anticipada por Sam Altman en X con una observación reveladora: cada vez más personas están usando la voz para interactuar con IA, especialmente cuando necesitan transmitir mucho contexto. El consejero delegado de OpenAI añadió que GPT-Realtime-2 llega a la API como “un paso bastante grande” y señaló que la compañía trabaja también en mejoras de voz para ChatGPT. Su comentario incluía además una intuición generacional: los jóvenes parecen preferir hablar con la IA, mientras que los mayores y los usuarios intermedios tienden más a escribir.

La publicación oficial de OpenAI confirma que el lanzamiento no se limita a un modelo aislado. La compañía introduce tres modelos de audio en la API: GPT-Realtime-2, definido como su primer modelo de voz con razonamiento de clase GPT-5; GPT-Realtime-Translate, orientado a traducción oral en vivo desde más de 70 idiomas de entrada hacia 13 idiomas de salida; y GPT-Realtime-Whisper, un modelo de transcripción en streaming que convierte voz en texto mientras la persona habla.

La ambición es clara: pasar de la voz como dictado o interfaz de consulta rápida a la voz como sistema operativo conversacional. Hasta ahora, muchas experiencias de voz con IA seguían siendo esencialmente turnos de pregunta y respuesta: el usuario hablaba, el sistema contestaba, la conversación avanzaba de forma más o menos natural. GPT-Realtime-2 apunta a algo distinto: agentes que pueden mantener contexto durante sesiones largas, interpretar correcciones o interrupciones, llamar herramientas externas, recuperar información, actuar sobre sistemas y continuar la conversación sin romper el flujo. OpenAI afirma que estos modelos mueven el audio en tiempo real desde el simple intercambio hacia interfaces que pueden “escuchar, razonar, traducir, transcribir y actuar” mientras la conversación se desarrolla.

La voz tiene una ventaja evidente frente al texto: permite transmitir contexto de forma más rápida, emocional y situada. Una persona puede explicar por voz un problema complejo mientras conduce, camina por un aeropuerto, cocina, revisa un contrato, muestra una vivienda, atiende a un cliente o coordina una emergencia. Teclear obliga a condensar; hablar permite divagar, corregirse, añadir matices y cambiar de dirección. Para la IA, eso abre un campo nuevo: no solo responder a instrucciones limpias, sino entender conversaciones reales, llenas de interrupciones, reformulaciones, dudas y detalles imperfectos.

OpenAI estructura esta nueva etapa alrededor de tres patrones emergentes de uso. El primero es “voice-to-action”: el usuario describe lo que necesita y el sistema razona, usa herramientas y completa la tarea. La compañía cita el ejemplo de Zillow, que está construyendo un asistente capaz de escuchar peticiones como encontrar viviendas dentro de un presupuesto, evitar calles transitadas y programar una visita para un sábado. El segundo patrón es “systems-to-voice”: el software convierte contexto interno en orientación hablada, como una aplicación de viajes que avisa de un retraso, recalcula una conexión y ofrece una ruta dentro del aeropuerto. El tercero es “voice-to-voice”: IA que facilita conversaciones en distintos idiomas o contextos cambiantes, como soporte al cliente multilingüe.

Estos ejemplos muestran por qué GPT-Realtime-2 no es solo un avance técnico, sino un cambio en el tipo de producto que puede construirse. Un asistente de voz tradicional responde a comandos. Un agente de voz con razonamiento puede coordinar procesos. En un servicio de atención al cliente, puede escuchar el problema, autenticar al usuario, consultar una base de datos, abrir una incidencia, explicar el resultado y escalar el caso si detecta riesgo. En una aplicación de viajes, puede modificar una reserva mientras el usuario explica el imprevisto. En salud, puede acompañar una preconsulta o transcribir una conversación clínica con cautelas regulatorias. En educación, puede dialogar con el alumno, traducir y adaptar el ritmo de explicación.

La diferencia técnica central está en la capacidad de mantener la conversación viva mientras el modelo razona. OpenAI explica que GPT-Realtime-2 está construido para interacciones de voz en directo en las que el modelo debe mover la conversación hacia adelante mientras razona, llama herramientas, maneja correcciones o interrupciones y responde de forma adecuada al momento. Además, la compañía amplía la ventana de contexto de 32K a 128K tokens para soportar sesiones más largas, coherentes y complejas.

Ese aumento de contexto es clave para los agentes de voz. Una conversación real no siempre se resuelve en dos turnos. Un usuario puede empezar explicando un problema, añadir restricciones, cambiar de opinión, corregir un dato, pedir una comparación y volver a un punto anterior. En texto, el contexto largo ya era importante; en voz, lo es todavía más, porque la conversación puede acumular información de forma menos estructurada. La memoria de sesión permite que el agente no obligue al usuario a repetir lo ya dicho y pueda operar con una comprensión más completa de la tarea.

OpenAI también destaca mejoras en recuperación ante fallos. GPT-Realtime-2 puede responder con más naturalidad cuando algo no funciona o no entiende una petición, en lugar de quedarse bloqueado o romper la conversación. Este detalle puede parecer menor, pero es crucial para la voz. En texto, un error se puede leer, corregir y reintentar. En voz, una pausa incómoda, una respuesta fuera de lugar o una interrupción mal gestionada destruye la sensación de fluidez. El usuario espera que el agente se comporte más como un interlocutor que como una API visible.

Los datos de evaluación publicados por OpenAI apuntan a mejoras frente a GPT-Realtime-1.5. La compañía afirma que GPT-Realtime-2 obtiene un 15,2% más de puntuación en Big Bench Audio para inteligencia de audio y que la versión xhigh mejora un 13,8% en Audio MultiChallenge, una prueba centrada en seguimiento de instrucciones, integración de contexto, consistencia y gestión de correcciones naturales en diálogo hablado. Son cifras internas o seleccionadas por la compañía, por lo que deben leerse con cautela, pero señalan una dirección clara: la voz ya no se mide solo por latencia o naturalidad, sino por razonamiento conversacional.

El segundo modelo, GPT-Realtime-Translate, apunta a otro mercado enorme: la traducción oral simultánea. OpenAI afirma que puede traducir habla en tiempo real desde más de 70 lenguas de entrada hacia 13 lenguas de salida, manteniendo el ritmo del hablante. La compañía lo presenta como útil para soporte al cliente, ventas internacionales, educación, eventos, medios y plataformas de creadores. En la práctica, este tipo de modelo puede reducir la frontera idiomática en conversaciones comerciales, clases, reuniones globales o servicios de atención multilingüe.

La traducción en vivo no es una función nueva en el mercado, pero su integración en una API de agentes sí cambia el alcance. No se trata solo de traducir una frase, sino de sostener una conversación donde el sistema puede mantener contexto, transcribir, traducir y eventualmente activar herramientas. En atención al cliente, por ejemplo, una persona podría hablar en su idioma, el agente traducir, consultar el expediente, explicar la respuesta y registrar el caso. En educación, un profesor podría ofrecer una clase con traducción simultánea y transcripción. En eventos o medios, las barreras de distribución global se reducen.

El tercer modelo, GPT-Realtime-Whisper, lleva la transcripción hacia escenarios de baja latencia. OpenAI lo describe como un sistema capaz de transcribir audio mientras la persona habla, para generar subtítulos en directo, notas de reunión, actualizaciones de workflow o documentación en tiempo real. La documentación de la API distingue entre sesiones de voz-agent, sesiones de traducción y sesiones de transcripción: las primeras responden al usuario y pueden llamar herramientas; las segundas traducen continuamente; las terceras emiten deltas de transcripción sin respuesta hablada del modelo.

Esta separación arquitectónica importa para desarrolladores. No todos los productos de voz necesitan lo mismo. Un call center automatizado requiere un agente que hable, escuche, mantenga estado y use herramientas. Una aplicación de subtitulado solo necesita transcripción en streaming. Un servicio de interpretación necesita traducción continua. OpenAI organiza la Realtime API en torno al resultado que se quiere construir, no únicamente en torno al modelo. La documentación recomienda gpt-realtime-2 para agentes de voz de baja latencia, gpt-realtime-translate para traducción en vivo y gpt-realtime-whisper para transcripción en streaming.

La API soporta distintos métodos de conexión: WebRTC para navegadores y móviles que capturan o reproducen audio directamente, WebSocket para servidores que ya reciben audio crudo desde una canalización de medios o un sistema de llamadas, y SIP para agentes telefónicos. Esta variedad es relevante porque la voz no vive en un único entorno. Puede estar en una app móvil, en una web, en un teléfono, en un sistema de atención al cliente, en una plataforma de reuniones o en un dispositivo físico.

El modelo económico también da pistas sobre el mercado al que apunta OpenAI. Según la página de precios de la API, GPT-Realtime-2 cuesta 32 dólares por millón de tokens de entrada de audio, 0,40 dólares por millón de tokens de entrada de audio en caché y 64 dólares por millón de tokens de salida de audio. Para texto, el precio es de 4 dólares por millón de tokens de entrada, 0,40 dólares en caché y 24 dólares por millón de salida. Las imágenes cuestan 5 dólares por millón de tokens de entrada y 0,50 dólares en caché. GPT-Realtime-Translate cuesta 0,034 dólares por minuto y GPT-Realtime-Whisper, 0,017 dólares por minuto. F

Estos precios sitúan la voz avanzada como una capacidad todavía premium frente a muchas aplicaciones de texto, pero también suficientemente estructurada para que empresas calculen costes por llamada, sesión, minuto o interacción. Para sectores como viajes, inmobiliario, telecomunicaciones, educación o salud, la cuestión será comparar el coste del agente de voz con el coste de atención humana, abandono de clientes, tiempos de espera o errores operativos. La voz en tiempo real no se adoptará solo porque sea espectacular; se adoptará cuando reduzca fricción, mejore conversión, amplíe cobertura lingüística o libere tiempo humano en procesos repetitivos.

La lista de empresas citadas por OpenAI muestra por dónde puede avanzar la adopción. Zillow, Glean, Genspark, Bluejay, Intercom, Priceline y Foundation Health aparecen como ejemplos de pruebas tempranas con GPT-Realtime-2. Zillow afirma que lo que destacó fue la inteligencia y la fiabilidad de llamadas a herramientas en interacciones complejas de voz, con una mejora de 26 puntos en tasa de éxito de llamadas tras optimización de prompts en su benchmark adversarial más difícil. OpenAI también cita a Priceline en escenarios de viaje y a Deutsche Telekom en experiencias de soporte multilingüe.

El lanzamiento se inscribe en una tendencia más amplia: la IA empieza a desplazarse del escritorio al entorno. Escribir sigue siendo preciso, silencioso y controlable, pero hablar es más natural cuando la tarea ocurre mientras el usuario hace otra cosa. La voz permite una IA más ambiental, menos encerrada en una pantalla. Puede acompañar desplazamientos, tareas domésticas, trabajo físico, llamadas, reuniones y atención al cliente. Por eso la observación de Altman sobre jóvenes y voz es interesante: si las nuevas generaciones se acostumbran a hablar con modelos, la interfaz textual podría dejar de ser el modo dominante en muchas categorías de uso.

La voz, sin embargo, no es automáticamente superior. Tiene problemas propios: privacidad, ruido ambiental, errores de reconocimiento, acentos, interrupciones, turnos solapados, dificultad para revisar respuestas largas y menor precisión cuando se manejan datos exactos. Un contrato, un cálculo fiscal o una instrucción médica pueden exigir texto, citas, tablas o confirmaciones explícitas. Por eso el futuro más probable no será voz contra texto, sino voz más texto más pantalla: hablar para dar contexto, ver para confirmar, tocar para aprobar y leer para verificar.

En aplicaciones críticas, la seguridad será central. OpenAI recomienda incluir identificadores de seguridad en las solicitudes de Realtime API cuando la aplicación identifica usuarios finales, de modo que la detección de abuso pueda dirigirse a usuarios concretos y no a toda la organización. También remite a guías de seguridad, despliegue, optimización de latencia y conexión con herramientas. En agentes de voz, la seguridad no es un añadido: el sistema puede actuar en nombre del usuario, manejar datos personales y tomar decisiones operativas en tiempo real.

La llegada de GPT-Realtime-2 también cambia el diseño de producto. Hasta ahora, muchas empresas añadían “modo voz” como una capa sobre un chatbot textual. El usuario hablaba, el sistema transcribía, el modelo respondía en texto y otra capa sintetizaba voz. Esa arquitectura podía funcionar, pero introducía latencia, pérdida de matices y poca naturalidad. Los modelos realtime nativos permiten pensar la aplicación desde el diálogo vivo: interrupciones, tono, ritmo, confirmaciones, herramientas, contexto, fallos y recuperación.

La oportunidad para desarrolladores es enorme, pero también lo es la dificultad. Construir un buen agente de voz no consiste en conectar un micrófono a un modelo. Hay que decidir cuándo hablar y cuándo callar, cuándo pedir confirmación, cuándo ejecutar una acción, cómo manejar nombres propios o números de pedido, cómo capturar entidades exactas, cómo responder ante audio ambiguo, cómo escalar a un humano, cómo registrar la conversación y cómo evitar que el agente actúe con información incompleta. La documentación de OpenAI recomienda ajustar el esfuerzo de razonamiento, preámbulos, uso de herramientas, audio poco claro y captura exacta de entidades.

La frase de Altman sobre “mucho contexto que volcar” apunta quizá al uso más humano de todos. Muchas veces recurrimos a una IA no porque no sepamos escribir, sino porque explicar un problema por escrito exige ordenar demasiado. La voz permite empezar desordenado: “mira, tengo este problema, ayer pasó esto, hoy me han dicho aquello, necesito contestar sin sonar agresivo, pero dejando claro…” Ese tipo de interacción encaja muy bien con asistentes personales, coaching, preparación de reuniones, soporte emocional moderado, organización doméstica o trabajo creativo. El valor no está solo en la respuesta, sino en que el sistema soporte una entrada humana más natural.

Con GPT-Realtime-2, OpenAI quiere que la voz deje de ser una demostración simpática y se convierta en infraestructura para software. La API abre la puerta a asistentes que atienden llamadas, traductores que trabajan en directo, transcriptores que documentan reuniones, copilotos que guían tareas y productos que se usan sin teclado. La compañía no está anunciando únicamente mejores voces, sino una nueva capa de interacción entre personas, aplicaciones y agentes.

La gran pregunta será si los usuarios confiarán lo suficiente. Hablar con una IA puede ser más íntimo que escribirle. La voz revela tono, emoción, dudas, contexto ambiental. También puede hacer que la IA parezca más presente, más convincente y más humana. Eso obliga a diseñar límites claros: cuándo el usuario habla con una máquina, qué datos se guardan, qué acciones se ejecutan, qué se transcribe y cómo se protege la información.

La llegada de GPT-Realtime-2 a la API confirma que la carrera de la IA ya no se mide solo en modelos de texto más inteligentes. La siguiente batalla está en la experiencia: latencia, naturalidad, contexto, herramientas, traducción, voz, memoria de sesión y acción. La interfaz que gane no será necesariamente la más espectacular, sino la que desaparezca mejor dentro de la tarea. Para muchas situaciones, esa interfaz será hablar.

Dejar un comentario