Skip to main content

Hasta ahora, hablar con ChatGPT implicaba cambiar de pantalla. Quienes activaban el modo voz eran enviados a una interfaz aparte, sin texto ni imágenes, como si la conversación se mudara de habitación. La nueva versión rompe esa barrera. Ahora basta con tocar el icono del micrófono y hablar directamente, sin salir del chat. La respuesta llega en voz, pero también en texto, y todo ocurre en la misma ventana. Una conversación continua, sin interrupciones visuales ni saltos de contexto.

Qué cambia en la práctica

La transcripción aparece en tiempo real mientras se habla. No hace falta esperar a que el sistema “piense” para ver lo dicho. Y como ya no se abandona el hilo principal, es posible ver imágenes, mapas, gráficos o resultados de búsqueda en paralelo. Todo en un mismo flujo. Esto convierte a la IA en algo más parecido a un asistente que escucha, responde y muestra, sin exigir que se elija entre mirar o hablar.

Un modo estándar y otro más potente

La función está disponible para todos los usuarios, pero con diferencias según el plan. En su versión gratuita, el modo voz permite hablar, transcribir y recibir respuestas habladas. Para quienes usan GPT-4o, la experiencia es más precisa: hay menos latencia, mejor reconocimiento del habla y mayor capacidad para responder en tono natural. Además, sigue estando disponible el modo clásico —solo voz, en pantalla aparte— para quienes prefieren una inmersión sin distracciones.

¿Para qué sirve realmente?

La integración del modo voz apunta a un uso más flexible. Se vuelve útil en momentos en que escribir no es cómodo cómo cuando cocinas, caminas, o te mueves. También puede facilitar el repaso de ideas en voz alta, dictar notas o incluso leer textos con una entonación cercana a la humana. En el ámbito de la accesibilidad, investigaciones recientes muestran que estas funciones pueden ayudar a personas con baja visión, aunque persisten desafíos: en contextos dinámicos, como describir una escena en movimiento, la IA aún tiene margen de error.

No es solo una mejora técnica

Este paso llega en medio de una carrera entre plataformas por crear interfaces más humanas. La tendencia ya no es solo responder bien, sino hacerlo en el formato que el usuario prefiera. Hablar, ver, escuchar y leer, todo en uno. ChatGPT se alinea con esa lógica, sin cambiar lo que puede hacer, pero sí cómo se accede a ello. La experiencia se adapta al momento, hay manos libres, pero también contexto visual; hay voz, pero sin sacrificar lo escrito.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario