Skip to main content

La nueva función de la IA de Google permite subir audios y obtener transcripciones o resúmenes en segundos

Una función para quienes escuchan más de lo que escriben

Desde esta semana, Gemini —la inteligencia artificial de Google— no solo genera textos o responde preguntas. Ahora también entiende archivos de audio. En la web y las apps móviles, los usuarios pueden subir grabaciones y pedirle que las transcriba, resuma o explique su contenido. La promesa es clara: convertir la voz en texto sin esfuerzo, útil para estudiantes, periodistas o cualquiera que use notas de voz como memoria portátil.

Un clic, un audio, un resumen

El proceso es sencillo. Basta con pulsar el icono “+” en Gemini, subir un archivo de audio (MP3, WAV, M4A o FLAC) y escribir una instrucción como “Transcríbelo” o “¿De qué trata este audio?”. En segundos, la IA devuelve una transcripción palabra por palabra, o un resumen del contenido. También puede responder preguntas sobre el archivo, como si estuviera escuchándolo contigo. Eso sí, los audios de WhatsApp no entran en el juego directamente, porque están en formato OPUS y requieren conversión previa.

Límites según lo que pagues

El servicio tiene sus márgenes. Los usuarios gratuitos pueden analizar audios de hasta 10 minutos. Los suscriptores de Gemini Advanced, en cambio, pueden procesar archivos de hasta tres horas. En todos los casos, el sistema permite subir hasta diez archivos a la vez, siempre que el peso total no supere los 100 MB.

Qué puede hacer y para quién sirve

Para quien graba clases, entrevistas, reuniones o ideas al vuelo, esta función puede ahorrar tiempo y errores. Las transcripciones permiten repasar, citar o archivar con más precisión. Los resúmenes pueden convertir una conversación en una lista de temas clave. Y la posibilidad de hacer preguntas al contenido abre la puerta a una forma de navegación más activa, no solo leer lo que se dijo, sino interactuar con ello. La herramienta se suma así a una tendencia más amplia de hacer que los audios, tradicionalmente difíciles de buscar o consultar, se vuelvan legibles y reutilizables.

Una oreja útil, pero no del todo transparente

El anuncio de Google no aclara qué ocurre con los archivos tras ser procesados. ¿Se almacenan? ¿Quién tiene acceso? Tampoco hay detalles sobre cómo se gestiona la privacidad o si los datos alimentan futuros entrenamientos de IA. Son preguntas que se repiten en cada nueva función, y que siguen sin respuesta clara. Además, la eficacia de la transcripción puede variar según la calidad del audio, los acentos o el ruido ambiente. La herramienta promete mucho, pero aún no garantiza comprensión universal.

No solo en la app: también en la nube

Más allá del uso cotidiano, Google ha integrado esta capacidad en su plataforma para desarrolladores. Gemini puede analizar audio desde Vertex AI y Google AI Studio, generando resúmenes, etiquetas o descripciones. Empresas ya lo utilizan para subtitular vídeos, transcribir llamadas o mejorar la accesibilidad en productos digitales. En ese nivel, la IA no solo escucha: también ordena, clasifica y optimiza.

La voz como nuevo texto

Gemini empieza a cerrar el círculo: ver, leer, escribir… y ahora, escuchar. Lo hace sin ruido, con una función que parece pequeña pero que puede cambiar rutinas.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario