Skip to main content

Google ha presentado Veo 3.1, su nueva versión del modelo generativo de vídeo, junto con mejoras profundas en Flow, su herramienta de creación audiovisual. Este paso marca una evolución hacia vídeos más afinados, con mayor control creativo y sonido mejor integrado.

Qué cambia respecto a versiones anteriores

Veo 3.1 amplía las funciones de su antecesor y refina el control creativo. Ahora interpreta instrucciones en texto, imagen o vídeo breve y genera clips con sonido sincronizado. Incorpora versiones “Fast” — más ligeras — para resultados ágiles. Y ya está disponible en Flow, en la app Gemini y para desarrolladores mediante la Gemini API y Vertex AI.

En Flow, las funciones “Ingredients to Video”, “Frames to Video” y “Extend” ya integran sonido sin pasos adicionales. Además, permiten intervenciones específicas cómo insertar elementos con “Insert” y, en breve, eliminar objetos con “Remove”. Según Google, mejora la fidelidad al prompt y eleva la calidad audiovisual. También se añade soporte para vídeos en formato 16:9, tanto horizontales como verticales, optimizados para redes sociales.

Sonido, escena y continuidad narrativa

Más que ilustrar, Veo 3.1 busca narrar con recursos auditivos: voces, ambientes, efectos. Con “Frames to Video”, el usuario elige un inicio y un final, y el modelo construye una transición visual y sonora. Otra herramienta clave es “Extend”, que alarga la acción partiendo del último fotograma. La escena crece, el sonido continúa, y la lógica narrativa no se rompe. Estas extensiones pueden superar el minuto y luego encadenarse para lograr piezas más largas. En paralelo, funciones como “Insert” permiten añadir elementos nuevos, ajustando luz, escala y profundidad de campo como haría un editor. “Remove”, en desarrollo, reconstruirá el fondo tras eliminar lo que moleste.

Qué se puede hacer, cuánto cuesta y qué se vigila

Disponibilidad y coste
Veo 3.1 (y su versión Fast) está en vista previa paga a través de la Gemini API. Google mantiene el coste similar al de versiones previas, aunque medios como VentureBeat mencionan cifras estimadas de unos 40 centavos de dólar por segundo de vídeo.

Resolución y duración
El modelo genera clips en 720p y 1080p a 24 fps. La duración inicial es breve — entre 4 y 8 segundos — pero con “Extend” puede superar el minuto, según el contexto.

Moderación y transparencia
Cada vídeo incluye una marca de agua oculta basada en SynthID, lo que facilita su trazabilidad. Google aplica filtros de contenido en las API y borra automáticamente los vídeos tras dos días, salvo descarga explícita del usuario.

Lo que aún no fluye del todo

Errores sutiles y artefactos
En pruebas iniciales, algunos vídeos presentan fallos en animaciones, desajustes labiales o personajes inestables entre escenas.

Competencia fuerte
El anuncio coincide con la expansión de Sora 2 (OpenAI), que gana tracción por su estilo naturalista y facilidad de uso. Mientras Sora busca fluidez visual y viralidad, Veo apuesta por control, edición y precisión. La diferencia, más que técnica, es estratégica.

Desfase en herramientas API
No todas las funciones de Flow están aún disponibles vía API: “Remove” o “Extend”, por ejemplo, llegarán más adelante a Vertex AI.

Aprendizaje y coste
El acceso sigue limitado por coste y curva de aprendizaje. Crear vídeos coherentes requiere prompts afinados y cierto ensayo-error.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario