Alibaba ha dado un paso relevante en la carrera global por la inteligencia artificial con el anuncio de Qwen‑VLo, un modelo generativo multimodal que permite crear imágenes a partir de texto o imágenes de referencia. Pero lo que realmente distingue a esta propuesta es su innovadora forma de trabaja, el modelo no genera la imagen de golpe, sino que la va «dibujando» por etapas, mostrando el proceso como si se tratara de una obra pintada a mano. De izquierda a derecha, de arriba abajo, el usuario puede ver cómo surgen los contornos, los colores y los detalles, lo que redefine la relación entre humano y máquina en la creación visual.
Evolución directa del ecosistema Qwen
Este nuevo sistema es una evolución de Qwen2.5‑VL, lanzado a comienzos de 2025. Conserva su arquitectura multimodal y la amplía, permitiendo no solo interpretar imágenes, videos y grabaciones, sino también generar ilustraciones con gran precisión semántica. La fidelidad a las estructuras y significados originales es uno de los logros técnicos más destacados, según detalla el equipo de desarrollo.
Edición inteligente con instrucciones mínimas
Además de crear imágenes desde cero, Qwen‑VLo también puede modificarlas. Desde alterar su estilo, cambiar elementos, aplicar filtros o transformar la composición completa. Lo notable es que todas estas ediciones pueden hacerse con una sola instrucción y sin perder la coherencia visual ni el sentido de la imagen original.
El salto técnico: generación progresiva
La clave técnica detrás de estas capacidades es lo que Alibaba denomina “generación progresiva”. En lugar de construir la imagen desde ruido aleatorio, como ocurre en modelos como DALL·E o Stable Diffusion, aquí se parte de una especie de boceto difuminado que se va afinando capa a capa. Esta aproximación mejora la transparencia del proceso creativo, ya que permite intervenir mientras la imagen aún se está formando, ofreciendo mayor control y margen de ajuste al usuario.
Consistencia semántica como prioridad
Otro de los avances de Qwen‑VLo es su capacidad para mantener la coherencia entre instrucciones textuales complejas y los elementos gráficos generados. Esto resuelve uno de los problemas más frecuentes en modelos anteriores, donde pequeños cambios en la indicación podían generar resultados erráticos o contradictorios.
De uso profesional y acceso preliminar
Por el momento el modelo ya está disponible en versión beta, a través de la plataforma Qwen Chat, tanto en inglés como en chino, y Alibaba ha anunciado que trabaja en su expansión a más idiomas. Su estrategia apunta a profesionales del marketing, la educación y el diseño, con la promesa de facilitar la creación de piezas visuales complejas con calidad profesional.
Alibaba se posiciona en la carrera global de la IA
Pese a estar en fase preliminar, Qwen‑VLo representa un avance significativo en la generación de imágenes asistida por IA. Alibaba busca con este lanzamiento reforzar su posición en un mercado dominado por actores como OpenAI y Google, y lo hace integrando este nuevo modelo dentro de su creciente ecosistema Qwen, que ya abarca texto, audio, video y razonamiento lógico. Con ello, la compañía china demuestra que su apuesta por la IA es tanto tecnológica como estratégica.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.