Voxtral: el modelo de voz de Mistral que entiende, transcribe y actúa

La startup francesa Mistral ha presentado Voxtral, su primer modelo de voz de código abierto pensado para empresas. Promete transcribir, comprender y ejecutar órdenes habladas, con precisión profesional y sin depender de plataformas cerradas.

Cómo funciona Voxtral

Voxtral es un modelo de inteligencia artificial que convierte audio en texto y entiende lo que se dice. Usa como base Mistral Small 3.1, un modelo entrenado para captar el significado completo de una conversación.
Hay dos versiones: una pequeña (Mini, con 3.000 millones de parámetros) para funcionar en dispositivos locales o edge; y otra más grande (Small, con 24.000 millones) pensada para servidores en la nube. Ambas permiten analizar hasta 30 minutos de audio con comprensión contextual.

Qué ofrece exactamente

Voxtral transcribe audio en varios idiomas —español, inglés, francés, alemán, italiano, portugués, holandés e hindi— y también permite interactuar con el contenido. Por ejemplo, se le puede preguntar sobre lo que alguien dijo o pedirle que resuma una conversación.
Además, va un paso más allá y puede detectar comandos en la voz y lanzar acciones automáticas, como responder correos o activar sistemas externos, sin intervención humana.

Datos, privacidad y control

El modelo es completamente open source, bajo licencia Apache 2.0. Eso significa que las empresas pueden usarlo, adaptarlo y alojarlo sin ceder sus datos a terceros.
Está disponible a través de una API o para descarga directa desde plataformas como Hugging Face, lo que facilita integrarlo en productos propios o usarlo en entornos privados.

Qué rendimiento ofrece

En pruebas publicadas por Mistral, Voxtral supera a modelos populares como Whisper (de OpenAI), ElevenLabs Scribe y Gemini 2.5 Flash tanto en precisión como en coste.
La versión Mini, optimizada para transcribir, también mantiene un rendimiento alto y coste bajo, lo que la hace atractiva para desarrollos móviles o sin conexión.

El dilema del modelo abierto

El lanzamiento plantea una vieja tensión en el mundo de la IA: modelos cerrados que ofrecen resultados pulidos pero poco controlables, frente a opciones abiertas que priorizan transparencia y flexibilidad. Voxtral quiere ocupar un punto medio: abierto pero fiable.
El reto será ver si mantiene su nivel en entornos reales, donde la calidad del audio, los acentos o el ruido pueden complicar la comprensión. Y si no se repiten problemas como los de Whisper, que llegó a inventar palabras en el proceso de transcripción.

Qué se mueve en el sector

Voxtral se suma al reciente modelo Magistral, de la misma empresa, enfocado en razonamiento. Mistral, apoyada por Microsoft y fondos de Abu Dhabi, compite directamente con gigantes como OpenAI y Google. Su estrategia se basa en ofrecer IA potente sin cerrarla al público ni atarla a una plataforma.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Voxtral: el modelo de voz de Mistral que entiende, transcribe y actúa

Cómo funciona Voxtral

Qué ofrece exactamente

Datos, privacidad y control

Qué rendimiento ofrece

El dilema del modelo abierto

Qué se mueve en el sector

Etiquetas:

Aina Vall

Entrada anteriorCuatro brújulas para crecer con la IA sin perder el norte

Siguiente entradaGoogle abre la libreta: llegan los notebooks ya hechos a su asistente de IA

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)