El nuevo sistema de síntesis de voz de ElevenLabs incorpora emociones, soporte multilingüe y la capacidad de generar diálogos
Con el lanzamiento del modelo Eleven v3, la empresa estadounidense ElevenLabs ha decidido que las voces sintéticas ya no deben sonar sintéticas y aburridas. Ahora son capaces de reir, emocionar-se, suspirar y hasta cantar. Y, además, lo pueden hacer en más de 70 idiomas. Y sorpresa, uno de ellos: el catalán. Con etiquetas como [suspira] o [ríe], la máquina incorpora estos maticees y así las frases parecen mucho más humanas. Ya no se trata solo de leer un texto, sino de interpretarlo. La IA empieza a hacer teatro.
El catalán, con voz propia
Aunque ElevenLabs ya ofrecía soporte para catalán en su sistema de transcripción (Scribe v1), donde alcanzaba una tasa de error del 2,5% en el benchmark FLEURS, la novedad es su integración total en la generación de voz. Esto permite usar el catalán en contextos donde la expresividad vocal es clave, como audiolibros, pódcasts o asistentes virtuales.
Según la compañía, todas las voces pueden ajustarse para hablar en cualquiera de los idiomas soportados, lo que incluye la creación de escenas multilingües o emotivas en catalán con naturalidad.
Una infinidad de posibilidades nuevas
Con este nuevo modelo es posible crear personajes en catalán —y 69 idiomas más— que hablen con emoción. Podcasts, audiolibros, videojuegos… Un universo que hasta hace poco solo hablaba en inglés. Y ahora, con algo de ingenio y unas cuantas etiquetas, puedes hacer que una voz digital lea un poema de Salvador Espriu como si estuviera lloviendo en Sinera. Es solo una herramienta, sí. Pero las herramientas, en manos creativas, cambian realidades.
Sin API, pero con descuento
La versión alpha está disponible vía web con un descuento del 80% hasta finales de junio. La API aún no ha salido, pero todo llega. Por ahora, toca jugar. Probar. Y ver hasta dónde puede llegar una máquina cuando aprende no solo a hablar, sino a decir algo con sentido.