Mercury 2, el LLM “por difusión” que cambia la conversación sobre velocidad: 1.000 tokens por segundo en GPU

Inception presenta Mercury 2, un modelo de lenguaje que abandona la generación palabra a palabra y promete respuestas “en tiempo real” con más de 1.000 tokens por segundo, abaratando el coste por uso y apuntando directamente a agentes, voz y flujos de trabajo en bucle.

Durante dos años, la industria de la IA generativa ha vivido obsesionada con una métrica: “¿qué modelo razona mejor?”. En 2026, empieza a imponerse otra pregunta igual de incómoda: ¿a qué velocidad puede hacerlo sin romper la experiencia, el coste y la escalabilidad? En ese giro entra Mercury 2, el nuevo modelo de Inception, que se presenta como el LLM de razonamiento más rápido y lo hace con una idea que suena contraintuitiva para el público general, pero muy clara para cualquier ingeniero de producto: cambiar el motor de generación.

La promesa es contundente: 1.009 tokens por segundo en GPUs de última generación (NVIDIA Blackwell, según la compañía), con un enfoque “de difusión” en lugar del mecanismo autoregresivo clásico. En cristiano: en vez de escribir como una máquina de escribir —token a token, de izquierda a derecha—, Mercury 2 trabaja como un editor que produce un borrador y lo refina en paralelo en pocos pasos, hasta converger. La velocidad ya no es un “extra”; pasa a ser el núcleo del diseño.

Por qué ahora la velocidad pesa más que antes

El argumento de Inception no es “queremos que el chat responda más rápido”, sino que la IA en producción ya no es una pregunta y una respuesta. Es una cadena: agentes que llaman a herramientas, sistemas de recuperación (RAG) que consultan varias fuentes, extracción de datos, verificación, reintentos, validaciones, y vuelta a empezar. Cada paso añade latencia. Y cuando esa latencia se multiplica por usuarios, por concurrencia y por picos de carga, el sistema deja de “sentirse inteligente” y pasa a sentirse lento.

Aquí está la tesis más relevante: la latencia compuesta mata los flujos en bucle. En un asistente de programación, un retraso de dos segundos te saca del estado mental; en voz, te rompe el turno conversacional; en agentes, te encarece cada iteración y te obliga a recortar pasos (o calidad). Mercury 2 intenta atacar exactamente ese cuello de botella.

La pieza técnica: del “uno a uno” a la refinación paralela

La mayoría de grandes modelos actuales comparten un patrón: decodificación secuencial. Predicen el siguiente token condicionado por los anteriores, repiten y repiten. Es robusto, universal, y ha sido el estándar porque encaja con el entrenamiento masivo y con las infraestructuras existentes.

El enfoque por difusión propone otra dinámica: generar una estructura inicial y refinar múltiples partes a la vez, convergiendo en un número pequeño de pasos. Es la misma familia conceptual que convirtió la generación de imagen en un fenómeno mainstream: en vez de “dibujar línea a línea”, “pules” una aproximación hasta que toma forma. Lo importante aquí no es la metáfora, sino el efecto: rompe la dependencia estricta de la secuencia y desplaza la curva coste–calidad–tiempo.

Ese cambio tiene consecuencias prácticas:

Más throughput bajo alta concurrencia (si el sistema se diseña bien).
Más margen para razonamiento sin disparar latencia, porque parte del “cómputo de test” puede integrarse en el proceso de refinación.

Nuevos perfiles de coste: la velocidad no solo se nota; también puede abaratar el “coste por resultado” si reduces reintentos o acortas cadenas.

Las cifras: velocidad, precio y prestaciones “de producto”
Inception acompaña el anuncio con un paquete que, visto como producto, apunta al mercado de desarrolladores y operaciones:
Velocidad: alrededor de 1.000 tokens/seg en GPUs NVIDIA Blackwell (y la familia Mercury ya venía comunicando cifras similares en NVIDIA H100 en su narrativa pública).
Precio: 0,25 dólares por 1 millón de tokens de entrada y 0,75 dólares por 1 millón de tokens de salida.
Contexto: 128K.
Uso nativo de herramientas y salida JSON alineada a esquema, dos requisitos cada vez más “obligatorios” cuando dejas el chat y pasas a automatización y agentes.
En un mercado donde el precio por token se está convirtiendo en palanca estratégica, estas cifras no son decoración: buscan posicionar Mercury 2 como infraestructura de bajo coste para cargas intensivas, no como “modelo boutique”.
Qué aplicaciones desbloquea (si cumple en la práctica)
Inception enmarca Mercury 2 en cuatro frentes donde el usuario nota la latencia:
1) Programación y edición interactiva.
Autocompletado, refactors, sugerencias de “siguiente edición”, agentes de código… La velocidad decide si el producto se integra en el flujo mental del desarrollador o si se convierte en una herramienta de consulta externa.
2) Agentes y bucles de herramientas.
Un agente útil no hace una llamada; hace docenas. Reducir latencia por llamada no solo ahorra tiempo: permite más pasos, por tanto mejores resultados. La velocidad es calidad indirecta.
3) Voz y conversación en tiempo real.
La voz no perdona: si el sistema duda, el usuario lo percibe como torpeza social. Un modelo rápido puede sostener razonamiento sin “pausas de robot”, siempre que el stack completo acompañe (ASR, TTS, herramienta, red).
4) Búsqueda y RAG con razonamiento.
La recuperación multihop suma latencias. Si el modelo es más rápido, puedes permitir más verificación, más re-ranking o mejores resúmenes sin reventar el tiempo total.
La pregunta crítica: ¿velocidad a cambio de qué?
Cuando aparece un salto de arquitectura, el mercado debe desconfiar por defecto y preguntar por tres cosas:
Calidad bajo presión. No solo “benchmark”, sino rendimiento estable con prompts largos, datos ruidosos, y herramientas reales.
Consistencia. La velocidad importa si no introduce variabilidad extraña entre turnos o degradaciones cuando el sistema está ocupado (p95/p99).
Alineamiento y control. Si el modelo “razona” más rápido, también puede equivocarse más rápido. El valor real está en cómo se instrumenta: logs, evaluaciones, guardrails, pruebas.
Inception y terceros citan competitividad frente a modelos “speed-optimized” y señalan metodologías de medición, pero el listón de la industria ya no es una demo: es producción con SLA.
Un movimiento con lectura estratégica: menos culto al modelo, más culto al sistema
Mercury 2 llega en un momento en que la IA se desplaza de “asistente brillante” a infraestructura operativa. En esa transición, la ventaja no siempre es “ser el más listo”, sino ser el más útil dentro del presupuesto de tiempo. Si la difusión aplicada al lenguaje se consolida, puede abrir una bifurcación en el mercado:
Autoregresivos cada vez mejores para tareas de máxima fidelidad.
Modelos por difusión u otros enfoques para interacción instantánea, agentes y cargas masivas.
Y si eso ocurre, la competencia dejará de ser solo de “IQ de benchmark” para parecerse más a la industria de bases de datos o motores de búsqueda: latencia, coste, fiabilidad y ergonomía de integración.

Etiquetas:

1000 tokens/s 128K contexto agentes de IA agentic workflows arquitectura de modelos Artificial Analysis arXiv autocompletado Business Wire búsqueda con IA concurrencia coste por token decodificación autoregresiva diffusion LLM generación paralela GPU Inception inferencia inferencia barata JSON estructurado latencia LLM de difusión Mercury 2 modelo de lenguaje NVIDIA Blackwell programación con IA RAG razonamiento Stefano Ermon throughput tokens por segundo tool use voz en tiempo real

Mercury 2, el LLM “por difusión” que cambia la conversación sobre velocidad: 1.000 tokens por segundo en GPU

Inception presenta Mercury 2, un modelo de lenguaje que abandona la generación palabra a palabra y promete respuestas “en tiempo real” con más de 1.000 tokens por segundo, abaratando el coste por uso y apuntando directamente a agentes, voz y flujos de trabajo en bucle.

Por qué ahora la velocidad pesa más que antes

La pieza técnica: del “uno a uno” a la refinación paralela

Etiquetas:

Paréntesis MEDia

Entrada anteriorNano Banana 2: Google acelera la creación de imágenes con IA y baja el listón de entrada al “nivel Pro”

Siguiente entradaGoogle confirma que Aletheia ha resuelto 6 de los 10 retos de First Proof

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)