Alibaba ha lanzado una nueva generación de modelos de lenguaje impulsados por inteligencia artificial (IA), Qwen3-Next, que destacan por su eficiencia gracias a innovaciones como el mecanismo de atención híbrido, una arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) dispersa y avances en la atención híbrida.
La compañía china ha explicado que el escalado de longitud de contexto y el escalado de parámetros totales son «dos tendencias clave» para el futuro de los modelos grandes (LLM), por lo que sus nuevos modelos van encaminados en esta dirección.
Basada en la familia Qwen3, Alibaba ha lanzado una nueva generación de modelos de IA, Qwen3-Next, centrados en mejorar la eficiencia del entrenamiento y la inferencia en entornos de contexto extenso y parámetros grandes, según ha recogido la compañía en su página web.
Uno de estos modelos, el Qwen3-Next-80B-A3B-Base, funciona con una arquitectura MoE dispersa, basada en 80.000 millones de parámetros totales pero sólo unos 3.000 millones de parámetros activados por paso de inferencia, lo que reduce en gran medida el coste computacional sin sacrificar la calidad del modelo.
Los modelos de IA funcionan como un cerebro que tiene que usar todas sus neuronas para cada pregunta, lo que es lento y consume mucha energía; con el Qwen3-Next-80B-A3B-Base, Alibaba ha diseñado un modelo que funciona de otra manera, ya que opera con un ‘equipo de especialistas’ para cada pregunta, por lo que el modelo sólo activa a los expertos necesarios, logrando una eficiencia «extrema» tanto en el entrenamiento como en la inferencia.
Los nuevos modelos basan sus mejora en avances como la atención híbrida, que se ha conseguido con la incorporación de la tecnología Gated DeltaNet combinado con Gated Attention, que reemplaza la atención estándar para mejorar la capacidad de aprendizaje en contexto al tiempo que mejorar la eficiencia computacional.
Alibaba ha explicado que la combinación de los dos métodos (75 por ciento utilizan Gated DeltaNet y el 25 por ciento conserva la atención estándar) consigue un mayor rendimiento y una mayor eficiencia.
Por su parte, Alibaba ha implantado en su nueva familia de modelos una predicción multitoken (MTP), que impulsa tanto el rendimiento del modelo como la eficiencia de inferencia, y ha desarrollado optimizaciones que favorecen la estabilidad del entrenamiento, lo que hace que el modelo a gran escala se ejecute con mayor fluidez.
DOS VERSIONES POSTENTRENADAS BASADAS EN LA ANTERIOR
Asimismo, Alibaba ha lanzado dos versiones postentrenadas basadas en el anterior modelo: Qwen3-Next-80B-A3B-Instruct y Qwen3-Next-80B-A3B-Thinking. La primera tiene un rendimiento comparable al del modelo insignia de la empresa china, Qwen3-235B-A22B-Instruct-2507, y muestra «claras ventajas» en tareas que requieren un contexto muy extenso (hasta 256.000 tokens).
Por su parte, el modelo Qwen3-Next-80B-A3B-Thinking destaca en tareas de razonamiento complejo, superando a modelos de mayor coste como el Qwen3-30B-A3B-Thinking-2507 y el Qwen3-32B-Thinking, superando al Gemini 2.5 Flash de código cerrado en múltiples pruebas de referencia y acercándose al rendimiento del modelo de gama alta de Alibaba, el Qwen3-235B-A22B-Thinking-2507, según ha precisado la compañía.
COMPARACIÓN CON OTROS MODELOS
Algunas pruebas realizadas por la compañía Artificial Analysis han recogido que el modelo Qwen3-Next-80B-A3B-Base está por delante de otros modelos como DeepSeek V3.1 o Gemini 2.5 Flash en cuanto a inteligencia, es decir, la capacidad para procesar grandes volúmenes de datos.
Del mismo modo, en lo referente a la velocidad o la cantidad de tokens que emite por segundo, el modelo de Alibaba se posiciona en mejor posición que Claude 4 Sonnet o Grok 4.