Benchmarks de Qwen 3.6 35B: 73.4% SWE-bench, 86 GPQA (2026)
Blog

Benchmarks de Qwen 3.6 35B: 73.4% SWE-bench, 86 GPQA (2026)

Qwen 3.6 35B-A3B obtiene 73.4 en SWE-bench Verified, 86.0 en GPQA y 92.7 en AIME 2026, superando a Gemma 4-31B. Tabla completa de benchmarks y despliegue.

Tessera 10 min de lectura Qwen 3.6 35B-A3BAlibabaSWE-bench VerifiedGPQAAIME 2026

Benchmarks de Qwen 3.6 35B: 73.4% SWE-bench, 86 GPQA (2026)

Qwen 3.6 35B-A3B obtiene 73.4 en SWE-bench Verified, 86.0 en GPQA Diamond y 92.7 en AIME 2026, según el model card oficial. Supera a Gemma 4-31B en codificación (73.4 vs 52.0) activando solo 3 mil millones de sus 35 mil millones de parámetros por token.

Alibaba publicó el modelo bajo Apache 2.0 el 16 de abril de 2026, sin umbrales de ingresos ni límites de uso para despliegues comerciales. Su arquitectura de mezcla de expertos combina puntuaciones de codificación y razonamiento de primer nivel con el perfil de rendimiento de un modelo denso mucho más pequeño.

Resumen de Benchmarks

BenchmarkQwen 3.6 35B-A3BGemma 4-31BQwen 3.5 35B-A3B
SWE-bench Verified (código)73.452.070.0
Terminal-Bench 2.0 (agéntico)51.542.940.5
MCPMark (uso de herramientas)37.018.127.0
LiveCodeBench v680.480.074.6
GPQA Diamond (razonamiento)86.084.384.2
AIME 2026 (matemáticas)92.789.291.0
MMLU-Pro (conocimiento)85.285.285.3
MMMU-Pro (visión)75.376.975.1

Todas las cifras provienen del model card oficial de Qwen3.6-35B-A3B. El modelo lidera su categoría de tamaño en codificación agéntica y uso de herramientas, compite de tú a tú en conocimiento, y queda justo por detrás de Gemma 4-31B en razonamiento visual.

Arquitectura y Eficiencia

Qwen3.6-35B-A3B usa un diseño de mezcla de expertos con 256 expertos, de los cuales 8 expertos enrutados más 1 compartido se activan por pasada hacia adelante. Eso significa que unos 3 mil millones de los 35 mil millones de parámetros trabajan en cada token, lo que mantiene bajo el coste computacional mientras el conjunto completo de pesos reside en VRAM. El enrutamiento selecciona los expertos activos a partir de los embeddings de los tokens de entrada, reduciendo la latencia frente a modelos densos de tamaño total similar.

La longitud de contexto es amplia: 262.144 tokens de forma nativa, extensible hasta cerca de 1.010.000 tokens con escalado YaRN. Ese margen importa para la codificación a nivel de repositorio y el análisis de documentos largos, donde las puntuaciones agénticas de arriba se traducen en flujos de trabajo reales.

La planificación de memoria depende de la precisión. Los 35 mil millones de parámetros completos en FP16 necesitan unos 70 GB de VRAM, por lo que un único acelerador de 80 GB o una configuración de doble GPU lo ejecutan de forma nativa. Una RTX 4090 de consumo con 24 GB puede servirlo con cuantización de 4 bits, que reduce la huella a unos 18 a 20 GB. Para la mayoría de flujos de codificación y documentos, 4 bits introduce una degradación insignificante; las tareas matemáticas o de lógica en varios pasos se benefician de precisión de 8 bits o FP16.

La gestión de la caché KV es crítica en ventanas de contexto largas. Usa procesamiento por lotes continuo para mantener el pipeline de la GPU lleno, y aplica atención de ventana deslizante o políticas de desalojo de caché KV al procesar documentos que superan los límites estándar. Las implementaciones de PagedAttention en frameworks como vLLM reducen la fragmentación de memoria tratando la caché como bloques de tamaño fijo.

El modo de razonamiento añade latencia pero aumenta las tasas de éxito en tareas de codificación en varios pasos. El modelo ejecuta pasadas de verificación internas antes de devolver una respuesta. El cambio entre salida directa y razonamiento extendido se gestiona de forma nativa en la API; actívalo solo para lógica compleja o depuración.

Desglose de Benchmarks: Codificación y Tareas Agénticas

El resultado estrella es 73.4 en SWE-bench Verified, el benchmark que mide si un modelo puede resolver issues reales de GitHub de principio a fin. Eso supera a Gemma 4-31B (52.0) por más de 20 puntos y adelanta a la versión anterior Qwen 3.5 35B-A3B (70.0). En LiveCodeBench v6 obtiene 80.4, prácticamente igualando a Gemma 4-31B (80.0) y por encima de Qwen 3.5 (74.6).

Los benchmarks agénticos y de uso de herramientas son donde la mejora generacional es más clara. Qwen 3.6 obtiene 51.5 en Terminal-Bench 2.0 (frente a 40.5 en 3.5) y 37.0 en MCPMark (frente a 27.0), más del doble del 18.1 de Gemma 4-31B en uso de herramientas. El modelo gestiona bases de código de múltiples archivos con nomenclatura de variables coherente y estructuras de importación, y rinde mejor en Python y JavaScript.

Al desplegar agentes, aísla la ejecución de herramientas de la generación. Usa un pipeline de dos pasos: el modelo primero planifica la secuencia de llamadas a herramientas y luego las ejecuta con parámetros validados. Registrar los pasos intermedios proporciona visibilidad sobre dónde el agente se desvía del comportamiento esperado.

La gestión de estado compleja a través de muchas llamadas a la API todavía puede introducir deriva. Valida el enrutamiento de herramientas en un conjunto de datos representativo antes de escalar a producción, define firmas de herramientas mutuamente excluyentes, aplica validación estricta de esquemas JSON en el lado del cliente e implementa un bucle de reintento que corrija los parámetros malformados antes de la siguiente llamada.

Benchmarks de Conocimiento y Razonamiento

En razonamiento, Qwen 3.6 anota 86.0 en GPQA Diamond (ciencia de nivel posgrado) y 92.7 en AIME 2026 (matemáticas de competición), ambos a la cabeza de su categoría de tamaño y por delante de Gemma 4-31B (84.3 y 89.2). En MMLU-Pro obtiene 85.2, a la par de Gemma 4-31B y a una fracción del modelo denso mayor Qwen 3.5 27B.

Las sólidas puntuaciones de matemáticas y ciencia reflejan una deducción fiable en varios pasos. En dominios muy especializados el modelo todavía puede generar detalles plausibles pero inexactos, un rasgo común en arquitecturas de escala media. Para aplicaciones que requieren verificación rigurosa de hechos, fundamenta las respuestas con un pipeline de generación aumentada por recuperación antes de que el modelo produzca la salida final.

El ajuste fino en conjuntos de datos específicos del dominio puede cubrir áreas de conocimiento débiles sin reentrenar el modelo completo. Apache 2.0 permite el ajuste fino sin restricciones, y los adaptadores LoRA ofrecen una alternativa eficiente en parámetros que reduce el uso de memoria durante el entrenamiento. Entrena con un conjunto curado de 10.000 a 50.000 ejemplos de alta calidad y valida en un conjunto de prueba reservado para medir las mejoras específicas de la tarea.

Razonamiento Visual y Rendimiento Multimodal

Qwen 3.6 35B acepta medios mixtos a través de un único endpoint y se defiende bien en visión. Obtiene 75.3 en MMMU-Pro, justo por detrás de Gemma 4-31B (76.9) pero cómodamente por delante de Claude Sonnet 4.5 (68.4) en el mismo benchmark. En MMMU estándar alcanza 81.7, y en RealWorldQA anota 85.3, muy por encima del 72.3 de Gemma 4-31B.

La diferencia que queda aparece en tareas que requieren razonamiento espacial detallado o extracción densa de gráficos. Para flujos con gran cantidad de gráficos, complementa el modelo con un motor OCR dedicado para extraer datos tabulares antes del análisis. El análisis de documentos y la alineación imagen-texto se mantienen en flujos de trabajo técnicos y legales.

Los tokens de visión cuentan contra tu ventana de contexto. Cada imagen consume típicamente entre 256 y 1.024 tokens según la resolución y la compresión. Reduce las imágenes a 1024×1024 antes de procesarlas a menos que tu flujo requiera mayor fidelidad, y recorta los márgenes irrelevantes para reducir el desperdicio de tokens. Agrupa tipos de solicitudes similares para optimizar la GPU, juntando los prompts con muchas imágenes y separando las solicitudes de solo texto para evitar bloqueos en el pipeline.

Despliegue en Producción e Integración de API

La API compatible con OpenAI se integra en las integraciones existentes sin cambios de código, y la licencia Apache 2.0 cubre el uso comercial sin límites de uso ni umbrales de ingresos. Los proveedores alojados avanzan hacia precios mensuales fijos en lugar de facturación variable por token, lo que simplifica la previsión de costes. Usa la calculadora de precios de tu proveedor para estimar el gasto mensual según el volumen de tokens esperado y la concurrencia.

Configura la lógica de reintento con retroceso exponencial para gestionar errores transitorios de límite de velocidad, e implementa agrupación de conexiones para reutilizar conexiones HTTP y reducir la sobrecarga de negociación. Configura alertas de monitorización para la profundidad de la cola y los picos de latencia para detectar cuellos de botella antes de que afecten a los usuarios finales.

Para agentes que requieren ejecución estricta de herramientas, establece la temperatura en cero y usa formato de salida estructurado para minimizar la deriva por alucinación. El autoalojamiento requiere atención al aprovisionamiento de GPU, el equilibrio de carga y el control de versiones del modelo. Usa despliegues en contenedores con comprobaciones de estado y reinicios automáticos para mantener el tiempo de actividad.

Estrategias de Optimización para Producción

Desplegar Qwen 3.6 35B a escala requiere atención al procesamiento por lotes y al almacenamiento en caché. Agrupa solicitudes similares para maximizar la utilización de la GPU y reducir la latencia por token. Implementa caché de respuestas para prompts idénticos o casi idénticos para reducir costes en tareas repetitivas como el formateo de código o el resumen de documentos.

Monitoriza la fragmentación de la memoria de la GPU. Los servidores de inferencia de larga duración pueden acumular VRAM fragmentada con el tiempo, lo que lleva a errores inesperados de falta de memoria. Programa reinicios periódicos del servidor o implementa rutinas de limpieza automática de memoria para mantener un rendimiento estable.

Para aplicaciones de alto rendimiento, considera los servidores de inferencia vLLM o TGI. Estos frameworks optimizan la gestión de memoria y admiten procesamiento por lotes continuo, con métricas integradas para tokens por segundo, tiempos de espera en cola y tasas de error. Realiza pruebas de carga bajo condiciones de tráfico pico para dimensionar correctamente tu infraestructura antes de entrar en producción.

Despliega Qwen 3.6 35B en Tessera

Ejecutar Qwen3.6-35B-A3B en producción en los clústeres de GPU de la UE y LATAM de Tessera mantiene la latencia de inferencia predecible y los precios fijos. Los nodos dedicados en Frankfurt y São Paulo eliminan los efectos de vecino ruidoso que hacen inestables a los proveedores compartidos por token durante el tráfico pico, y los datos permanecen en la región seleccionada para los marcos de cumplimiento del RGPD y LATAM.

La API compatible con OpenAI acepta el código de cliente existente sin cambios. Los equipos actualizan la URL base y el encabezado de autenticación, y las integraciones existentes con el SDK de OpenAI continúan funcionando para completaciones de chat, streaming y llamadas a herramientas. Los precios mensuales fijos, detallados en nuestra guía de planes y límites, cubren todas las cargas de trabajo de inferencia en la GPU reservada, por lo que los rastros de razonamiento extendido en modo de razonamiento no generan cargos adicionales por token.

Para proyectar el coste de ejecutar las cargas de SWE-bench y GPQA de arriba frente a tu propio volumen de tokens, la calculadora de precios de Tessera estima el gasto mensual según el rendimiento esperado y la carga de solicitudes concurrentes.

Preguntas Frecuentes

¿Es Qwen 3.6 35B de código abierto?

Sí. Alibaba lo publicó bajo Apache 2.0 el 16 de abril de 2026, cubriendo el uso comercial sin restricciones. Los pesos están disponibles públicamente para autoalojamiento o ajuste fino.

¿Cómo se compara Qwen 3.6 35B con Qwen 3.5?

Es un salto claro en trabajo agéntico. Qwen 3.6 obtiene 73.4 en SWE-bench Verified frente a 70.0 de Qwen 3.5 35B-A3B, 51.5 en Terminal-Bench 2.0 frente a 40.5, y 37.0 en MCPMark frente a 27.0. Los benchmarks de conocimiento como MMLU-Pro quedan prácticamente igual.

¿Cuál es la ventana de contexto de Qwen 3.6 35B?

262.144 tokens de forma nativa, extensible hasta cerca de 1.010.000 tokens con escalado YaRN. La ventana larga encaja con la codificación a nivel de repositorio y el análisis de documentos largos.

¿Admite Qwen 3.6 35B el modo de razonamiento?

Sí. El modo de razonamiento está integrado para tareas de razonamiento complejo y codificación en varios pasos. Actívalo o desactívalo a través de la API sin cambiar el formato de tu prompt.

¿Es el modelo adecuado para flujos de trabajo agénticos en producción?

Sí. Sus puntuaciones en Terminal-Bench 2.0 y MCPMark lideran su categoría de tamaño. La gestión de estado compleja todavía requiere un diseño cuidadoso del prompt y validación antes de escalar.

¿Cómo gestiono los límites de velocidad en producción?

Configura la lógica de reintento con retroceso exponencial, monitoriza el panel de tu proveedor para el uso de cuota y ajusta la configuración de concurrencia para mantenerte dentro de los límites seguros.

¿Puedo ajustar este modelo?

Sí. Apache 2.0 permite el ajuste fino mediante pipelines estándar de LoRA o ajuste fino completo. Valida en un conjunto de prueba reservado para medir las mejoras específicas de la tarea.

¿Qué hardware necesito para el autoalojamiento?

FP16 necesita unos 70 GB de VRAM, por lo que un acelerador de 80 GB o una configuración de doble GPU. Una RTX 4090 de 24 GB puede servir el modelo con cuantización de 4 bits a unos 18 a 20 GB.