Conceptos

Modo direct vs thinking

Qwen 3.6 expone dos modos en el mismo modelo. Direct es el recomendado para flujos interactivos; thinking activa razonamiento extendido cuando aceptas más latencia. El conmutador es `chat_template_kwargs.enable_thinking` y debe pasarse explícitamente — no confíes en defaults silenciosos.

Diferencia operativa

Direct

Respuestas rápidas y económicas para asistentes, RAG, clasificación, extracción y flujos interactivos.

default

Thinking

Más tokens internos y más latencia para planificación, análisis complejo o tareas multi-paso.

opt-in

Coste de latencia

En benchmarks internos, thinking fue aproximadamente 10x más lento y generó muchos más tokens que direct. Por eso Tessera lo deja fuera del SLA de TTFT y lo controla por cuota.

ModoUso recomendadoSLA TTFTCuota
DirectProducción interactivaCubierto por tierIncluido
ThinkingRazonamiento puntualNo cubiertoSegún tier

Cómo activarlo o desactivarlo

El interruptor real es `chat_template_kwargs.enable_thinking` — un campo que Tessera reenvía al chat template de Qwen en el backend. El parámetro `reasoning_effort` de la API de OpenAI **no se traduce** a este flag y se ignora silenciosamente. Si tu cliente es el SDK oficial de OpenAI, pásalo dentro de `extra_body` como muestra el ejemplo. Para garantizar modo direct en producción, pásalo `false` explícitamente — no asumas el default.

Activar thinking (Python SDK)
client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=[{"role": "user", "content": "Evalúa este plan"}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)