Modo direct vs thinking

Diferencia operativa

Direct

Respuestas rápidas y económicas para asistentes, RAG, clasificación, extracción y flujos interactivos.

default

Thinking

Más tokens internos y más latencia para planificación, análisis complejo o tareas multi-paso.

opt-in

Coste de latencia

En benchmarks internos, thinking fue aproximadamente 10x más lento y generó muchos más tokens que direct. Por eso Tessera lo deja fuera del SLA de TTFT y lo controla por cuota.

Modo	Uso recomendado	SLA TTFT	Cuota
Direct	Producción interactiva	Cubierto por tier	Incluido
Thinking	Razonamiento puntual	No cubierto	Según tier

Cómo activarlo o desactivarlo

El interruptor real es `chat_template_kwargs.enable_thinking` — un campo que Tessera reenvía al chat template de Qwen en el backend. El parámetro `reasoning_effort` de la API de OpenAI **no se traduce** a este flag y se ignora silenciosamente. Si tu cliente es el SDK oficial de OpenAI, pásalo dentro de `extra_body` como muestra el ejemplo. Para garantizar modo direct en producción, pásalo `false` explícitamente — no asumas el default.

Activar thinking (Python SDK)

client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=[{"role": "user", "content": "Evalúa este plan"}],
    extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)