Diferencia operativa
Direct
Respuestas rápidas y económicas para asistentes, RAG, clasificación, extracción y flujos interactivos.
Thinking
Más tokens internos y más latencia para planificación, análisis complejo o tareas multi-paso.
Coste de latencia
En benchmarks internos, thinking fue aproximadamente 10x más lento y generó muchos más tokens que direct. Por eso Tessera lo deja fuera del SLA de TTFT y lo controla por cuota.
| Modo | Uso recomendado | SLA TTFT | Cuota |
|---|---|---|---|
| Direct | Producción interactiva | Cubierto por tier | Incluido |
| Thinking | Razonamiento puntual | No cubierto | Según tier |
Cómo activarlo o desactivarlo
El interruptor real es `chat_template_kwargs.enable_thinking` — un campo que Tessera reenvía al chat template de Qwen en el backend. El parámetro `reasoning_effort` de la API de OpenAI **no se traduce** a este flag y se ignora silenciosamente. Si tu cliente es el SDK oficial de OpenAI, pásalo dentro de `extra_body` como muestra el ejemplo. Para garantizar modo direct en producción, pásalo `false` explícitamente — no asumas el default.
client.chat.completions.create(
model="Qwen/Qwen3.6-35B-A3B",
messages=[{"role": "user", "content": "Evalúa este plan"}],
extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)