API Reference

/v1/audio/transcriptions

Transcripción de audio a texto. Dos modelos disponibles sobre el mismo endpoint: `whisper-large-v3` (calidad máxima) y `whisper-large-v3-turbo` (decoder destilado, hasta ~54% más rápido en audio largo). Multilingües, optimizados para español, inglés, portugués y catalán.

Resumen

Convierte audio (mp3, wav, m4a, flac, ogg, webm, mp4) en texto. Devuelve transcripciones con timestamps por segmento, identificación automática de idioma y opcionalmente formatos SRT/VTT listos para subtitulado.

Modelos disponibles

Dos variantes de Whisper large-v3 servidas por el mismo endpoint. Comparten el encoder; turbo recorta el decoder de 32 a 4 capas (destilación). La elección depende del caso de uso: precisión vs latencia.

ModeloDecoderCuándo usarlo
`whisper-large-v3`32 capas (full)Dictado, podcast, transcripción médica/legal, batch asíncrono donde la calidad manda
`whisper-large-v3-turbo`4 capas (destilado)Captions en vivo, agentes de voz, voicebots, cualquier flujo donde la latencia importe

Endpoint y modelo

POST `https://api.tesseraai.cloud/v1/audio/transcriptions` con `multipart/form-data`. Campo `model`: `whisper-large-v3` o `whisper-large-v3-turbo`.

AtributoValor
Idiomas nativosEspañol, inglés, portugués, catalán (más 95 con calidad reducida)
Formatos de entradamp3, wav, m4a, flac, ogg, webm, mp4
Formatos de salidajson (default), text, srt, vtt, verbose_json
Tamaño máximo25 MB por archivo
LicenciaMIT

Request

POST /v1/audio/transcriptions
curl https://api.tesseraai.cloud/v1/audio/transcriptions \
  -H "Authorization: Bearer $TESSERA_API_KEY" \
  -F "[email protected]" \
  -F "model=whisper-large-v3-turbo" \
  -F "language=es" \
  -F "response_format=json"

Response

Por defecto devuelve `{"text": "..."}`. Con `response_format=verbose_json` añade `language`, `duration` y `segments[]` con timestamps individuales.

verbose_json
{
  "text": "La inteligencia artificial está cambiando la manera en que trabajamos.",
  "language": "es",
  "duration": 3.984,
  "segments": [
    {
      "id": 1,
      "start": 0.0,
      "end": 3.76,
      "text": " La inteligencia artificial está cambiando...",
      "avg_logprob": -0.05
    }
  ]
}

Buenas prácticas

  • Si conoces el idioma de antemano, pásalo en el campo `language` (ISO 639-1) — mejora precisión y latencia.
  • Para audio largo (>10 min), divide en segmentos de 5–10 min y junta el texto en cliente. Whisper alucina menos en chunks cortos.
  • Audio limpio (16 kHz mono PCM o WAV) da mejor calidad que mp3 muy comprimido.
  • Para subtitulado en vivo, considera el endpoint de streaming (próximamente) en lugar de batch.