/v1/audio/transcriptions

Resumen

Convierte audio (mp3, wav, m4a, flac, ogg, webm, mp4) en texto. Devuelve transcripciones con timestamps por segmento, identificación automática de idioma y opcionalmente formatos SRT/VTT listos para subtitulado.

Modelos disponibles

Dos variantes de Whisper large-v3 servidas por el mismo endpoint. Comparten el encoder; turbo recorta el decoder de 32 a 4 capas (destilación). La elección depende del caso de uso: precisión vs latencia.

Modelo	Decoder	Cuándo usarlo
`whisper-large-v3`	32 capas (full)	Dictado, podcast, transcripción médica/legal, batch asíncrono donde la calidad manda
`whisper-large-v3-turbo`	4 capas (destilado)	Captions en vivo, agentes de voz, voicebots, cualquier flujo donde la latencia importe

Endpoint y modelo

POST `https://api.tesseraai.cloud/v1/audio/transcriptions` con `multipart/form-data`. Campo `model`: `whisper-large-v3` o `whisper-large-v3-turbo`.

Atributo	Valor
Idiomas nativos	Español, inglés, portugués, catalán (más 95 con calidad reducida)
Formatos de entrada	mp3, wav, m4a, flac, ogg, webm, mp4
Formatos de salida	json (default), text, srt, vtt, verbose_json
Tamaño máximo	25 MB por archivo
Licencia	MIT

Request

POST /v1/audio/transcriptions

curl https://api.tesseraai.cloud/v1/audio/transcriptions \
  -H "Authorization: Bearer $TESSERA_API_KEY" \
  -F "[email protected]" \
  -F "model=whisper-large-v3-turbo" \
  -F "language=es" \
  -F "response_format=json"

Response

Por defecto devuelve `{"text": "..."}`. Con `response_format=verbose_json` añade `language`, `duration` y `segments[]` con timestamps individuales.

verbose_json

{
  "text": "La inteligencia artificial está cambiando la manera en que trabajamos.",
  "language": "es",
  "duration": 3.984,
  "segments": [
    {
      "id": 1,
      "start": 0.0,
      "end": 3.76,
      "text": " La inteligencia artificial está cambiando...",
      "avg_logprob": -0.05
    }
  ]
}

Buenas prácticas

Si conoces el idioma de antemano, pásalo en el campo `language` (ISO 639-1) — mejora precisión y latencia.
Para audio largo (>10 min), divide en segmentos de 5–10 min y junta el texto en cliente. Whisper alucina menos en chunks cortos.
Audio limpio (16 kHz mono PCM o WAV) da mejor calidad que mp3 muy comprimido.
Para subtitulado en vivo, considera el endpoint de streaming (próximamente) en lugar de batch.