Resumen
Convierte audio (mp3, wav, m4a, flac, ogg, webm, mp4) en texto. Devuelve transcripciones con timestamps por segmento, identificación automática de idioma y opcionalmente formatos SRT/VTT listos para subtitulado.
Modelos disponibles
Dos variantes de Whisper large-v3 servidas por el mismo endpoint. Comparten el encoder; turbo recorta el decoder de 32 a 4 capas (destilación). La elección depende del caso de uso: precisión vs latencia.
| Modelo | Decoder | Cuándo usarlo |
|---|---|---|
| `whisper-large-v3` | 32 capas (full) | Dictado, podcast, transcripción médica/legal, batch asíncrono donde la calidad manda |
| `whisper-large-v3-turbo` | 4 capas (destilado) | Captions en vivo, agentes de voz, voicebots, cualquier flujo donde la latencia importe |
Endpoint y modelo
POST `https://api.tesseraai.cloud/v1/audio/transcriptions` con `multipart/form-data`. Campo `model`: `whisper-large-v3` o `whisper-large-v3-turbo`.
| Atributo | Valor |
|---|---|
| Idiomas nativos | Español, inglés, portugués, catalán (más 95 con calidad reducida) |
| Formatos de entrada | mp3, wav, m4a, flac, ogg, webm, mp4 |
| Formatos de salida | json (default), text, srt, vtt, verbose_json |
| Tamaño máximo | 25 MB por archivo |
| Licencia | MIT |
Request
curl https://api.tesseraai.cloud/v1/audio/transcriptions \
-H "Authorization: Bearer $TESSERA_API_KEY" \
-F "[email protected]" \
-F "model=whisper-large-v3-turbo" \
-F "language=es" \
-F "response_format=json"Response
Por defecto devuelve `{"text": "..."}`. Con `response_format=verbose_json` añade `language`, `duration` y `segments[]` con timestamps individuales.
{
"text": "La inteligencia artificial está cambiando la manera en que trabajamos.",
"language": "es",
"duration": 3.984,
"segments": [
{
"id": 1,
"start": 0.0,
"end": 3.76,
"text": " La inteligencia artificial está cambiando...",
"avg_logprob": -0.05
}
]
}Buenas prácticas
- Si conoces el idioma de antemano, pásalo en el campo `language` (ISO 639-1) — mejora precisión y latencia.
- Para audio largo (>10 min), divide en segmentos de 5–10 min y junta el texto en cliente. Whisper alucina menos en chunks cortos.
- Audio limpio (16 kHz mono PCM o WAV) da mejor calidad que mp3 muy comprimido.
- Para subtitulado en vivo, considera el endpoint de streaming (próximamente) en lugar de batch.