Resumen
Convierte texto en audio natural. Diseñado para IVR, agentes conversacionales y narración corta. Bajo footprint (82 M parámetros) que permite latencias bajas en CPU para uso en tiempo real.
Endpoint y modelo
POST `https://api.tesseraai.cloud/v1/audio/speech`. Campo `model`: `kokoro-82m`. Campo `voice`: ver tabla de voces abajo.
| Atributo | Valor |
|---|---|
| Modelo upstream | hexgrad/Kokoro-82M |
| Latencia P50 | <200 ms para frases <30 caracteres |
| Formatos de salida | mp3 (default), wav, opus, aac, flac, pcm |
| Sample rate | 24 kHz mono |
| Licencia | Apache 2.0 |
Voces disponibles
Cada voz codifica idioma + género en su prefijo: `e*` español, `a*` American English, `b*` British English, `p*` portugués brasileño, `f*` francés, `i*` italiano, `j*` japonés, `z*` mandarín, `h*` hindi. La segunda letra es `f` (femenina) o `m` (masculina).
| Idioma | Voces |
|---|---|
| Español (neutro, ES + LATAM) | `ef_dora`, `em_alex`, `em_santa` |
| Inglés americano | `af_heart`, `af_sky`, `af_bella`, `af_nicole`, `af_sarah`, `af_aoede`, `af_kore`, `af_jessica`, `af_nova`, `af_river`, `af_jadzia`, `am_michael`, `am_adam`, `am_eric`, `am_fenrir`, `am_liam`, `am_onyx`, `am_puck`, `am_santa` |
| Inglés británico | `bf_alice`, `bf_emma`, `bf_isabella`, `bf_lily`, `bm_daniel`, `bm_fable`, `bm_george`, `bm_lewis` |
| Portugués brasileño | `pf_dora`, `pm_alex`, `pm_santa` |
| Francés | `ff_siwis` |
| Italiano | `if_sara`, `im_nicola` |
| Japonés | `jf_alpha`, `jf_gongitsune`, `jf_nezumi`, `jf_tebukuro`, `jm_kumo` |
| Mandarín | `zf_xiaobei`, `zf_xiaoni`, `zf_xiaoxiao`, `zf_xiaoyi`, `zm_yunjian`, `zm_yunxi`, `zm_yunxia`, `zm_yunyang` |
| Hindi | `hf_alpha`, `hf_beta`, `hm_omega`, `hm_psi` |
Pulsa Play para escuchar cualquier voz
54 voces, 9 idiomas. Filtra por idioma y género; copia el ID al portapapeles para pegarlo en tu request.
Request
curl https://api.tesseraai.cloud/v1/audio/speech \
-H "Authorization: Bearer $TESSERA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kokoro-82m",
"input": "Bienvenido a Tessera. Su consulta ha sido recibida.",
"voice": "ef_dora",
"response_format": "mp3"
}' \
--output bienvenida.mp3Response
El cuerpo del response es el audio crudo en el formato pedido. No se devuelve JSON.