ASR Platform - Transcricao e Diarizacao

Dois servicos em uma plataforma

Transcreva e identifique falantes com uma unica API.

🎙

ASR — Transcricao

Converta audio em texto com alta precisao, suporte a 99 idiomas e deteccao automatica de idioma.

Timestamps por palavra e sentenca
Deteccao automatica de idioma
Audio de ate 1 hora de duracao
WAV, MP3, FLAC, OGG, M4A

👥

Diarizacao — Falantes

Identifique automaticamente quem falou cada trecho, sem nenhum treinamento previo.

Deteccao automatica de falantes
Alinhamento palavra a palavra
Ate 10 falantes simultaneos
Sem dados de treinamento

Funcionalidades que fazem a diferenca

Recursos de producao, nao apenas um modelo de IA.

📦

Processamento em Lote

Envie um ZIP com ate 10.000 arquivos de audio e receba todos os resultados em um unico webhook.

🔐

Controle de Acesso

API keys com permissao por servico (ASR, OCR). Gerencie clientes com acesso granular via CLI.

⚡

Endpoint Quick

Transcricao rapida para audios curtos (ate 40s) com timeout de 60s. Ideal para assistentes de voz.

🔔

Webhook & Polling

Receba resultados via webhook com retries automaticos ou consulte o status por polling. Voce escolhe.

📊

Observabilidade

Metricas Prometheus, health checks por worker e logging estruturado. Visibilidade total da operacao.

Como Funciona

Envie o audio, receba o texto com falantes identificados.

Envie o Audio

Upload via API REST. Suporta WAV, MP3, FLAC, OGG e M4A ate 500MB.

→

Transcricao

O audio e transcrito com timestamps por palavra em ate 99 idiomas.

→

Diarizacao

Falantes sao identificados e alinhados com a transcricao automaticamente.

→

Resultado

JSON com texto, segmentos, falantes e timings. Sync ou via webhook.

API Simples e Poderosa

Transcreva audio e identifique falantes com chamadas simples.

                      Request
                
# Transcrever com diarizacao
curl -X POST https://sua-api.com/process \
  -H "X-API-Key: $API_KEY" \
  -F "audio=@reuniao.wav" \
  -F "language=pt" \
  -F "enable_diarization=true" \
  -F "expected_speakers=2"

                      Response
                
{
  "request_id": "a1b2c3d4",
  "status": "completed",
  "transcription": {
    "text": "Bom dia, como posso ajudar?",
    "language": "pt",
    "duration_ms": 45000
  },
  "segments": [
    {"start": 0.0, "end": 2.1,
     "text": "Bom dia",
     "speaker": "SPEAKER_00"},
    {"start": 2.5, "end": 4.8,
     "text": "Como posso ajudar?",
     "speaker": "SPEAKER_01"}
  ],
  "speakers": {
    "count": 2,
    "labels": ["SPEAKER_00", "SPEAKER_01"]
  },
  "processing_time_ms": 4200
}

                      Request
                
# Enviar lote de audios (ZIP)
curl -X POST https://sua-api.com/process/batch \
  -H "X-API-Key: $API_KEY" \
  -F "audio_zip=@audios.zip" \
  -F 'mappings=[
    {"filename":"call1.wav","correlation_id":"c1"},
    {"filename":"call2.mp3","correlation_id":"c2"},
    {"filename":"call3.ogg","correlation_id":"c3"}
  ]' \
  -F "language=pt" \
  -F "webhook_url=https://seu-server/callback"

                      Response
                
# 202 Accepted imediatamente
{
  "batch_id": "b5e6f7g8",
  "status": "accepted",
  "total_files": 3,
  "mappings": [
    {"filename": "call1.wav",
     "correlation_id": "c1",
     "request_id": "uuid-1"},
    {"filename": "call2.mp3",
     "correlation_id": "c2",
     "request_id": "uuid-2"}
  ]
}

# Webhook com todos os resultados quando pronto

POST

/process

Transcricao + diarizacao

POST

/quick

Transcricao rapida

POST

/process/batch

Lote (ZIP)

GET

/health

Status

Performance de Producao

Otimizado para GPU com batch processing e processamento paralelo.

Transcricao (ASR)

Audio de 1 min~3-5s

Audio de 5 min~15-20s

Audio de 30 min~60-90s

Limites

Duracao max. audio1 hora

Tamanho max. arquivo500 MB

Batch

Processamento em lote

GPU

Aceleracao dedicada

Webhook

Entrega assincrona

Polling

Consulta de status

Integracao Flexivel

Tres modos de entrega para se adaptar ao seu fluxo.

⏳

Modo Sincrono

Envie o audio e receba o resultado na mesma requisicao. Ideal para fluxos interativos.

                    POST /process

                    200 OK + resultado completo

🔔

Modo Webhook

Receba 202 imediatamente e o resultado via POST na sua URL quando pronto. Retries automaticos.

                    POST /process?delivery_mode=webhook

                    202 Accepted + callback

🔍

Modo Polling

Consulte o status do processamento a qualquer momento. Resultados em cache por 10 minutos.

                    GET /process/results/{id}

                    200 OK ou 202 processing

Transcreva e Identifique Falantes

ASR — Transcricao

Diarizacao — Falantes

Processamento em Lote

Controle de Acesso

Endpoint Quick

Webhook & Polling

Observabilidade

Envie o Audio

Transcricao

Diarizacao

Resultado

Transcricao (ASR)

Limites

Modo Sincrono

Modo Webhook

Modo Polling

Pronto para comecar?