Maio 9, 2026

As escolhas de modelo que definiram o nosso agente de voz

A dar seguimento ao post da semana passada sobre o agente de voz que lancei para dois estúdios de Pilates.

The model choices that defined our voice agent

A dar seguimento ao post da semana passada sobre o agente de voz que lancei para dois estúdios de Pilates.

Disse que o modelo era a parte fácil. Na camada do LLM isso mantém-se. Mas "modelo" é mais abrangente — STT, LLM, runtime — e as decisões de modelo foram onde gastei mais tempo.

Três decisões que fizeram a diferença:

1) O speech-to-text foi a escolha mais difícil.
Testei Azure, Deepgram (nova-2 e depois nova-3) e Speechmatics para voz em português. O Speechmatics venceu em precisão. A lição por trás da lição: liga sempre um fallback. Os modelos de STT derivam, as regiões falham por momentos, os vendors descontinuam coisas — desenha desde o primeiro dia para "se o STT-A falhar, encaminhar para o STT-B", não só depois do primeiro incidente às 3 da manhã.

2) Escolher o LLM é um problema de prompt size disfarçado de problema de modelo.
Um prompt grande com raciocínio multi-tool precisa de robustez e velocidade. Testei gpt-5-mini, gpt-4o-mini e gpt-4o. Acabei no gpt-4o — as variantes mini começaram a perder precisão nas tool calls à medida que o system prompt crescia. Prompt pequeno? Um mini provavelmente resolve. Complexidade extrema? O LangChain torna-se uma opção credível para orquestração.

3) Runtime na cloud: Lambda mantido quente bateu ECS Fargate — para o nosso volume.
O budget de latência de voz (~900ms round-trip) não tolera cold starts. Testei ECS Fargate vs Lambda e escolhi Lambda com técnicas always-warm — provisioned concurrency nos caminhos críticos mais warm-up pings periódicos no resto. Ao nosso volume de chamadas, isso foi mais barato do que o Fargate e rápido o suficiente para o budget. A volumes sustentados mais altos, o Fargate volta a ser a resposta certa — o custo always-on amortiza melhor quando o tráfego é constante.

Gen-AI em produção não é escolher um modelo. É escolher três, com paths de fallback, contra um budget em ms que não podes fingir.

Próximo post: a coisa que importa ainda mais do que prompt engineering — evaluation.

Que decisão de modelo te custou mais tempo?

P.S. Novo post tech toda a quarta-feira.

#GenAI #AppliedAI #SoftwareEngineering