Depois do texto, a voz: a nova corrida da IA é conversacional

Por Guilherme Santiago 15 de Maio de 2026 👁️ 0 visualizações 💬 0 comentários
Depois do texto, a voz: a nova corrida da IA é conversacional

Há três anos, o mercado de inteligência artificial conversacional parecia condenado ao esquecimento. A chegada do ChatGPT, em novembro de 2022, deslocou as atenções e os investimentos para a interação por texto, e assistentes de voz como a Alexa assistiram à demanda encolher.

Agora, o movimento se inverte. A voz voltou a ser uma aposta concreta das empresas. E a discussão deve ocupar o centro do palco no AI Summit, evento da EXAME, marcado para 2 de junho na Consolação, em São Paulo.

Quem acompanha essa virada de perto é João Paulo Alqueres, especialista em IA conversacional e o único profissional da América do Sul a receber a distinção de Alexa Champion, concedida pela Amazon a desenvolvedores de destaque em soluções de voz. Cientista da computação pela Universidade do Estado do Rio de Janeiro, ele soma mais de 200 soluções de IA conversacional entregues a clientes de diferentes países à frente da Iara Digital, sua startup.

A interação por voz ganhou o grande público em 2011, quando a Apple lançou a Siri.. (Photo by Jakub Porzycki/NurPhoto via Getty Images) (Jakub Porzycki/Getty Images)

Para ele, a trajetória desse mercado tem um arco nítido. A interação por voz ganhou o grande público com a Siri, lançada pela Apple em 2011, e se firmou dentro de casa com a Alexa, que chegou aos Estados Unidos em 2014 e ao Brasil em 2019. Foram anos de expansão acelerada. Até que, nas palavras de Alqueres, “o ChatGPT virou o mercado de cabeça para baixo”.

A explicação é técnica. Toda a primeira geração de assistentes se apoiava no processamento de linguagem natural. O ChatGPT introduziu outra tecnologia, dessa vez construída a partir de texto. “O mercado deu uma volta no tempo para priorizar a interação por texto”, afirma. Voz, imagem e vídeo só voltariam à equação mais tarde, quando os modelos passaram a ser multimodais e capazes de receber e devolver informação em diferentes formatos.

A retomada veio com o amadurecimento do áudio. Quando os modos de voz se tornaram fluidos, abriu-se espaço para um mercado inteiro de agentes digitais: sistemas que um cliente pode acionar pelo telefone para marcar um horário ou resolver um atendimento, conversando com uma IA como conversaria com um atendente. Empresas como a Eleven Labs se especializaram nesse nicho. A própria Amazon respondeu com a Alexa+, versão turbinada por IA generativa anunciada em fevereiro de 2025 e ainda sem data para desembarcar no Brasil.

Em fevereiro de 2025, a Amazon anunciou a Alexa+ — versão da assistente turbinada por IA generativa

Mudou também a forma de construir essas soluções. No desenvolvimento tradicional, o programador escrevia, linha a linha, exatamente o que o software deveria fazer. Com a IA, o trabalho passou a ser definir parâmetros, restrições e contexto – uma espécie de constituição que orienta como o agente deve se comportar, o que pode dizer e quais ferramentas pode acessar.

O efeito colateral é uma democratização inédita: a distância entre quem tem a ideia e quem a executa praticamente desaparece. “Você aproxima a sua intenção do que quer ver materializado”, diz. “Não precisa de intermediário.”

Para Alqueres, o próximo capítulo é a convergência. Hoje, cada ferramenta brilha em uma tarefa – uma para texto, outra para imagem, outra para música –, num arranjo que ele considera caro e insustentável para o usuário final. A direção, avalia, é uma IA única, capaz de reunir todos esses sentidos.

O exemplo mais recente apareceu nesta semana: a Thinking Machines, startup de Mira Murati, ex-CTO da OpenAI, apresentou um modelo de interação que ouve, vê e responde em tempo real, sem a rigidez do “fala e espera”. “É uma IA que recebe muito mais sinais do ambiente em que está inserida”, observa.

João Paulo Alqueres: único profissional da América do Sul reconhecido como Alexa Champion pela Amazon (Arquivo Pessoal)

Enquanto a tecnologia se reorganiza, as marcas voltam a bater à porta. Boa parte do trabalho de Alqueres nasce hoje de empresas que procuram experiências de voz sob medida – de jogos a sistemas de atendimento.

Depois de uma década aprendendo a falar com máquinas, conversar voltou a ser a interface mais natural que existe. Pelo menos essa é a aposta do especialista, e também o debate que ele leva ao palco do AI Summit, em junho.

O AI Summit 2026 acontece no dia 2 de junho, no prédio da EXAME, na Rua da Consolação 1601, em São Paulo. As inscrições já estão abertas e podem ser feitas pelo site oficial do evento. Garanta sua vaga aqui.

Comentários

Deixe seu comentário abaixo: