Nos últimos anos, muitos de nós adquirimos o hábito de conversar com inteligências artificiais. Fazemos perguntas, pedimos conselhos ou simplesmente testamos até onde vai sua capacidade de manter uma conversa natural. Ferramentas como os modos de voz do ChatGPT e do Gemini aproximaram essa experiência de algo que, não faz muito tempo, parecia reservado à ficção científica.
Mas há uma pergunta que raramente nos fazemos enquanto falamos com elas: como essas máquinas aprenderam a soar cada vez menos como um sistema e mais como uma pessoa?
Para entender isso, convém separar o que vemos do que não vemos. Por um lado, estão os aplicativos que usamos no dia a dia, esses assistentes que respondem com uma voz cada vez mais natural. Por outro, os sistemas que os sustentam, modelos treinados com grandes volumes de dados que precisam aprender não apenas o que dizer, mas também como dizer. Não sabemos quais produtos concretos acabam utilizando esse tipo de gravação, mas sabemos que elas fazem parte do ecossistema com o qual são treinados sistemas de voz cada vez mais fluidos e verossímeis.
Existem pessoas que vivem de treinar as IAs não sobre o que falar, mas em como falar. Esses indivíduos participam de gravações de conversas que depois são usadas para treinar os modelos. Em muitos casos, os exercícios consistem em manter conversas sobre temas aparentemente triviais, desde gostos do cotidiano até perguntas abertas que exigem desenvolver uma resposta. Em outros, a tarefa é mais exigente: interpretar um papel, seguir um roteiro sem que pareça um roteiro e entrar em terrenos emocionais.
A Bloomberg relata, por exemplo, o caso de uma trabalhadora que compartilhou lembranças dolorosas de sua vida enquanto conversava com um homem que se apresentava como pastor e que, dentro do exercício, interpretava o papel de terapeuta.
Todo esse material gravado serve para algo muito específico: capturar nuances. Não estamos falando apenas de palavras, mas de pausas, respirações, mudanças de tom, hesitações e reações emocionais que fazem com que uma conversa soe humana. Também há tarefas de rotulagem, nas quais os trabalhadores precisam distinguir se um áudio contém um soluço, uma gargalhada ou alguém falando entre risos. A lógica por trás é simples: se uma máquina quer deixar de soar robótica, antes precisa se expor a como realmente falamos.
A mão humana por trás de uma voz artificial
A partir daí, a pergunta é inevitável: como se acessa esse tipo de trabalho e quanto se ganha de fato. Plataformas como Babel Audio funcionam como intermediárias que conectam esses trabalhadores a projetos específicos. Após passar por um teste inicial de voz, os candidatos podem concorrer a tarefas que começam em cerca de 17 dólares (R$ 87) por hora gravada, embora o ganho final dependa da avaliação recebida e do volume de trabalhos disponíveis. Os rendimentos, além disso, variam bastante: uma trabalhadora citada pela Bloomberg afirma ganhar cerca de 600 dólares (R$ 3.100) por semana.
O trabalho não é sempre fácil. Para além dos cachês e da promessa de flexibilidade, os relatos apontam para um ambiente marcado pela incerteza e pelo controle constante. As plataformas podem limitar o acesso a tarefas, interromper projetos ou suspender contas sem explicações detalhadas, o que deixa muitos trabalhadores em uma posição frágil. Além disso, cada conversa é submetida a métricas em tempo real que avaliam se alguém fala demais ou de menos, a expressividade, o domínio do idioma, a profundidade da interação e até a duração das pausas.
Quando ampliamos o foco, o debate deixa de ser apenas trabalhista e passa a ser também pessoal. Parte do valor dessas gravações reside justamente no fato de capturarem como falamos e como nos relacionamos, o que implica que os trabalhadores estão contribuindo com algo além de uma tarefa mecânica. As condições geralmente permitem o uso dessas gravações em assistentes de voz, síntese de fala e “outros produtos e serviços relacionados ao áudio”.
Quando conectamos todas as peças, o que vemos é uma indústria que funciona graças a uma cadeia de produção complexa. O Pulitzer Center descreve esse ecossistema como uma rede de trabalho fragmentado na qual os trabalhadores geralmente estão submetidos a acordos de confidencialidade, operam com pouquíssima transparência e, em muitos casos, nem sequer sabem qual sistema estão treinando nem para qual empresa seu trabalho acaba indo. Nesse contexto, as conversas que alimentam os sistemas de voz são apenas uma parte de uma engrenagem maior, na qual cada tarefa contribui para construir tecnologias cada vez mais sofisticadas.
Imagens | Xataka com Nano Banana 2 | Captura de tela
Este texto foi traduzido/adaptado do site Xataka Espanha.
Ver 0 Comentários