Não tenho tempo para ouvir todos os áudios do meu grupo do WhatsApp; então, uso o Gemini para transcrevê-los para mim

A transcrição do WhatsApp é boa, mas falha miseravelmente se você falar rápido, não vocalizar ou se houver ruído: a IA do Google é muito melhor

Imagem de capa | Eva Rodríguez de Luis
Sem comentários Facebook Twitter Flipboard E-mail
fabricio-mainenti

Fabrício Mainenti

Redator

Minha relação com áudios do WhatsApp é turbulenta, uma relação de amor e ódio: gosto de fazê-los, mas recebê-los (e ouvi-los) é mais difícil para mim. Considero-os o formato ideal para me expressar, para pessoas sem conhecimento técnico se comunicarem por meio de um aplicativo de mensagens e, em geral, para fornecer aquela camada extra de voz em tópicos mais delicados. É claro que todos esses motivos maravilhosos que explicam sua existência também são sua maior desvantagem: ficamos presos aos áudios do WhatsApp com frequência.

Considerando esse e o fato de que, às vezes, simplesmente não conseguimos ouvir um áudio, a chegada da transcrição de áudio do WhatsApp foi uma bênção para mim: poder ler a mensagem de uma só vez, evitando ter que ouvi-la, e também ter o texto ali, porque às vezes é difícil encontrar onde alguém disse algo específico.

Porém, apesar da bênção da transcrição de áudio do WhatsApp, a dura realidade é: se houver muito ruído de fundo, você pronunciar mal e/ou falar rápido, a transcrição será inútil, pois estará cheia de lacunas que tornarão a leitura praticamente impossível. E entendê-la, menos ainda: a transcrição automática do WhatsApp é decente, mas com o Gemini é muito melhor, então por que não passar o áudio do WhatsApp pela IA do Google?

O Gemini é infalível com o áudio do WhatsApp (ou Telegram)

Vamos deixar isso claro: este é um truque que eu só uso ocasionalmente, principalmente quando o áudio é extremamente longo e não tenho tempo (ou não estou com vontade), ou quando preciso ouvi-lo com urgência e a transcrição não é suficiente. O Gemini é um gênio para transcrever e resumir, mas o procedimento é um pouco mais longo do que a transcrição nativa. No entanto, o processo envolve apenas alguns toques e leva cerca de meio minuto.

A primeira coisa que você precisa fazer é selecionar o arquivo (ou arquivos) de áudio e salvá-lo no seu dispositivo ou na nuvem (por exemplo, no Google Drive). Costumo fazer isso em Arquivos e, embora deixe o título padrão, não custa nada adicionar um mais descritivo se você usa o Gemini com frequência para esse fim. Ter o arquivo de áudio é essencial para usar o Gemini, pois ele não o transcreve diretamente, acessando-o na tela do WhatsApp.

Imagem de capa | Eva Rodríguez de Luis

Tudo o que resta fazer é abrir o aplicativo Gemini, enviar o arquivo e pedir para ele transcrever para você. Eu costumo optar pela tradução literal com um prompt como "transcreva esta mensagem inteira para mim", embora não seja a primeira vez que alguém divaga tanto a ponto de eu acabar pedindo um resumo. Aqui, a IA do Google funciona brilhantemente, transcrevendo mesmo que a gravação seja de baixa qualidade ou que pareça que a pessoa está comendo um biscoito enquanto fala (mas ela não faz milagres). Porém, se o Gemini não entender, eu provavelmente também não entenderei. Depois, costumo apagar o áudio dos Arquivos porque ele já cumpriu sua missão.

Texto original de Eva Rodríguez de Luis

Imagem de capa | Eva Rodríguez de Luis

Inicio