Um estudo publicado em maio pela Universidade da Califórnia, em San Diego, mostrou que modelos de inteligência artificial podem passar no Teste de Turing. O estudo foi publicado na revista Proceedings of the National Academy of Sciences.
O Teste de Turing é um teste criado pelo matemático Alan Turing, que visa medir a semelhança da inteligência artificial com a humana. No teste, observadores tentam adivinhar se cada texto foi escrito por uma inteligência artificial ou por uma pessoal real. Se os observadores não conseguirem distinguir as respostas do computador das respostas humanas, a inteligência artificial passou no teste e, pelo menos, aparenta ser capaz de pensar.
O estudo mostrou que pelo menos alguns modelos de inteligência artificial podem passar no Teste de Turing. Os participantes confundiram o modelo de linguagem GPT-4.5 da OpenAI com um humano em 73% das vezes e o modelo de linguagem LLaMa-3.1-405B da Meta com um humano em 56% das vezes. A atual "semelhança humana" da inteligência artificial pode ser ainda maior do que os resultados do estudo, visto que a OpenAI e a Meta lançaram modelos de linguagem principais significativamente melhores desde a realização do estudo.
O modelo de linguagem 4o da OpenAI e a inteligência artificial Eliza, lançada na década de 1960, apresentaram o pior desempenho no estudo. Os participantes confundiram o 4o com um humano em apenas 21% das vezes e o Eliza em 23% das vezes.
Ben Bergen, professor de ciência cognitiva e um dos autores do estudo, afirma em um comunicado à imprensa da universidade que o Teste de Turing foi originalmente concebido para comparar a inteligência bruta de humanos e computadores. Os computadores têm superado os humanos em tarefas que exigem alta inteligência há décadas, mas os modelos de IA só começaram a passar no Teste de Turing nos últimos anos.
“Mas agora sabemos que a IA pode responder a muitas perguntas mais rapidamente e com mais precisão do que os humanos, então o verdadeiro problema não é apenas a inteligência. O fato de as máquinas conseguirem passar no teste – e como o fazem – nos obriga a repensar o que o teste mede. Cada vez mais, ele mede a semelhança com os humanos”, diz Bergen.
O estímulo desempenha um papel importante na aprovação no Teste de Turing. Os modelos de IA só se diferenciaram quando foram diretamente instruídos a parecerem o mais semelhantes possível aos humanos. Se os modelos de linguagem não recebessem esses estímulos, suas respostas seriam muito mais facilmente distinguidas das respostas humanas. Cameron Jones, o pesquisador de doutorado que conduziu o estudo, afirma que os modelos de linguagem são capazes de comportamentos totalmente semelhantes ao de pessoas de verdade com os estímulos certos.
“Embora saibamos que grandes modelos de linguagem podem produzir informações sobre quase qualquer tópico, este teste mostrou que eles também podem representar de forma convincente traços de comportamento social, o que tem implicações significativas para a forma como vemos a IA”, diz Jones.
As respostas dos modelos de IA também não foram perfeitas. Pelo contrário: os modelos de IA cometeram erros humanos em suas respostas, o que confundiu os observadores que participaram do estudo.
“Essas propriedades não correspondem à capacidade de resolução de problemas da matemática e da lógica que Turing tinha em mente”, resume Bergen.
O jornal Ilta-Sanomat já havia divulgado a versão preliminar do estudo.
Imagem | Wikimedia Commons
Ver 0 Comentários