Andrej Karpathy foi cofundador da OpenAI e diretor de IA na Tesla. Embora não ocupe mais um cargo ativo em nenhuma das duas empresas, ele continua sendo uma figura de destaque e, acima de tudo, um entusiasta da inteligência artificial. Isso fica evidente na qualidade de seus vídeos de treinamento sobre o assunto e na forma como compartilha seu conhecimento com o mundo por meio de ferramentas como minGPT e nanoGPT.
Além disso, graças ao seu código, vimos criações notáveis, como um grande modelo de linguagem rodando no Windows 98.
Ainda assim, esse nível de envolvimento com a indústria não o impede de ser realista quanto às suas expectativas para a inteligência artificial e suas aplicações. Ele demonstrou isso mais uma vez no prestigiado podcast de Dwarkesh Patel, no qual, em uma conversa de quase duas horas e meia, o especialista compartilhou uma riqueza de insights e impressões sobre a área.
"É a década dos agentes"
Karpathy não só acredita em agentes, como também cunhou o termo "codificação de vibração" para se referir à programação de IA. Ele afirma usar Claude e Codex extensivamente em seu trabalho diário. Ele diz que esses agentes iniciais "são impressionantes", mas ainda há "muito trabalho a ser feito", e acredita que esta é a década dos agentes, mas não o ano dos agentes, como previsto para 2025.
Nesse sentido, e ele menciona isso diversas vezes ao longo da entrevista, há uma superestimação na indústria, no sentido de que se fala muito sobre a rapidez com que as coisas acontecerão (como, por exemplo, a inteligência artificial geral, ou AGI, estar logo ali).
"Os modelos ainda não estão prontos. Sinto que a indústria está dando um salto muito grande e tentando fingir que isso é incrível, quando não é. É uma bagunça. Eles não estão encarando a realidade, e talvez estejam fazendo isso para atrair investimentos ou algo assim, não sei. Mas estamos em uma fase intermediária".
A origem de tanto exagero e hype
Em um trecho, Karphaty esclarece que não é pessimista, embora pareça. "Na verdade, sou otimista. Só pareço pessimista porque, quando olho para minha timeline do Twitter, vejo todas essas coisas que não fazem sentido para mim". E ele dá a chave para explicar tanta reação exagerada ao Twitter: dinheiro. "Grande parte disso, honestamente, é apenas arrecadação de fundos. São simplesmente estruturas de incentivo". Muito disso se resume a atenção, transformando atenção em dinheiro na internet.
"Aprendizado por reforço é terrível"
O aprendizado por reforço é uma técnica na qual uma IA aprende por tentativa e erro: ela executa ações, recebe recompensas ou punições e ajusta seu comportamento para maximizar recompensas futuras. Foi fundamental para avanços como o AlphaGo e para a otimização de grandes modelos como o Deepseek, mas Karpathy acredita que sua abordagem de "recompensa no final" está muito distante da forma como os humanos raciocinam.
Para Karpathy, é "terrível", e ele chega a comparar isso com "sugar supervisão por um canudo": todo o esforço do modelo é reduzido a um único número final (certo ou errado), o que gera muito ruído. Segundo ele, os humanos não aprendem assim: não fazemos cem tentativas às cegas, nem atribuímos o mesmo valor a cada etapa intermediária.
Ele acredita que o futuro está na "supervisão de processo", onde o modelo recebe feedback contínuo. No entanto, admite que ainda não sabemos como automatizar isso sem que os sistemas encontrem armadilhas (exemplos adversários) para trapacear.
Imagem de capa | Podcast de Dwarkesh Patel e meu próprio trabalho
Ver 0 Comentários