Nos Estados Unidos, a Inteligência Artificial (IA) avançou a partir de milhões de dólares de financiamento, com gigantes do mercado atribuindo os gastos aos aportes em infraestrutura, chips e software para o treinamento dos modelos. E, então, de repente, a DeepSeek, uma empresa chinesa que poucos ouvimos falar, lança um modelo de raciocínio de código aberto que, segundo ela, está no mesmo nível do desempenho do criado pela OpenAI.
Detalhe: a chinesa afirma que treinou seu modelo com chips mais simples e apenas US$ 5,6 milhões em poder de computação - nada comparado aos mais de US$ 100 milhões dos americanos.
Nesta entrevista, o consultor em IA e pesquisador no Hub de Inovação em Inteligência Artificial e no Programa de Pós-Graduação em Computação da Universidade Federal de Pelotas, Ricardo Matsumura Araújo, fala sobre esse novo momento para a IA.
Mercado Digital - Como avalia esse frenesi em torno do movimento da Deekseek no mercado de IA?
Ricardo Matsumura Araújo - Uma confluência de três fatores tornou a família DeepSeek notável. O primeiro é a supremacia de modelos de IA que o Ocidente, em particular os EUA, tinham até então, Modelos como o GPT-4o, o1, Claude, Gemini, considerados os melhores publicamente disponíveis atualmente, são de empresas americanas. O DeepSeek é um modelo de uma empresa chinesa, e tem demonstrado desempenho semelhante aos melhores modelos existentes até então. Isso é particularmente relevante devido à tentativa dos EUA de impedir que a China obtenha os chips necessários para exatamente criar esses modelos. O segundo fator é que há um movimento de tornar abertos alguns grandes modelos de linguagens. O Llama, da Meta, é talvez o mais famoso, mas também há uma diversidade de modelos de vários países (China, França e Brasil, inclusive).
Mercado Digital - E, claro, existe o fato custo de produção que, de acordo com a empresa chinesa, são infinitamente mais baratos que os americanos.
Matsumura - Exatamente, esse é o terceiro fator decisivo, pois a empresa por trás do DeepSeek diz ter criado o modelo usando muito menos recursos do que os modelos fechados, ou mesmo alguns abertos menos capazes. Algumas estimativas colocam o custo de treinar o gpt-4 acima de US$ 100 milhões, mas não é claro o que este valor inclui ou o que o valor do DeepSeek exclui. Por exemplo, há um custo alto em descobrir o que funciona, e muito deste custo foi coberto pelos que vieram antes com pesquisa e desenvolvimento. Ainda assim, o DeepSeek-v3 faz uso de uma arquitetura que reduz significativamente o custo de inferência, que é o custo de usar o modelo depois de treinado.
Mercado Digital - Quais as implicações reais dessa redução de custo daqui para frente?
Matsumura - Este baixo custo tem uma potencial implicação na narrativa atual, pois empresas como OpenAI e Anthropic estão constantemente procurando investimentos para poder treinar modelos cada vez maiores. E isso também pode significar que a Nvidia, hoje a empresa mais valiosa do mundo por fornecer quase exclusivamente o hardware onde estes modelos são treinados, pode não conseguir vender tantas infraestrutura como esperado. O DeepSeek-v3 ganhou notoriedade por ser um modelo aberto de alto desempenho, chinês e de baixo custo. Todas estas coisas eram esperadas, mas acho que poucos esperavam que ocorresse tão cedo.
Mercado Digital - A DeepSeek nos mostra, então, que a IA pode avançar com investimentos mais baixos?
Matsumura - Certamente. Em termos de desempenho e utilidade de modelos de linguagem, está claro que o DeepSeek-v3 se tornou uma importante alternativa para modelos como os da OpenAI, Anthropic, Google e Meta. A Nvidia é um caso particular, pois ela não oferece modelos de linguagem diretamente (ou pelo menos não de forma ampla), mas sim a infraestrutura onde estes modelos rodam. E o DeepSeek é mais uma evidência de que pode-se ir longe com uma infraestrutura mais modesta.
Mercado Digital - Como vislumbra os movimentos futuros dos EUA e da China em relação a IA?
Matsumura - Me parece que no curto e médio prazos continuaremos tendo uma grande expansão dos modelos de IA em ambos os países . Mas, como acontece com praticamente todas as tecnologias, depois que se descobre como fazer algo funcionar, temos uma rápida aceleração no barateamento e eventual comoditização dessas tecnologias. Parte do processo de otimização de custo, e mesmo desempenho, poderá vir de modelos especializados para certas línguas. Hoje, por exemplo, é muito mais custoso, para uma mesma tarefa, realizar ela em português do que inglês em um modelo como gpt-4o.
Mercado Digital - Que lugar você acredita que o Brasil pode ocupar nesse jogo?
Matsumura - O Brasil já tem exemplos disso, com o Sabiá-3, da Maritaca, além de diversos modelos acadêmicos. Com o DeepSeek mostrando que é possível treinar modelos competitivos de relativo baixo custo, é possível vislumbrar o Brasil também competindo com modelos próprios. Mas, para realmente competir em desempenho bruto, precisaríamos investir em encontrar outros caminhos, maneiras de tornar os modelos mais eficientes ainda e fazer muito mais com muito menos. O DeepSeek é ultimamente um melhor software exigindo menos hardware. E esse é um caminho que o Brasil pode escolher trilhar e ser competitivo: investir em encontrar melhores softwares - modelos melhores e, não necessariamente, maiores.