Porto Alegre, qui, 20/02/25

Anuncie no JC
Assine agora

Publicada em 30 de Janeiro de 2025 às 01:25

DeepSeek no centro da disputa geopolítica da IA

Chinesa afirma ter investido menos para chegar a modelo similar de empresas americanas

Chinesa afirma ter investido menos para chegar a modelo similar de empresas americanas

Lionel Bonaventure/AFP/JC
Compartilhe:
Patricia Knebel
Patricia Knebel
Nos Estados Unidos, a Inteligência Artificial (IA) avançou a partir de milhões de dólares de financiamento, com gigantes do mercado atribuindo os gastos aos aportes em infraestrutura, chips e software para o treinamento dos modelos. E, então, de repente, a DeepSeek, uma empresa chinesa que poucos ouvimos falar, lança um modelo de raciocínio de código aberto que, segundo ela, está no mesmo nível do desempenho do criado pela OpenAI.
Nos Estados Unidos, a Inteligência Artificial (IA) avançou a partir de milhões de dólares de financiamento, com gigantes do mercado atribuindo os gastos aos aportes em infraestrutura, chips e software para o treinamento dos modelos. E, então, de repente, a DeepSeek, uma empresa chinesa que poucos ouvimos falar, lança um modelo de raciocínio de código aberto que, segundo ela, está no mesmo nível do desempenho do criado pela OpenAI.
Detalhe: a chinesa afirma que treinou seu modelo com chips mais simples e apenas US$ 5,6 milhões em poder de computação - nada comparado aos mais de US$ 100 milhões dos americanos.
Nesta entrevista, o consultor em IA e pesquisador no Hub de Inovação em Inteligência Artificial e no Programa de Pós-Graduação em Computação da Universidade Federal de Pelotas, Ricardo Matsumura Araújo, fala sobre esse novo momento para a IA.
Mercado Digital - Como avalia esse frenesi em torno do movimento da Deekseek no mercado de IA?
Ricardo Matsumura Araújo - Uma confluência de três fatores tornou a família DeepSeek notável. O primeiro é a supremacia de modelos de IA que o Ocidente, em particular os EUA, tinham até então, Modelos como o GPT-4o, o1, Claude, Gemini, considerados os melhores publicamente disponíveis atualmente, são de empresas americanas. O DeepSeek é um modelo de uma empresa chinesa, e tem demonstrado desempenho semelhante aos melhores modelos existentes até então. Isso é particularmente relevante devido à tentativa dos EUA de impedir que a China obtenha os chips necessários para exatamente criar esses modelos. O segundo fator é que há um movimento de tornar abertos alguns grandes modelos de linguagens. O Llama, da Meta, é talvez o mais famoso, mas também há uma diversidade de modelos de vários países (China, França e Brasil, inclusive).
Mercado Digital - E, claro, existe o fato custo de produção que, de acordo com a empresa chinesa, são infinitamente mais baratos que os americanos.
Matsumura - Exatamente, esse é o terceiro fator decisivo, pois a empresa por trás do DeepSeek diz ter criado o modelo usando muito menos recursos do que os modelos fechados, ou mesmo alguns abertos menos capazes. Algumas estimativas colocam o custo de treinar o gpt-4 acima de US$ 100 milhões, mas não é claro o que este valor inclui ou o que o valor do DeepSeek exclui. Por exemplo, há um custo alto em descobrir o que funciona, e muito deste custo foi coberto pelos que vieram antes com pesquisa e desenvolvimento. Ainda assim, o DeepSeek-v3 faz uso de uma arquitetura que reduz significativamente o custo de inferência, que é o custo de usar o modelo depois de treinado.
Mercado Digital - Quais as implicações reais dessa redução de custo daqui para frente?
Matsumura - Este baixo custo tem uma potencial implicação na narrativa atual, pois empresas como OpenAI e Anthropic estão constantemente procurando investimentos para poder treinar modelos cada vez maiores. E isso também pode significar que a Nvidia, hoje a empresa mais valiosa do mundo por fornecer quase exclusivamente o hardware onde estes modelos são treinados, pode não conseguir vender tantas infraestrutura como esperado. O DeepSeek-v3 ganhou notoriedade por ser um modelo aberto de alto desempenho, chinês e de baixo custo. Todas estas coisas eram esperadas, mas acho que poucos esperavam que ocorresse tão cedo.
Mercado Digital - A DeepSeek nos mostra, então, que a IA pode avançar com investimentos mais baixos?
Matsumura - Certamente. Em termos de desempenho e utilidade de modelos de linguagem, está claro que o DeepSeek-v3 se tornou uma importante alternativa para modelos como os da OpenAI, Anthropic, Google e Meta. A Nvidia é um caso particular, pois ela não oferece modelos de linguagem diretamente (ou pelo menos não de forma ampla), mas sim a infraestrutura onde estes modelos rodam. E o DeepSeek é mais uma evidência de que pode-se ir longe com uma infraestrutura mais modesta.
Mercado Digital - ⁠Como vislumbra os movimentos futuros dos EUA e da China em relação a IA?
Matsumura - Me parece que no curto e médio prazos continuaremos tendo uma grande expansão dos modelos de IA em ambos os países . Mas, como acontece com praticamente todas as tecnologias, depois que se descobre como fazer algo funcionar, temos uma rápida aceleração no barateamento e eventual comoditização dessas tecnologias. Parte do processo de otimização de custo, e mesmo desempenho, poderá vir de modelos especializados para certas línguas. Hoje, por exemplo, é muito mais custoso, para uma mesma tarefa, realizar ela em português do que inglês em um modelo como gpt-4o.
Mercado Digital - Que lugar você acredita que o Brasil pode ocupar nesse jogo?
Matsumura - O Brasil já tem exemplos disso, com o Sabiá-3, da Maritaca, além de diversos modelos acadêmicos. Com o DeepSeek mostrando que é possível treinar modelos competitivos de relativo baixo custo, é possível vislumbrar o Brasil também competindo com modelos próprios. Mas, para realmente competir em desempenho bruto, precisaríamos investir em encontrar outros caminhos, maneiras de tornar os modelos mais eficientes ainda e fazer muito mais com muito menos. O DeepSeek é ultimamente um melhor software exigindo menos hardware. E esse é um caminho que o Brasil pode escolher trilhar e ser competitivo: investir em encontrar melhores softwares - modelos melhores e, não necessariamente, maiores.

Notícias relacionadas

Comentários

0 comentários