Tecnologia

Conheça DeepSeek, o chatbot de IA chinesa que desafia gigantes da tecnologia

Apesar do custo de produção mais barato, testes mostram que o desempenho da IA chinesa é igual ou superior aos das grandes IAs.

Por Bela Lobato
27 jan 2025, 19h00

Fotografia da tela de um celular baixando o aplicativo DeepSeek. — (VCG/Getty Images)

Há pouco mais de uma semana, a startup chinesa DeepSeek lançou as últimas versões do seu chatbot de inteligência artificial (IA). Chamadas DeepSeek-R1 e DeepSeek-R1-Zero, os dois modelos são baseados numa versão que havia sido lançada no final do último dezembro, DeepSeek-V3.

O chatbot ganhou popularidade rapidamente e já se tornou um dos protagonistas da competição mundial das IAs. Nos últimos dias, sua popularidade e baixo custo acirrou o clima de competitividade internacional e causou quedas em ações de gigantes da tecnologia.

Um dos principais diferenciais da DeepSeek é o seu baixo custo de produção. Enquanto rivais investem centenas de milhões de dólares, a startup afirma ter gastado apenas US$ 6 milhões (cerca de R$ 35,4 milhões) no desenvolvimento do modelo.

Esse orçamento enxuto se deve à utilização de código aberto e estratégias inovadoras de aprendizado por reforço. Os desenvolvedores priorizaram eficiência e otimização, reduzindo a necessidade de hardware avançado.

O DeepSeek surge em um contexto de restrições impostas pelos EUA à exportação de chips avançados para a China. Entre 2022 e 2024, três grandes bloqueios norte-americanos colocaram restrições na exportação de semicondutores para a China. Para contornar a escassez de suprimentos, os desenvolvedores chineses colaboraram entre si e exploraram abordagens tecnológicas inovadoras.

Continua após a publicidade

A DeepSeek foi fundada em 2023 por Liang Wenfeng em Hangzhou, no sudeste da China. Ele teria acumulado um estoque de cerca de 50 mil chips Nvidia A100, agora proibidos de serem exportados para a China. A tecnologia da empresa combina esses chips com outros mais baratos e de baixo custo que ainda estão disponíveis para importação.

Testes de desempenho apontam que o DeepSeek é capaz de realizar tarefas como matemática, codificação e raciocínio natural com qualidade equivalente aos modelos de ponta. No site oficial, o DeepSeek lista 22 testes independentes comparando DeepSeek V3, DeepSeek V2.5, Qwen2.5, Llama 3.1. Claude-3.5benchmarks e GPT-4o. Dentre os 22 benchmarks, em 13 o DeepSeek pontuou melhor que todos os concorrentes.

Continua após a publicidade

O DeepSeek-V3 foi treinado em um banco de dados de 14,8 trilhões de tokens em apenas 55 dias. Na ciência de dados, os tokens são usados para representar bits de dados brutos – 1 milhão de tokens é igual a cerca de 750 mil palavras.

Além disso, o sistema foi construído com 671 bilhões de parâmetros – as variáveis internas que os modelos usam para fazer previsões ou tomar decisões. Isso é cerca de 1,6 vezes o tamanho do Llama 3.1-405B, que tem 405 bilhões de parâmetros.

O número de parâmetros geralmente está correlacionado com o desempenho do sistema, embora existam exceções. Mas é um equilíbrio delicado: modelos robustos também exigem hardware mais robusto para serem executados, e se não forem bem otimizados, a velocidade de resposta pode ser comprometida.

Continua após a publicidade

O boom nos downloads fez com que o aplicativo saísse do ar temporariamente na segunda (27), e a empresa anunciou que limitaria a criação de novas contas temporariamente.

O desenvolvimento de uma IA em chips mais simples rompe uma certa bolha econômica, já que outras empresas de tecnologia previam uma demanda cada vez maior de chips avançados para as tecnologias de IA. Desde sexta-feira (24), as ações de mercado sentem os impactos. As ações de gigantes da tecnologia, como Nvidia, Microsoft, Apple, Alphabet (controladora do Google) e Meta, e outras empresas investidoras em tecnologia e fabricantes de chips caíram.

As novas versões lançadas, DeepSeek-R1 e o DeepSeek-R1-Zero, têm usos diferentes. A versão R1 é voltada para tarefas complexas e especializadas, como geração de conteúdo detalhado, tradução técnica, resolução de problemas avançados e análises profundas, e é capaz de lembrar o contexto mesmo em interações longas.

Continua após a publicidade

Já o DeepSeek-R1-Zero é mais adequado para tarefas gerais e rápidas, como respostas diretas, geração de textos curtos e classificação simples, sendo flexível para situações que não exigem treinamento específico.