Prévias dos modelos DeepSeek V4 chegam com arquitetura gigante e mais baratos que rivais
A DeepSeek, startup chinesa de inteligência artificial sediada em Hangzhou, pode movimentar o setor novamente com os recém-anunciados primeiros modelos da série V4: DeepSeek-V4-Pro e o DeepSeek-V4-Flash. Ambos estão acessíveis como prévia e rodam sobre arquitetura Mixture of Experts (MoE) — desenho em que apenas um subconjunto dos pesos é acionado em cada requisição. A técnica é pensada para reduzir o consumo computacional sem sacrificar a capacidade total do modelo, o que explica a classificação da nova era como "econômica" pela empresa.
O modelo Pro concentra 1,6 trilhão de parâmetros totais, com 49 bilhões envolvidos a cada inferência. Já o Flash opera em escala menor: são 284 bilhões no total e 13 bilhões ativos. Os dois suportam janela de contexto de 1 milhão de tokens e são liberados sob licença MIT, o que possibilita o uso comercial sem restrições.
Preços abaixo do mercado chamam atenção
O destaque comercial, no entanto, está nos valores por uso. O V4-Flash sai por US$ 0,14 por milhão de tokens de entrada, ficando abaixo até do barato GPT-5.4 Nano, da OpenAI. O V4-Pro custa US$ 1,74 por milhão de entrada e US$ 3,48 por milhão de saída. Isso posiciona os modelos como alternativas mais em conta do que os populares Gemini 3.1 Pro e GPT-5.4. Em relação ao Claude Opus 4.7, as novas IAs da DeepSeek apresentam menos de um sétimo do valor cobrado.
A empresa explicou como a redução de preço se tornou viável. No estado atual, a versão Pro "atinge apenas 27% dos FLOPs de token único (medidos em FLOPs FP8 equivalentes) e 10% do tamanho do cache KV em relação ao DeepSeek-V3.2". Já o modelo Flash tem uma quantidade reduzida de parâmetros ativados a cada inferência, o que faz com que alcance "apenas 10% dos FLOPs de token único e 7% do tamanho do cache KV em comparação com o DeepSeek-V3.2".
Em termos de qualidade, a DeepSeek não reivindica a liderança absoluta. Nos próprios benchmarks divulgados pela companhia, o V4-Pro-Max supera o GPT-5.2 e o Gemini 3.0 Pro em raciocínio, mas fica abaixo do GPT-5.4 e do Gemini 3.1 Pro. Para a empresa, a interpretação é que há uma defasagem de alguns meses em relação ao estado atual de modelos fechados. Em programação, porém, o cenário é mais favorável: o V4-Pro marca 80,6% no SWE-bench Verified, resultado virtualmente idêntico ao do Claude Opus 4.6.
Do ponto de vista de implantação local, o V4-Flash pesa 160 GB. Assim, pode ser executado em máquinas com 128 GB de RAM, como MacBooks com chip M5. O Pro, com 865 GB, exige mais, mas é provável que pesquisadores da comunidade de quantização estejam a postos para lançar versões comprimidas em breve, ampliando o leque de hardware compatível.
Os modelos estão disponíveis via Hugging Face e OpenRouter para testes imediatos.
Nenhum comentário disponível no momento.
Comentários
Deixe seu comentário abaixo: