DeepSeek V4 Mostra Que A Próxima Corrida da IA É Sobre Eficiência

EDMONTON, CANADÁ – 28 DE JANEIRO: Uma mulher segura um telemóvel em frente a um ecrã de computador que exibe o logótipo do DeepSeek, a 28 de janeiro de 2025, em Edmonton, Canadá. (Foto de Artur Widak/NurPhoto via Getty Images)

NurPhoto via Getty Images

O DeepSeek V4, a tão aguardada atualização do DeepSeek, chega num momento de intensa concorrência, quando o GPT 5.5 da OpenAI e o Opus 4.7 da Anthropic acaban de ser lançados um após o outro. A corrida dos modelos de IA atinge aparentemente um novo nível. Como um defensor singular das ferramentas de código aberto, o DeepSeek impressiona os desenvolvedores pela sua eficiência de custos em vez da escala bruta.

A versão de pré-visualização inclui dois modelos Mixture-of-Experts com uma janela de contexto de um milhão de tokens: o DeepSeek-V4-Pro, com 1,6 biliões de parâmetros totais e 49 mil milhões de parâmetros ativados, e o DeepSeek-V4-Flash, com 284 mil milhões de parâmetros totais e 13 mil milhões de parâmetros ativados.

Os agentes de contexto longo, os assistentes de codificação, as ferramentas de investigação e os copilotos empresariais enfrentam todos o mesmo estrangulamento: cada token recém-gerado pode precisar de remeter para um histórico crescente de documentos, código, chamadas de ferramentas e raciocínio intermédio. O relatório técnico do DeepSeek demonstra que os seus modelos V4 abordam este problema através da compressão arquitetural, em vez de simplesmente pedir aos utilizadores que paguem por mais capacidade de computação.

A inovação central: comprimir a memória sem perder o raciocínio

A alteração arquitetural mais importante do DeepSeek V4 é um design de atenção híbrida que combina a Compressed Sparse Attention (CSA) com a Heavily Compressed Attention (HCA). Isto significa que o modelo não armazena nem analisa cada token anterior da mesma forma dispendiosa. A CSA comprime grupos de entradas chave-valor e seleciona os blocos comprimidos mais relevantes. A HCA comprime de forma ainda mais agressiva, permitindo uma atenção densa sobre um fluxo de memória muito mais curto.

Isto é importante porque a atenção é um dos principais fatores de custo na IA de contexto longo. À medida que o comprimento do contexto aumenta, a atenção convencional torna-se cada vez mais dispendiosa tanto em termos de computação como de memória. O design de atenção híbrida do DeepSeek trata o contexto longo como um problema de engenharia de hierarquia de memória. Algumas informações precisam de atenção local detalhada. Outras podem ser comprimidas. Ao combinar estes modos, o V4 transforma o contexto de um milhão de tokens numa capacidade mais prática. No início deste ano, os investigadores do DeepSeek publicaram um artigo propondo o Engram, um módulo de memória condicional que melhora a eficiência do raciocínio ao separar estruturalmente a recuperação de conhecimento estático da computação dinâmica.

Por que razão isto pode impulsionar mais inovação em IA

Um custo de inferência mais baixo muda quem pode experimentar. Quando o raciocínio de contexto longo se torna mais barato, mais desenvolvedores podem construir agentes que leem repositórios completos, analisam registos legais extensos, comparam documentos financeiros de múltiplos ficheiros, ou operam em sessões prolongadas de utilização de ferramentas. Isto expande o espaço de design para além dos prompts de chatbot.

Para as startups, o DeepSeek V4 reduz o custo de tentar aplicações ambiciosas. Para as empresas, torna os fluxos de trabalho de contexto alargado mais realistas. Para os desenvolvedores de código aberto, fornece uma receita técnica: combinar a esparsidade MoE, a compressão de contexto longo, a inferência de baixa precisão, kernels personalizados e pós-treino para tarefas agênticas.

A mensagem do hardware: os modelos de IA estão agora a dizer aos chips o que se tornar

O DeepSeek V4 é também notável porque o relatório técnico faz sugestões explícitas sobre o design de hardware. A equipa argumenta que o hardware futuro deve otimizar a relação entre computação e comunicação, em vez de aumentar cegamente a largura de banda.

A Reuters também relatou que o DeepSeek V4 foi adaptado para funcionar nos chips Ascend da Huawei, e que a Huawei afirmou que os seus clusters supernode baseados no Ascend 950 suportam totalmente a série V4. Isto torna o V4 parte de uma história de hardware mais ampla. A corrida da IA está a passar dos pesos dos modelos para o co-design de pilha completa, onde modelos, kernels, sistemas de memória, interligações e chips co-evoluem.

Uma inteligência mais barata expande o mercado

A consequência mais importante do DeepSeek V4 pode ser económica. Quando o custo do raciocínio de contexto longo diminui, os casos de utilização de IA que antes pareciam demasiado dispendiosos tornam-se mais plausíveis. Os agentes de base de código completa, os assistentes de investigação de longo horizonte, os fluxos de trabalho legais com muitos documentos, as ferramentas de diligência prévia financeira, os sistemas de revisão de literatura científica e os agentes de conhecimento empresarial beneficiam todos de memória e inferência mais baratas.

Isto significa que o DeepSeek V4 reformula a corrida da IA. Se o DeepSeek conseguir entregar modelos abertos robustos com requisitos de memória e computação mais baixos, os líderes de código fechado enfrentarão mais pressão para justificar preços premium. Os concorrentes de código aberto enfrentarão pressão para igualar as técnicas de eficiência do V4.

Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/

DeepSeek V4 Mostra Que A Próxima Corrida da IA É Sobre Eficiência

A inovação central: comprimir a memória sem perder o raciocínio

Por que razão isto pode impulsionar mais inovação em IA

A mensagem do hardware: os modelos de IA estão agora a dizer aos chips o que se tornar

Uma inteligência mais barata expande o mercado

Você também pode gostar

Melhores casas de apostas cripto para apostar em futebol em 2026 (BTC & Stablecoins)

Analista de Bitcoin sinaliza 'Rally da Descrença' com preço a atingir $77.497

Recorde de 23,2 mil milhões de tokens esgotados: Pré-venda do APEMARS emerge como novo foco num mercado dominado pelas 7 melhores criptomoedas para comprar em abril

Notícias em alta

Supremo Tribunal 'a desintegrar-se' com juízes a lançar ataques públicos perturbadores: análise

Infraestrutura de IA e experiência do cliente: como a inovação Cadence–TSMC está a reformular a CX ao nível do silício

O 'embaraçoso' erro com a bandeira da administração Trump deixa os presentes atónitos

Bitcoin Enfrenta a Sua Terceira Grande Zona de Rejeição: Ruptura ou Fakeout?

Os traders de Bitcoin miram os $73K a seguir, enquanto a linha de tendência semanal mantém o preço refém

Notícias ao vivo 24/7

Preços das criptomoedas