Como eu deixaria de falar do hype da Deepseek?
Tirando o fato que o market cap de tickers das BigTech afundaram levando consigo bilhões de dólares, além dos casos sensíveis que o modelo não responde, é bem verdade que os 671 bilhões de instruções do modelo assustaram a indústria e dão um gostinho do que a computação quântica nos aguarda.
Mas como que esses caras conseguiram – e conseguirão – isso ?
Ora, a própria descrição do modelo já traz essa informação: o DeepSeek-V3 é um modelo de linguagem Mixture-of-Experts (MoE) com 671B de parâmetros totais e 37B ativados por token. Ele utiliza Multi-head Latent Attention (MLA) e adota estratégias inovadoras para melhorar o desempenho, como balanceamento de carga auxiliar sem perdas e um objetivo de treinamento de previsão de vários tokens.
Mixture-of-Experts (MoE) é um modelo computacional que condiciona execução de códigos evitando desperdícios e melhorando a eficiência.
Multi-head Latent Attention (MLA) parece ser uma inovação que potencializa o MoE, permitindo que os recursos sejam alocados de forma dinâmica e inteligente. Cada nova alocação é reanalisada e retreinada, o que sugere um sistema adaptativo e altamente otimizado.
Combinando essa duas técnicas, o Deepseek já escalou a próxima geração, ainda que os modelos estejam sendo executados em arquitetura clássica.
Na foto abaixo vocês podem ver que o modelo de imagens foi batizado de Janus. E ao bater o olho eu tive certeza que era algum deus mitológico.
Janus foi considerado o deus romano dos começos, mudanças e transições e representava o caminho para a guerra e paz, vida e morte, juventude e velhice.
Mas puxa, a China citando Romanos? Para bom entendedor meia palavra basta.
Estaria a China buscando aproximação com o “resto do mundo” ao liberar um modelo de IA tão intenso e com tantas misticidades?
#PraCegoVer: imagem com informações do modelo “Janus” da Deepseek mostrando a evolução da qualidade das imagens mostrando o rosto de uma menina, xícaras de café, taças de vinho, uma laranja, a palavra “hello” e margaridas. Ao lado há a foto do mandatário da China apertando um botão com letras garrafais “NVDA -16.91%” fazendo uma brincadeira com a queda das ações na bolsa de valores Nasdaq da NVIDIA.
