De acordo com a Beating, a equipa de Kaiming He (MIT) lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autorregressiva de “prever o token seguinte” usada por modelos do tipo GPT. Em vez disso, o ELF realiza a geração de texto num espaço de embeddings contínuo, convertendo para tokens discretos apenas no passo final.
Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou cerca de 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 passos, superando múltiplos modelos base de difusão de linguagem discretos e contínuos. Em particular, o ELF-B necessitou apenas de aproximadamente 45 mil milhões de tokens de treino, cerca de uma ordem de grandeza menos do que métodos comparáveis, que tipicamente excedem 500 mil milhões de tokens.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A Samsung prepara a produção em massa no 4.º trimestre de módulos de memória de servidor de IA CXL 3.1
Segundo o The Korea Herald, a Samsung Electronics planeia iniciar a produção em massa dos seus módulos de memória CXL 3.1 para servidores de IA no quarto trimestre, na sequência de envios de amostras no terceiro trimestre. O módulo CMM-D 3.1 combina DRAM e um controlador CXL numa única placa, suportando até 1 terabyte com uma largura de banda de 72 gigabytes por segundo no PCIe 6.0. A Samsung já enviou amostras de CXL 2.0 para mais de 40 empresas, incluindo a Microsoft e a Amazon.
GateNews1m atrás
Antigo investigador de IA da Alibaba, Linjun Lin, lança novo laboratório de IA avaliado em cerca de 2 mil milhões de dólares
De acordo com o The Information, Linjun Lin, um antigo investigador de IA na Alibaba, fundou recentemente um novo laboratório de inteligência artificial. A startup é estimada em cerca de 2 mil milhões de dólares.
GateNews3m atrás
A Anthropic está em negociações para adquirir a startup de ferramentas para programadores Stainless por pelo menos 300 milhões de dólares
De acordo com a The Information, a Anthropic está em conversações avançadas para adquirir a startup de ferramentas para programadores Stainless por pelo menos 300 milhões de dólares. As ferramentas para programadores da Stainless foram adotadas pela OpenAI e pela Google.
GateNews23m atrás
Andrew Ng: «A IA não vai desencadear uma vaga de desemprego», a contratação em software continua forte
Conhecidos investigadores no domínio da IA e fundador da DeepLearning.AI, Andrew Ng (吳恩達), no dia 12 de maio, publicou no X e no boletim eletrónico The Batch uma afirmação segundo a qual “a IA não vai desencadear uma vaga de desemprego em massa (jobpocalypse)”, contradizendo diretamente a narrativa de pânico sobre o desemprego causado pela IA. De acordo com o post original de Andrew Ng, esta publicação recebeu mais de 2.600 gostos e foi uma das opiniões sobre IA mais comentadas da semana. Princi
ChainNewsAbmedia1h atrás
O supernó de Tian Chi de 256 cartões do chip Kunlun da Baidu será lançado em junho, com uma melhoria de 25% no desempenho
De acordo com a Baidu, a 13 de maio, durante a conferência de programadores Create 2026, a empresa anunciou que o seu supernó Kunlun Chip Tian Chi de 256 cartões será oficialmente lançado em junho, com desempenho de throughput melhorado em 25% face à geração anterior e eficiência de inferência reforçada em 50%. O supernó concluiu a adaptação para modelos de referência, incluindo Wenxin, DeepSeek, GLM e MiniMax, com latência ponta-a-ponta otimizada em 50% através de uma arquitectura de rede HPN 5
GateNews2h atrás
As cotações do IPO da Cerebras acima da banda dos 150-160 dólares, com uma captação de 4,8 mil milhões de dólares na sequência de uma procura massiva
Segundo a Bloomberg, a Cerebras Systems está preparada para fixar o preço do seu IPO acima da faixa de 150-160 dólares dos EUA a 13 de maio de 2026, com a procura pela venda de ações a disparar mais de 20 vezes face às ações disponíveis. A fabricante de chips de IA está a oferecer 30 milhões de ações e conseguiria angariar 4,8 mil milhões de dólares no topo da faixa, tornando-se no maior IPO dos EUA deste ano, excluindo colocações privadas. A empresa reportou um lucro líquido de 87,9 milhões de
GateNews2h atrás