Milla Jovovich Vicky usa IA para criar um “projeto de pontuação perfeita”? Teste de desenvolvedores: é mesmo conteúdo ou exagero para promoção?

CryptoCity

O sistema de memória com IA MemPalace, que foi desenvolvido com participação de Milla Jovovich, afirma ter obtido nota máxima nos testes e tornou-se viral, mas foi rapidamente alvo de críticas da comunidade, que alegou trapaça nos testes e manipulação dos dados. Testes em ambiente real revelaram que os resultados foram exagerados e que há muitos erros. A equipa já admitiu falhas e está a trabalhar na correção.

Milla Jovovich criou o “AI Memory Palace”, gerando atenção do exterior

Ontem (4/7), houve uma grande novidade no universo da IA: a estrela de Hollywood Milla Jovovich (conhecida por “Resident Evil” e “O Quinto Elemento”), em conjunto com o programador Ben Sigman, usando Claude Code, desenvolveu o sistema open source de memória com IA “MemPalace”.

Durante algum tempo, espalhou-se a ideia de “uma estrela de Hollywood a atravessar fronteiras para criar um projeto perfeito”. Até agora, o MemPalace já recebeu mais de 20 mil estrelas no GitHub, mas, muito rapidamente, a comunidade de programadores levantou dúvidas: há mesmo qualidade ou é apenas promoção?

Vejamos primeiro a motivação por detrás do nascimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação atual dos sistemas de IA: as conversas do utilizador com a IA, o processo de decisão e as discussões sobre a arquitetura normalmente desaparecem depois de a sessão de trabalho terminar, fazendo com que meses de trabalho se percam.

Para resolver este problema, o MemPalace usa uma arquitetura espacial para armazenar memórias: categoriza a informação de forma clara em alas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, quartos e gavetas, preservando o texto original das conversas para pesquisas posteriores de significado.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no benchmark de memória de longo prazo LongMemEval, e atingiu 96,6% de precisão sem chamar qualquer API externa. Além disso, pode funcionar totalmente localmente, não exigindo subscrição de serviços cloud, e vem com um sistema dialetal AAAK que é alegadamente capaz de atingir 30x de compressão sem perdas.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o AI Memory Palace, gerando atenção do exterior

Concorrentes e comunidade levantam dúvidas em conjunto: métodos de teste e falhas na promoção

Mas, com o anúncio do desempenho perfeito do LongMemEval, o projeto foi rapidamente alvo de questionamentos por parte de concorrentes.

A PenfieldLabs, que também desenvolve sistemas de memória com IA, apontou que é matematicamente impossível o MemPalace obter nota máxima no dataset LoCoMo, porque as respostas padrão desse dataset já incluem 99 erros.

A PenfieldLabs analisou e descobriu que o resultado de 100% do MemPalace vem de configurar o número de consultas para 50 vezes, mas o nível mais alto de turnos na conversa do conjunto de testes é apenas 32. Isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

Em relação ao resultado de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento se concentrou em 3 problemas específicos em que houve erro durante a criação, escreveu código de correção dedicado, e existe suspeita de trapaça direcionada ao conjunto de testes.

Fonte da imagem: Reddit A PenfieldLabs de concorrentes aponta que o MemPalace afirma obter nota máxima no dataset LoCoMo, o que é matematicamente impossível

Testes reais por utilizadores do GitHub: os benchmarks têm componentes de indução em erro

O utilizador do GitHub hugooconnor comentou após testes em ambiente real, dizendo que o MemPalace afirma ter uma precisão de recuperação de até 96,6%, mas na prática não utiliza de todo a arquitetura do “AI Memory Palace” que promove. hugooconnor afirmou que os testes apenas chamaram as funcionalidades predefinidas do banco de dados subjacente ChromaDB, sem qualquer lógica de categorização como alas, quartos ou gavetas enfatizada no projeto.

Após testar, o hugooconnor constatou que quando o sistema realmente ativa essa lógica de categorização exclusiva do Memory Palace, o desempenho de recuperação piora. Por exemplo, no modo de quartos, a precisão desce para 89,4%; e, após ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, e ambos ficam abaixo do desempenho do banco de dados predefinido.

hugooconnor também criticou o método de teste. O ambiente de testes do MemPalace reduz deliberadamente o intervalo de recuperação de cada problema para cerca de 50 turnos de conversa, tornando demasiado simples encontrar respostas num conjunto de amostra muito pequeno.

Se o intervalo for alargado para mais de 19.000 turnos de conversa em cenários reais, a precisão da pesquisa por palavras-chave tradicional despenca para 30%, mostrando que a forma atual de testar do MemPalace encobre o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Testes reais feitos por utilizadores do GitHub: o benchmark do MemPalace tem componentes que induzem em erro

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado um comunicado de correção, reconhecendo que a tecnologia AAAK é efetivamente uma compressão com perdas e prometendo ajustar a documentação e o desenho do sistema de acordo com as críticas rigorosas da comunidade, a principal documentação do projeto continua a manter várias alegações exageradas não corrigidas, incluindo a afirmação de compressão sem perdas 30x e um aumento de recuperação de 34%. Além disso, as comparações com outros concorrentes também não apresentam fontes e origens.

O código-fonte do MemPalace enfrenta vários bugs

À medida que mais programadores descarregam os testes, tem surgido uma grande quantidade de relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não funciona e provoca a queda do sistema, erros na lógica de contagem de palavras do resumo, estatísticas de escavação de quartos imprecisas, e ainda o facto de o servidor, em cada chamada, carregar todos os dados interpretados na memória, causando um problema severo de consumo de recursos.

Outros problemas assinalados incluem o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e existir um limite máximo obrigatório de visualização de 10k registos durante a consulta do estado.

Para estas questões, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção****, incluindo correções às estatísticas de escavação, remoção do nome predefinido do familiar e adiamento do tempo de inicialização do grafo de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração com a comunidade.

Vibe Coding da Milla Jovovich é fixe, a estratégia de marketing não é

Sobre o projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de “OpenClaw”, isto é, manipular artificialmente os resultados do benchmark para que pareçam impecáveis e, depois, embalá-los como se fosse algum avanço importante para marketing.

Ele considera que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas com falhas deste tipo no método de teste, e ainda por cima a promover com “o maior resultado público de sempre”, não é muito apropriado, “mas, quanto a isto de a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
O IA a escrever código sai mal! App “惜食獵人” do produto de validade de supermercado levanta problemas de segurança, e o GPS em casa fica totalmente exposto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários