Mila Jovovich Witschi macht mit KI ein „A+ Projekt“? Entwickler testen selbst: Ist es wirklich etwas oder nur aufgeblasenes Marketing?

CryptoCity

Das von Mirajōwa Wittingi an der Entwicklung beteiligte KI-Memory-System MemPalace behauptet, bei den Tests eine Vollpunktzahl erzielt zu haben und sei damit viral gegangen. Doch die Community hat das Projekt schnell unter Beschuss genommen und beteuert, die Tests seien auf Betrug ausgelegt und die Daten würden in die Irre führen. In der Praxis zeigt sich, dass die Ergebnisse übertrieben sind und es viele Fehler gibt. Das Team hat die Mängel inzwischen eingeräumt und arbeitet bereits an der Behebung.

Mirajōwa Wittingi baut eine KI-Memory-Palastanlage – das weckt das Interesse der Öffentlichkeit

Gestern (4/7) gab es in der KI-Szene eine große Nachricht: Die Hollywood-Schauspielerin Milla Jovovich, bekannt aus „Resident Evil“ und „Das fünfte Element“, hat zusammen mit dem Entwickler Ben Sigman mithilfe von Claude Code das Open-Source-KI-Memory-System „MemPalace“ entwickelt.

Zugleich verbreitete sich rasch die Behauptung „Hollywood-Großstar macht einen Full-Score-Projektübergreifer“, und MemPalace hat bislang auf GitHub auch mehr als 20k Sterne erhalten. Doch schon bald kam Entwickler-Community-Zweifel auf: Ist da wirklich etwas dahinter – oder ist es nur ein Bluff?

Zuerst zu den Gründen für die Entstehung von MemPalace: In der offiziellen Dokumentation heißt es, man wolle das Problem lösen, dass bei aktuellen KI-Systemen die Nutzer-KI-Dialoginhalte, Entscheidungsprozesse und Architektur-Diskussionen nach Beendigung einer Arbeitssitzung typischerweise verschwinden. Das führt dazu, dass monatelange Mühen „auf null“ gehen.

Um dieses Problem zu lösen, nutzt MemPalace eine räumliche Architektur zur Speicherung von Erinnerungen und ordnet Informationen klar Bereichen zu, die Personen oder Projekten repräsentieren, sowie in Strukturen auf unterschiedlichen Ebenen wie Flure, Zimmer und Schubladen. Dabei wird der ursprüngliche Dialogtext für die spätere semantische Suche aufbewahrt.

Das Entwicklungsteam behauptet, MemPalace habe im Langzeit-Memory-Bewertungsmaßstab LongMemEval 100% perfekte Ergebnisse erzielt und erreiche zudem 96.6% Genauigkeit, ohne irgend eine externe API aufzurufen. Außerdem könne es vollständig lokal betrieben werden, ohne ein Abo für Cloud-Dienste, und es sei mit dem AAAK-Dialektsystem ausgestattet, das angeblich einen 30-fachen verlustfreien Kompressionsgrad erreichen könne.

Bildquelle: GitHub Hollywood-Star Milla Jovovich baut einen KI-Memory-Palast – das weckt das Interesse der Öffentlichkeit

Konkurrenten und Community äußern gemeinsam Zweifel – Testmethoden und Werbung mit Mängeln

Doch die behauptete Vollpunktzahl bei LongMemEval zog sehr schnell Zweifel von Wettbewerbern nach sich.

PenfieldLabs, ebenfalls ein Entwickler von KI-Memory-Systemen, wies darauf hin, dass es mathematisch unmöglich sei, dass MemPalace in dem Datensatz LoCoMo einen Full-Score erzielt, weil die Standardantworten in diesem Datensatz selbst bereits 99 Fehler enthalten.

Bei der Analyse stellte PenfieldLabs fest, dass die 100% Punktzahl von MemPalace daraus resultieren, dass die Anzahl der Abrufe auf 50 gesetzt wurde, die höchste Stufe der Dialogdaten im Testdatensatz jedoch nur 32 beträgt. Das bedeutet: Das System springt direkt die Abrufphase um und übergibt alle Daten an das KI-Modell zum Lesen.

Hinsichtlich der 100% bei LongMemEval wurde das Entwicklungsteam dabei entdeckt, dass es sich auf drei spezifische Probleme konzentrierte, die in der Entwicklung/Implementierung schiefgelaufen waren. Es wurden eigene Reparaturcodes geschrieben, wodurch der Verdacht auf Betrug am Testset aufkommt.

Bildquelle: Reddit – Wettbewerber PenfieldLabs weist darauf hin, dass MemPalace behauptet, im LoCoMo-Datensatz einen Full-Score erzielt zu haben; mathematisch ist das unmöglich

GitHub-Nutzer testen in der Praxis: Benchmark-Tests enthalten irreführende Bestandteile

Der GitHub-Nutzer hugooconnor kommentierte nach eigenen Tests: MemPalace behauptet eine Abrufgenauigkeit von bis zu 96.6%, tatsächlich habe es aber überhaupt nicht die von MemPalace beworbene Memory-Palast-Architektur verwendet. hugooconnor sagt, ihre Tests würden lediglich die Standardfunktionen der zugrunde liegenden Datenbank ChromaDB aufrufen und hätten keinerlei Berührung mit der Kategorielogik von Flügeln, Zimmern oder Schubladen, die im Projekt besonders betont wird.

Nach ihrem Test habe hugooconnor herausgefunden, dass die Abrufleistung stattdessen sogar abnimmt, sobald das System wirklich diese speziellen Kategorielogiken der Memory-Paläste aktiviert. Beispielsweise fällt die Genauigkeit im Zimmer-Modus auf 89.4%, und nachdem die AAAK-Kompressionstechnologie aktiviert wurde, sinkt die Genauigkeit noch weiter auf 84.2% – beide liegen unter der Leistung der voreingestellten Datenbank.

hugooconnor kritisierte außerdem die Testmethode: Die Testumgebung von MemPalace habe absichtlich den Abrufbereich für jede Frage auf etwa 50 Dialogphasen verkleinert. In einer extrem kleinen Beispiel-Datenbank nach Antworten zu suchen, sei zu einfach.

Wenn man den Bereich auf über 19.000 Dialogphasen in einem realistischen Szenario erweitert, würde die Genauigkeit traditioneller Keyword-Suche auf 30% einbrechen – was zeigt, dass die aktuelle Testweise von MemPalace die realen Suchschwierigkeiten verschleiert.

Bildquelle: GitHub – GitHub-Nutzer testen in der Praxis: MemPalace Benchmark-Tests enthalten irreführende Bestandteile

Obwohl das Entwicklungsteam bereits eine Berichtigungs-Erklärung veröffentlicht hat, räumt es ein, dass die AAAK-Technologie tatsächlich als verlustbehaftete Kompression verifiziert wurde, und verspricht, die Dokumentation sowie das Systemdesign entsprechend der strengen Kritik der Community zu korrigieren. Doch das Haupt-Readme-Dokument des Projekts behält weiterhin mehrere ungeänderte übertriebene Behauptungen bei, darunter „30-fache verlustfreie Kompression“ und „34% Abrufsteigerung“. Außerdem fehle bei den Vergleichsgrafiken mit anderen Wettbewerbern komplett der Nachweis der Quellen.

MemPalace-Quellcode sieht sich mit mehreren Bugs konfrontiert

Mit immer mehr Downloads von Testversionen tauchen auf der GitHub-Plattform massenhaft Bug-Meldungen zum MemPalace-Quellcode auf.

Der Nutzer cktang88 listet mehrere schwerwiegende Mängel auf, darunter funktionieren die Kompressionsbefehle nicht und führen dazu, dass das System abstürzt, außerdem Fehler in der Logik zur Berechnung der Zusammenfassungswortanzahl sowie ungenaue statistische Daten beim „Graben“ nach Zimmern, und zudem lädt der Server bei jedem Aufruf sämtliche Interpretationsdaten in den Speicher, was zu massiven Ressourcenproblemen führt.

Zu den weiteren genannten Problemen gehört auch, dass das System die Namen von Familienmitgliedern von Entwicklern fest in die voreingestellten Konfigurationsdateien einträgt, sowie eine erzwungene Anzeige-Grenze von 10k Datensätzen beim Abfragen des Status.

Zur Behebung dieser Probleme hat die Open-Source-Community bereits aktiv mit Reparaturen begonnen. Der Nutzer adv3nt3 hat mehrereReparaturanfragen eingereicht, darunter Korrekturen an den Grab-/Erkundungsstatistiken, das Entfernen der voreingestellten Namen von Familienmitgliedern sowie das Hinauszögern der Initialisierungszeit der Knowledge-Graph. Das Entwicklungsteam hat später ebenfalls eingeräumt, dass diese Fehler existieren, und arbeitet inzwischen im Rahmen der Community-Zusammenarbeit schrittweise daran, die Programmprobleme zu lösen.

Milla Jovovichs Vibe Coding ist cool – das Marketing ist es nicht

Für das Projekt MemPalace zog ein Hacker-News-Nutzer namens darkhanakh folgendes Fazit: MemPalace vermittelt das Gefühl von OpenClaw, also dass man die Ergebnisse von Benchmarks künstlich so manipuliert, dass sie perfekt aussehen, und sie dann als eine Art großen Durchbruch vermarktet.

Er glaubt, dass die zugrunde liegende Technologie von MemPalace möglicherweise wirklich interessant sein könnte. Doch unter Umständen, in denen die Testmethode solche Mängel aufweist, noch dazu mit „dem höchsten öffentlich erreichbaren Score“ zu werben, sei einfach nicht angemessen. „Aber, Milla Jovovich spielt Vibe Coding – ich finde, das ist irgendwie trotzdem ziemlich cool.“

Weiterführende Lektüre:
KI schreibt Code und geht schief! App „Schatzjäger für Frischware“ der Supermarktkette bringt massive Sicherheitsprobleme ans Licht – der GPS-Standort in der Wohnung läuft komplett ungeschützt weiter

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare