Na začátek si řekneme co je to Mem0 a Zep. Jsou to speciální nástroje pro umělou inteligenci, které pomáhají AI si pamatovat a organizovat informace z rozhovorů, jako by to byla paměť; Mem0 ukládá fakta a shrnky do jednoduchého vektorového systému, zatímco Zep vytváří složitější graf vztahů mezi věcmi, což může způsobit více automatických aktualizací a vyšší náklady.
Když se podíváte na systémy jako Mem0 nebo Zep, slibují úspory nákladů až o 90 % a rychlejší reakce. Jenže v reálném nasazení inženýři často kroutí hlavou – tyto nástroje jsou těžké, způsobují zpoždění a v praxi nefungují tak, jak se prodávají. Autor článku se rozhodl to prozkoumat hlouběji. Vzal dva populární systémy – Zep s grafovou strukturou a Mem0 jako univerzální paměť – a otestoval je proti benchmarku MemBench z roku 2025. Ten testuje reflexivní paměť a uvažování v konverzacích.
Cílem bylo simulovat 4 000 konverzačních případů s modelem gpt-5-nano. Úkol byl jednoduchý: vést rozhovor, extrahovat fakta a později si je připomenout. To je přesně ten typ práce, na který jsou tyto systémy navržené.
Výsledky byly šokující. Základní dlouhý kontext dosáhl přesnosti 84,6 %, průměrně 4 232 vstupních tokenů, zpoždění 7,8 sekund a celkové náklady 1,98 dolaru (přibližně 45 Kč při kurzu 23 Kč za dolar). Mem0 s vektory měl přesnost jen 49,3 %, průměrně 7 319 tokenů, zpoždění 154,5 sekund a náklady 24,88 dolaru (přibližně 572 Kč). Zep s Graphiti dosáhl 51,6 % přesnosti, ale spotřeboval průměrně 1,17 milionu tokenů na případ, zpoždění 224 sekund a odhadované náklady kolem 152,6 dolaru (přibližně 3 510 Kč) – test musel být přerušen po 1 730 případech kvůli vysokým výdajům po 9 hodinách.
Autor si nejdřív myslel, že je chyba v jeho nastavení, protože milion tokenů na jednoduchý rozhovor zní nesmyslně. Ale po prozkoumání logů zjistil, že to není chyba – je to způsob, jak tyto systémy fungují.
Architektura: LLM při zápisu
Tyto systémy nefungují jen jako jednoduché úložiště. Používají metodu, kterou autor nazývá LLM-on-Write. Každou zprávu zachytí a spustí na pozadí procesy s umělou inteligencí, aby extrahovaly význam.
U Mem0, které se opírá o fakta a shrnky, běží na každou interakci tři paralelní procesy: aktualizace časové osy konverzace pro narativní shrnutí, identifikace faktů pro uložení do vektorového úložiště a kontrola protikladů pro úpravu nebo mazání starých faktů. Každý z těchto procesů volá samostatně model LLM. Takže jedna zpráva od agenta spustí tři oddělené inference.
Zep s Graphiti jde ještě dál. Když řeknete "Pracuji na projektu X", nesnaží se jen uložit text. Spustí extraktor, který identifikuje entitu "Uživatel", entitu "Projekt X" a vytvoří hranu "Pracuje na". Pak prohledá graf, jestli to nekoliduje s jinými fakty, jako "Uživatel pracuje na projektu Y". Pokud najde konflikt, spustí další volání LLM pro řešení. V experimentu to vedlo k řetězové reakci aktualizací – jedna změna spustila aktualizaci sousedního uzlu, což vyvolalo přeshrnutí hrany. Průměrně to znamenalo 1 028 volání LLM na případ a celkem 2 miliardy vstupních tokenů.
Společná chyba: Extrakce faktů
Ačkoli se Mem0 (vektory) a Zep (graf) liší, oba trpí stejným problémem: závislostí na extrakci faktů pomocí LLM. Tyto modely interpretují surová data do "faktů", což funguje pro personalizaci, jako když si pamatují, že uživatel má rád modrou barvu. Ale pro autonomní agenty, kteří potřebují snižovat náklady a zpoždění, to nefunguje.
Extraktor je nedeterministický, což znamená, že může přepsat "Byl jsem nemocný loni" na "aktuální stav: nemocný". Chyba vznikne už při zápisu, takže data jsou poškozená ještě před uložením. Žádná optimalizace vyhledávání to nedokáže opravit, protože databáze je plná halucinací. Hlavní model LLM pak závisí na přesnosti tohoto extraktoru.
K tomu se přidává daň z N+1 – každá zpráva spustí řadu volání, jako extrakce, shrnutí a aktualizace grafu. To zvyšuje zpoždění a náklady, protože vrstvíte LLM na LLM a platíte za hluk v každé vrstvě.
Marketing skrývá skutečné náklady
Prodejci těchto systémů zdůrazňují náklady na jedno vyhledání – jak je levné načíst malý kontext místo celé historie. Ale v praxi platíte za celou konverzaci, včetně daně z extrakce a rekurzivních aktualizací. Zep je v tomhle poctivější než většina, protože se zaměřuje na temporalní grafy pro personalizaci a obchodní kontext. Přesto i pro jejich cílové použití jsou náklady na produkční škále příliš vysoké. Lidé je často používají pro úkoly, na které nejsou navržené, jako stav provádění agenta.
Hype kolem "univerzální paměti" přitahuje, protože zní úžasně – nekonečný kontext za nic. Ale architektura to nedovoluje.
Pracovní paměť versus sémantická paměť
Z experimentu vyplývá, že univerzální paměť neexistuje. Řešíme dva odlišné problémy jedním nástrojem. Sémantická paměť slouží uživateli – sleduje preference, dlouhodobou historii a vztahy. Má být fuzzy, extrahovaná a grafová. Pracovní paměť slouží agentovi – sleduje cesty k souborům, názvy proměnných a okamžité chybové logy. Musí být bezztrátová, časová a přesná.
Použití sémantického nástroje jako Zep nebo Mem0 pro pracovní úkoly není jen kompromis – je to špatná volba. Je to jako spouštět databázi na ztrátovém kompresním algoritmu. Stav je jádrem aplikace a nelze ho spolehlivě komprimovat. Sémantická paměť je skvělá pro personalizaci mezi sezeními, ale katastrofální pro stav během úkolu. Je potřeba je oddělit a používat samostatně.
