Lak Lakshmanan, autor článku, bude mít hlavní projev na konferenci "Data Engineering in the Age of AI" 13. listopadu 2025. Mluví o tom, proč agentická umělá inteligence (AI) otřásá datovým inženýrstvím a jak se mění práce datových inženýrů. Tento text rozšiřuje jeho myšlenky a vysvětluje technologické posuny, které to způsobují. Představte si, že data už nejsou jen surová čísla v tabulkách, ale něco, co AI dokáže přímo chápat a používat. Lak Lakshmanan popisuje, jak se mění způsob, jakým lidé pracují s daty. Dříve stavěli softwaroví inženýři a datoví vědci aplikace a dashboardy pro netechnické uživatele. Ti je pak jen pasivně používali s pevnými postupy. Datoví inženýři dodávali data v přesných formátech pro tyto aplikace.
Teď se netechničtí uživatelé dostávají přímo k datům. Mohou si "vibe códovat" vlastní nástroje přesně podle potřeb. Aplikace jdou dál než jen chatovací okénko – vestavují přirozený jazyk pomocí rámců jako CopilotKit. Vývojáři vkládají AI agenty do aplikací, kde každý backendový API slouží jako nástroj pro agenta. Další změna je v centru tíže. Dříve byla data obrovská, takže se výpočty přesouvaly k nim, aby se nemusely tahat velké objemy. Teď jsou hranicové modely AI (jako velké jazykové modely, LLM) novým centrem. Aplikace se staví kolem nich. Místo vlastních výpočtů jdou k datům, AI aplikace používají LLM jako motor pro pochopení záměru uživatele, uvažování o úkolu a volání nástrojů pro akce. To všechno převrací práci datových inženýrů. Lak Lakshmanan uvádí pět zásad, jak připravit data pro AI.
1. Přehodnoťte ETL/ELT
Datoví inženýři dnes věnují spoustu úsilí normalizaci dat, tvorbě čistých schémat a transformačním potrubím. Cílem je, aby data chápali analytici a aplikace dole po proudu. To neznamená, že ETL/ELT (extrakce, transformace, načítání) ztrácí smysl – dostupnost dat zůstává klíčová. Ale agenti dokážou interpretovat schémata, chápat vztahy a pracovat s daty v různých formátech bez velkého předzpracování.
Lak Lakshmanan varuje před tím, že jen přidat katalog dat a servery MCP na stávající tabulky – to podceňuje schopnosti agentické technologie a ztěžuje práci AI agentům. AI agenti chápou data v kontextu. Nepotřebují všechno předem normalizované do tuhých schémat. S rostoucím počtem tabulek mají dnešní agenti problémy správně interpretovat a psát SQL pro spojování. Navíc s více úzkými řezy dat roste riziko kolizí a nejasností. Například sloupec "výše půjčky" v jedné tabulce může znamenat částku požadovanou dlužníkem, v jiné zase hlavní částku vyplacenou věřitelem. Kontext se ztrácí, čím víc se data masírují, normalizují a rozšiřují.
Udržujte workflowy pro dostupnost dat, ale zpochybňujte každý normalizační krok. Může agent data pochopit s dobrým kontextem místo transformace? Místo jediného čísla pro hlavní částku by to mohlo být odstavec z původního term sheetu nebo memoranda o financování, který vysvětluje tranše uvolňování. Neomezujte se jen na nestrukturovaná data pro AI agenty – je snadné hodit RAG (retrieval-augmented generation) přes PDF, e-maily atd., ale opravdu akční data v organizaci jsou často strukturovaná.
2. Upřednostněte kurátorství dat před sběrem
Učení v kontextu dělá kurátorství důležitější než sbírání. V éře velkých dat bylo cílem shromáždit co nejvíc, protože strojové učení potřebovalo obrovské datasety, kde víc dat znamenalo lepší modely.
Ale AI agenti se staví na učení v kontextu, kde dáte příklad nebo dva do promptu. LLM je dokáže napodobit, ať jde o proces (Chain of Thought) nebo formát/styl (Few-shot Learning). S příchodem učení v kontextu je kvalita příkladů důležitější než objem. Data, která ukážete agentovi jako příklad, formují, jak chápe podobná data. Možná budete vytvářet "Example Store" a vybírat příklady pro specifické typy dotazů uživatelů. S rostoucím významem kurátorství musí datoví inženýři budovat nástroje pro: identifikaci nejkvalitnějších dat, příkladů, které jsou úplné, přesné a reprezentativní; pravidelné aktualizace těchto příkladů podle změn standardů; ověření, že kurátovaná data slouží jako efektivní příklady pro učení agentů.
3. Budujte infrastrukturu připravenou pro agenty
AI agenti potřebují infrastrukturu podporující dvě základní schopnosti: vnímání dat a akce na nich. Ne všechny formáty dat jsou pro agenty na bázi jazykových modelů stejně přístupné. Zvažte, jak snadno agent parsuje, chápe a extrahuje smysl z vašich formátů. Formáty, které zachovávají sémantický význam a vyžadují minimální předzpracování, snižují tření.
AI agenti jednají voláním nástrojů – funkcí, API a služeb, které jim umožňují operovat s daty. Infrastruktura musí tyto nástroje dělat objevitelnými a použitelnými pro agenty. To znamená jasná rozhraní, dobrou dokumentaci a spolehlivé provedení. Prověřte přístupové vzory dat a nástroje z pohledu AI agenta. Co by autonomní systém potřeboval vědět, aby je efektivně použil? Kde je tření, které brání hladkému fungování?
4. Spravujte artefakty agentů jako prvotřídní data
AI agenti nejen konzumují data, ale i produkují. Lak Lakshmanan poznamenává, že AI-generovaný obsah začne výrazně převažovat nad "surovými" daty v systémech. Když agent generuje výstup, rozhoduje, píše kód nebo loguje uvažovací proces, stává se to daty.
Ať je obsah vytvořen lidmi, shromážděn ze softwarových systémů nebo generován AI agenty, musí splňovat očekávání a regulace běžné v odvětví. Kromě souladu s předpisy mají tato data hodnotu pro ladění, audit, trénink budoucích agentů a chápání chování systému. Zacházejte s artefakty agentů stejně pečlivě jako s jinými daty: ukládejte výstupy systematicky; zachovávejte logy rozhodnutí a stopy uvažování; spravujte generovaný kód jako verziované artefakty; dělejte tato data přístupná pro analýzu a budoucí trénink. Tyto artefakty se stávají součástí datového ekosystému. Navrhněte úložné a přístupové vzory podle toho.
5. Spojte pozorování s tréninkem
Nejrychlejší cesta k lepším agentům je uzavřít smyčku mezi pozorovatelností a tréninkem. Infrastruktura AI agentů potřebuje obousměrná potrubí, která spojují výkon modelu a pozorovatelnost zpět s kontinuálním tréninkem.
Nejdřív potřebujete platformu pro pozorovatelnost, která sleduje metriky kvality dat a detekuje drift dat (změny v charakteristikách vstupních dat) a konceptuální drift (změny ve vztahu mezi vstupem a výstupem). Zároveň monitoruje klíčové ukazatele výkonu modelu jako přesnost, latence a míru halucinací. Nastavte automatické spouštěče na předdefinované prahy. Platforma pro pozorovatelnost se rozšíří i o lidskou zpětnou vazbu. Každá oprava, kterou uživatelé provedou na generovaném obsahu, se loguje a používá k zlepšení AI modelů.
Dále potřebujete potrubí pro přetrénování, které se aktivuje na základě spouštěče z monitoringu. Musí být plně automatizované, tahat nejnovější verzi kurátovaných tréninkových dat, spouštět úlohu přetrénování nebo fine-tuning modelu a provádět nový model skrz komplexní sadu evaluací a regresních testů. Budování tohoto uzavřeného systému, spojujícího monitorování výkonu přímo s automatickým nasazením, je klíčovou úlohou pro ML/datové inženýry v agentické éře.
