Víc než polovina veškerého provozu na internetu dnes nepochází od lidí. Data od Ahrefs ukazují, že 63 % webů dostává návštěvy od AI agentů. Přesto většina provozovatelů webů vůbec netuší, co se na jejich stránkách děje. Google Analytics jim totiž klidně zaznamená robota jako reálného zákazníka.
AI agenti nejsou jen weboví crawlery, které si lidé pamatují z dob, kdy je šlo snadno zastavit zápisem do souboru robots.txt. Jde o sofistikované nástroje, které klikají na tlačítka, vyplňují formuláře a procházejí celý nákupní proces. Přesně jako člověk. A právě proto je tak těžké je chytit.
Činnost AI agenta na webu
Nejdřív je potřeba pochopit, o jak různorodou skupinu jde. Pod pojmem "AI agent" se totiž skrývá hned několik typů provozu, které se od sebe zásadně liší.
Crawlery AI vyhledávačů jako Perplexity nebo Google AI Overviews si vaše stránky prohlíží proto, aby obsah mohly zařadit do výsledků AI vyhledávání. Pak jsou tu crawlery pro trénování jazykových modelů, například GPTBot od OpenAI, ClaudeBot od Anthropicu nebo CCBot. Ty shromažďují text k tréninku nebo aktualizaci modelů a většina z nich se přizná přímo v hlavičce požadavku.
Jiná kategorie jsou scrapery. Jde o nástroje třetích stran, které kradou obsah pro konkurenční produkty, sledují vaše ceny nebo kopírují text ve velkém měřítku.
Pak přicházejí agenti jednající jménem uživatelů. Zákazník řekne ChatGPT "porovnej mi ceny tří e-shopů" a ChatGPT pošle agenta, který projde vaše stránky, načte informace a přinese výsledek. Perplexity Comet, Amazon Buy for Me nebo Base44 dokonce dokončují nákupy a rezervace jménem uživatelů.
A pak jsou tu podvodní agenti, kteří přišli záměrně škodit. Testují ukradená čísla platebních karet, zakládají desítky falešných účtů pro zneužití slevových akcí nebo mapují zranitelnosti systému. Průzkum Accenture zjistil, že 78 % technických ředitelů finančních institucí očekává nárůst podvodů způsobených AI nákupními agenty.
Klasické nástroje na agenty nestačí
Mnoho týmů si myslí, že mají ochranu vyřešenou. Zapnuli Bot Fight Mode v Cloudflare, nastavili CAPTCHU a je vše vyřešeno. Jenže realita vypadá jinak. Bezpečnostní tým cside nasadil AI agenty proti dvěma velkým platformám pro detekci botů. Prošli nezjištěni v 81 případech ze 100, což je považováno za hrubé selhání základní obrany.
Proč to tak je? Tradiční nástroje hledají vzorce, které platily před pár lety. Sledují reputaci IP adres, TLS otisky prstů nebo jednoduché CAPTCHA výzvy. AI agenti ale AI výzvy zvládají rychleji a spolehlivěji než lidé. A nástroje jako Playwright dnes nabízejí utajený režim, který potlačí příznak navigator.webdriver, zfalšuje Canvas a WebGL otisky a odstraní stopy po Chrome DevTools Protocolu.
Playwright si přitom stáhne přes 35 milionů vývojářů měsíčně. Vyhledávání pojmu "stealth browser" na Googlu dosahuje historických maxim. Lokálně spouštění agenti jsou pak ještě těžší případ. Někdo spustí automatizaci přes rozšíření v prohlížeči na svém MacBooku. Žádná datacentrová IP adresa, ale normální rezidentní IP, normální otisk prohlížeče a normálně vypadající zařízení.
Jak AI agenty skutečně odhalit
Existují v zásadě tři přístupy, přičemž každý zachytí jinou část provozu.
Serverové logy jsou nejjednodušší místo, kde začít. Velká část AI crawlerů se totiž sama přizná v User-Agent řetězci. GPTBot říká "GPTBot", ClaudeBot říká "ClaudeBot". Pokud používáte CDN jako Cloudflare, Vercel nebo Netlify, data najdete rovnou v dashboardu. U vlastního serveru si stáhnete logy z Nginxu nebo Apache. Problém? Funguje to jen pro ty agenty, kteří se rozhodnou být čestní. Ti nebezpeční se nepředstavují.
Analytické nástroje jako Google Analytics nebo PostHog pro detekci botů samy o sobě nestačí. Crawlery vůbec nespouštějí JavaScript, takže se do analytics vůbec nezapíší. Agenti v prohlížeči zase generují data, která vypadají jako lidská návštěva. Přesto se i v analytics dají najít stopy, například neobvyklý nárůst provozu z konkrétního prohlížeče Chrome, návštěvy ze zemí, které máte geoblokované v Cloudflare (u cside zaznamenali provoz z Číny, přestože ho měli v Cloudflare zablokovaný), nebo najednou tisíce sezení ze stejného rozlišení obrazovky a stejné geografické oblasti. Tohle jsou příznaky botí farmy.
Specializované nástroje pro detekci AI agentů jsou třetí a nejdůkladnější možnost. Fungují podobně jako analytika. Přidáte na web JavaScript snippet a nástroj začne sledovat provoz na čtyřech vrstvách najednou.
Čtyři signály, na které se dívat
Specializované detekční nástroje jako cside sledují čtyři kategorie signálů zároveň. Teprve jejich kombinace dává spolehlivý výsledek.
Identita je první vrstva. Kdo tvrdí, že je? User-Agent řetězec, podpis crawleru, křížová kontrola s databázemi známých robotů. Jak bylo řečeno, tohle funguje jen pro ty poctivé. Až 98 % AI provozu pochází od velkých platforem jako OpenAI, Anthropic, Google nebo Meta, a ty se většinou identifikují samy.
Síťová vrstva je dalším bodem. Každý požadavek přichází z IP adresy napojené na autonomní systém (ASN). Datacentrové ASN od AWS, GCP nebo Azure jsou silným příznakem automatizace. TLS otisky prozradí nesoulad: pokud se agent hlásí jako Chrome, ale TLS handshake vypadá jako Python skript, detekce ho odhalí. Stejně tak geografická nekonzistence. IP adresa z Frankfurtu, ale časová zóna prohlížeče nastavená na Šanghaj a jazyk zh-CN.
Vrstva prohlížeče a zařízení hledá artefakty automatizačních nástrojů. Playwright a Puppeteer ovládají prohlížeč přes Chrome DevTools Protocol a zanechávají stopy - například prefix cdc_ v objektech okna. WebGL, Canvas a Audio API by měly vyprávět konzistentní příběh o zařízení. Pokud prohlížeč hlásí výkonnou GPU přes WebGL, ale Canvas výstup tomu neodpovídá, nebo úplně chybí otisk Audio kontextu, jde o jasný znak, že někdo s prostředím prohlížeče manipuloval.
Chování je posledním signálem. Rychlost psaní, čas mezi navigacemi, vzory vyplňování formulářů, pohyb myši, hloubka scrollování. I sofistikovaná automatizace produkuje vzorce, které jdou odhalit. Jeden z inženýrů cside například analyzoval tři populární nástroje a zjistil, že jeden klikl na každé tlačítko přesně do středu, druhý vždy mírně vpravo od středu, třetí klikal do středu, ale občas přidal záměrně náhodný klik mimo střed. Šlo o pokus o zavedení šumu. Každý z těchto vzorců je detekovatelný.
Blokovat, nebo ne?
Tady mnozí dělají chybu. Automatické zablokování všeho, co vypadá automatizovaně, zní logicky. Jenže zákazníci dnes posílají agenty nakupovat za ně. Zablokujete agenta Perplexity Comet, který pro uživatele dokončoval objednávku, a přišli jste o tržbu. Přístup "bot, nebo ne" je zastaralý. Lepší otázka zní: co tento agent přišel dělat?
Pokud agent otestoval 17 platebních karet za tři minuty, jde o podvod. Pokud agent zakládá desítky účtů najednou, jde o zneužití věrnostního programu. Pokud agent prochází produktové stránky a porovnává ceny pro zákazníka, jde pravděpodobně o legitimní provoz, který chcete podpořit.
Proč web nikam neodejde
Občas se ozve hlas, že weby stejně přejdou na API a MCP a prohlížeč přestane být relevantní. Google ale zveřejnil průvodce tím, jak připravit web pro agenty, a výslovně se věnuje vizuální optimalizaci uživatelského rozhraní. Kdyby Google myslel, že weby půjdou čistě přes API, neradil by, jak zpřehledňovat tlačítka a stabilizovat rozložení stránek.
Výzkumníci z Carnegie Mellon University navíc zjistili, že hybridní agenti kombinující prohlížení webu s API voláními výrazně předčili čistě API přístupy. Ve 77,7 % úkolů agenti používali oba způsoby, i když API bylo dostupné, stále se vraceli k prohlížeči.
Agenti procházejí web jako lidé, protože to prostě funguje nejlépe. A právě proto jsou viditelní na úrovni prohlížeče. Tam je taky nejsnazší je chytit.
