Skandál s AI crawlery: Perplexity versus Cloudflare

Jste majitel webu a snažíte se chránit svůj obsah před nechtěnými návštěvníky. Nastavíte pravidla, blokujete roboty, a přesto se někdo proplíží dovnitř. Právě to se děje podle zprávy od Cloudflare, která obviňuje AI startup Perplexity z používání chytrých triků, aby obešel omezení. Tento příběh je plný detailů o tom, jak moderní technologie bojují o data na internetu, a ukazuje, jak složité to může být udržet kontrolu nad vlastním obsahem. Pojďme se na to podívat krok za krokem.

Stížnosti od zákazníků a první testy

Všechno to začalo, když Cloudflare obdržel stížnosti od svých zákazníků. Ti tvrdili, že boty od Perplexity stále přistupují k jejich webům, přestože mají nastavená omezení v souboru robots.txt a v pravidlech webové aplikační brány firewall (WAF). Cloudflare se rozhodl to prověřit a vytvořil nové domény s podobnými bloky proti crawlerům Perplexity, jako jsou "PerplexityBot" nebo "Perplexity-User".

Co zjistili? Perplexity nejprve zkusí přístup identifikovat se svými oficiálními jmény. Pokud narazí na blok, změní svůj user agent – to je ta informace, která říká webu, jaký prohlížeč nebo zaří se snaží připojit. Místo toho se tváří jako Google Chrome na macOS. To umožní crawleru proklouznout skrz omezení, která by jinak fungovala.

Rotace IP a změny sítí

Ale to není všechno. Cloudflare zjistil, že Perplexity používá rotující IP adresy, které nejsou na oficiálním seznamu IP adres, který společnost poskytuje. Tento seznam je dostupný v dokumentaci Perplexity, ale tyto "tajné" IP adresy pocházejí z jiných zdrojů. Navíc mění autonomní systémové sítě (ASN), což jsou čísla identifikující skupiny IP sítí pod kontrolou jednoho operátora. Tímto způsobem se crawler vyhne detekci a blokům.

Podle Cloudflare se tato aktivita týkala desítek tisíc domén a milionů požadavků denně. To znamená, že Perplexity sbírá data ve velkém měřítku, i když majitelé webů jasně řekli "ne". Je to jako byste zamkli dveře, ale zloděj si vyrobil klíč z jiného materiálu.

Reakce Perplexity a Cloudflare

Perplexity na to reagovalo prostřednictvím svého mluvčího Jesseho Dwyera, který označil zprávu Cloudflare za "publicity stunt" – tedy za trik na získání pozornosti. Podle Dwyera je v blogu Cloudflare spousta nedorozumění. Společnost vydala vlastní odpověď na svém webu, kde tvrdí, že Cloudflare zaměnil 20 až 25 milionů požadavků od user agentů s AI scrapery. "User-driven agents jednají jen na základě specifických požadavků uživatelů a stahují jen potřebný obsah," vysvětlují. Navíc prý Cloudflare záměrně spojil Perplexity s 3 až 6 miliony denních požadavků od BrowserBase, což je cloudový prohlížeč pro AI agenty, který Perplexity používá jen občas.

Na druhé straně Cloudflare, jehož CEO Matthew Prince je známý svými výroky o "existenční hrozbě" AI pro vydavatele, zareagoval rázně. Odstranili Perplexity ze seznamu ověřených botů a zavedli nové metody, aby tyto "tajné crawlery" zablokovali. Minulý měsíc Cloudflare dokonce umožnil webům žádat platbu od AI společností za procházení obsahu a začal blokovat AI crawlery standardně.

Důsledky

Tento incident není ojedinělý. Loni Perplexity čelilo kritice za ignorování paywallů a souborů robots.txt, což CEO Aravind Srinivas připsal třetím stranám. Nyní Cloudflare zdůrazňuje, že crawlery musí být transparentní a respektovat přání majitelů webů. Další zdroje potvrzují, že Perplexity maskuje identity botů, rotuje IP a napodobuje prohlížeče, což ovlivňuje desítky tisíc domén. Cloudflare aktualizoval svá pravidla, aby tato chování blokoval, a zdůrazňuje, že takové praktiky podkopávají autonomii vydavatelů.

Tento příběh ukazuje, jak AI společnosti jako Perplexity tlačí hranice, aby získaly data pro své modely. Pro majitele webů to znamená potřebu lepší ochrany, zatímco pro uživatele je to připomínka, že za chytrými vyhledávači se skrývají složité boje o data. Pokud vás to zajímá, sledujte vývoj – zdá se, že tohle je jen začátek větší debaty o etice AI na webu.

Kategorie: AI