Blog /
AI /
Skandál s AI crawlery: Perplexity versus Cloudflare

Skandál s AI crawlery: Perplexity versus Cloudflare

Ondřej Barták
Ondřej Barták
podnikatel a programátor
6. 8. 2025
3 minut čtení
Skandál s AI crawlery: Perplexity versus Cloudflare

Skandál s AI crawlery: Perplexity versus Cloudflare

Jste majitel webu a snažíte se chránit svůj obsah před nechtěnými návštěvníky. Nastavíte pravidla, blokujete roboty, a přesto se někdo proplíží dovnitř. Právě to se děje podle zprávy od Cloudflare, která obviňuje AI startup Perplexity z používání chytrých triků, aby obešel omezení. Tento příběh je plný detailů o tom, jak moderní technologie bojují o data na internetu, a ukazuje, jak složité to může být udržet kontrolu nad vlastním obsahem. Pojďme se na to podívat krok za krokem.

Stížnosti od zákazníků a první testy

Všechno to začalo, když Cloudflare obdržel stížnosti od svých zákazníků. Ti tvrdili, že boty od Perplexity stále přistupují k jejich webům, přestože mají nastavená omezení v souboru robots.txt a v pravidlech webové aplikační brány firewall (WAF). Cloudflare se rozhodl to prověřit a vytvořil nové domény s podobnými bloky proti crawlerům Perplexity, jako jsou "PerplexityBot" nebo "Perplexity-User".

Co zjistili? Perplexity nejprve zkusí přístup identifikovat se svými oficiálními jmény. Pokud narazí na blok, změní svůj user agent – to je ta informace, která říká webu, jaký prohlížeč nebo zaří se snaží připojit. Místo toho se tváří jako Google Chrome na macOS. To umožní crawleru proklouznout skrz omezení, která by jinak fungovala.

Rotace IP a změny sítí

Ale to není všechno. Cloudflare zjistil, že Perplexity používá rotující IP adresy, které nejsou na oficiálním seznamu IP adres, který společnost poskytuje. Tento seznam je dostupný v dokumentaci Perplexity, ale tyto "tajné" IP adresy pocházejí z jiných zdrojů. Navíc mění autonomní systémové sítě (ASN), což jsou čísla identifikující skupiny IP sítí pod kontrolou jednoho operátora. Tímto způsobem se crawler vyhne detekci a blokům.

Podle Cloudflare se tato aktivita týkala desítek tisíc domén a milionů požadavků denně. To znamená, že Perplexity sbírá data ve velkém měřítku, i když majitelé webů jasně řekli "ne". Je to jako byste zamkli dveře, ale zloděj si vyrobil klíč z jiného materiálu.

Reakce Perplexity a Cloudflare

Perplexity na to reagovalo prostřednictvím svého mluvčího Jesseho Dwyera, který označil zprávu Cloudflare za "publicity stunt" – tedy za trik na získání pozornosti. Podle Dwyera je v blogu Cloudflare spousta nedorozumění. Společnost vydala vlastní odpověď na svém webu, kde tvrdí, že Cloudflare zaměnil 20 až 25 milionů požadavků od user agentů s AI scrapery. "User-driven agents jednají jen na základě specifických požadavků uživatelů a stahují jen potřebný obsah," vysvětlují. Navíc prý Cloudflare záměrně spojil Perplexity s 3 až 6 miliony denních požadavků od BrowserBase, což je cloudový prohlížeč pro AI agenty, který Perplexity používá jen občas.

Na druhé straně Cloudflare, jehož CEO Matthew Prince je známý svými výroky o "existenční hrozbě" AI pro vydavatele, zareagoval rázně. Odstranili Perplexity ze seznamu ověřených botů a zavedli nové metody, aby tyto "tajné crawlery" zablokovali. Minulý měsíc Cloudflare dokonce umožnil webům žádat platbu od AI společností za procházení obsahu a začal blokovat AI crawlery standardně.

Důsledky

Tento incident není ojedinělý. Loni Perplexity čelilo kritice za ignorování paywallů a souborů robots.txt, což CEO Aravind Srinivas připsal třetím stranám. Nyní Cloudflare zdůrazňuje, že crawlery musí být transparentní a respektovat přání majitelů webů. Další zdroje potvrzují, že Perplexity maskuje identity botů, rotuje IP a napodobuje prohlížeče, což ovlivňuje desítky tisíc domén. Cloudflare aktualizoval svá pravidla, aby tato chování blokoval, a zdůrazňuje, že takové praktiky podkopávají autonomii vydavatelů.

Tento příběh ukazuje, jak AI společnosti jako Perplexity tlačí hranice, aby získaly data pro své modely. Pro majitele webů to znamená potřebu lepší ochrany, zatímco pro uživatele je to připomínka, že za chytrými vyhledávači se skrývají složité boje o data. Pokud vás to zajímá, sledujte vývoj – zdá se, že tohle je jen začátek větší debaty o etice AI na webu.

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Jižní Korea vydá až 880 miliard dolarů na paměťové čipy, datacentra a roboty Jižní Korea vydá až 880 miliard dolarů na paměťové čipy, datacentra a roboty
Soul to myslí vážně, tak vážně, že prezident Lee Jae-mjong oznámil plán investic za nejméně 880 miliard dolarů a vedle sebe měl šéfy dvou největších...
3 min čtení
30. 6. 2026
Anthropic do EU? Rakousko spustilo lobbing po amerických restrikcích Anthropic do EU? Rakousko spustilo lobbing po amerických restrikcích
Vídeň poslala do Bruselu návrh, který by ještě před pár týdny zněl skoro nemyslitelně. Rakouský státní tajemník pro digitalizaci Alexander Pröll vyzva...
3 min čtení
30. 6. 2026
Zuckerbergovy AI plány brzdí Google, ten Metě omezil přístup k modelu Gemini Zuckerbergovy AI plány brzdí Google, ten Metě omezil přístup k modelu Gemini
Co se stane, když i jedna z nejbohatších technologických firem světa narazí na to, že si nemůže koupit dost výpočetního výkonu? Přesně tohle teď zaž...
3 min čtení
30. 6. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.