Incidenty v generativních AI cloudových službách: Rozsáhlá studie odhaluje zásadní rozdíly oproti tradičním službám

Rychlý růst generativní umělé inteligence (GenAI) a zejména velkých jazykových modelů jako GPT-4 přinesl revoluci do cloudových služeb, ale také nové výzvy v oblasti spolehlivosti a správy incidentů. Rozsáhlá empirická studie provedená týmem výzkumníků z Microsoftu, University of Illinois a dalších prestižních institucí odhaluje fascinující pozorování o tom, jak se incidenty v GenAI cloudových službách zásadně liší od tradičních cloudových služeb.

Dramatický nárůst incidentů s příchodem GPT modelů

Studie analyzovala incidenty v GenAI cloudových službách Microsoftu za období posledních čtyř let, od června 2020 do února 2024. Výsledky ukazují dramatický vývoj spojen přímo s uvedením jednotlivých GPT modelů na trh. Před vydáním GPT-3.5 v březnu 2022 představovaly GenAI incidenty pouhá 3% všech incidentů v rámci cloudových služeb. Po roce 2023, zejména po uvedení GPT-4 v březnu 2023, došlo k významnému nárůstu - počet incidentů se zvýšil téměř desetkrát oproti éře GPT-3.5. Tento dramatický růst lze přičíst globální popularitě GPT modelů, které přilákaly miliony uživatelů po celém světě. Trend se projevil napříč všemi úrovněmi závažnosti incidentů, přičemž incidenty s nižším dopadem tvoří většinu případů. Rostoucí popularita služeb jako ChatGPT, který získal více než milion uživatelů již v prvním týdnu svého spuštění, výrazně přispěla k tomuto trendu.

Tři hlavní kategorie symptomů GenAI incidentů

Výzkumníci identifikovali tři zásadní kategorie symptomů, které charakterizují incidenty v GenAI cloudových službách. Degradace výkonu představuje nejčastější problém, objevující se v 49,8% případů. Tato kategorie zahrnuje především degradaci na úrovni služby (27,2%), kdy může současně selhat více API v rámci jedné GenAI služby, což ovlivňuje celkovou dostupnost a výkon služby. Druhým typem je degradace na úrovni API (22,6%), kdy dochází ke zpoždění konkrétního GenAI API. Selhání nasazení tvoří 35,7% incidentů a odráží dopady na kontinuitu GenAI služeb. Tato kategorie zahrnuje selhání nasazení modelů (12,0%), kdy se například nepodaří včas nasadit všechny uživatelem doladěné modely v konkrétní oblasti nasazení. Další významnou složkou jsou selhání nasazení zdrojů (14,4%), protože GenAI cloudové služby silně závisí na nasazení různých typů zdrojů, včetně výpočetních, síťových a úložných zdrojů pro zpracování, přenos a ukládání obrovských objemů dat. Selhání API pro doladění (9,3%) představují třetí typ, kdy dochází k problémům při volání API pro doladění modelů. Neplatná inference, ačkoli se vyskytuje v nejmenším procentu případů (14,5%), představuje možná nejzásadnější výzvu pro jádro funkčnosti GenAI služeb. Degradace kvality odpovědí (10,7%) může vést k situacím, kdy modely generují nekvalitní obsah i při jednoduchých uživatelských příkazech, nebo vytváří neplatný obsah, když model není schopen porozumět uživatelskému příkazu. Poruchy filtrů obsahu (3,8%) představují další kritický problém, kdy mohou filtry obsahovat chyby vedoucí k nesprávnému filtrování platných příkazů nebo odpovědí.

Infrastruktura jako hlavní příčina problémů

Analýza základních příčin incidentů odhalila, že problémy s infrastrukturou představují nejčastější zdroj problémů, tvořící 27,2% všech případů. GenAI cloudové služby jsou postaveny na komplexní hierarchické infrastruktuře zahrnující virtuální stroje, uzly, clustery a datová centra, která hostí úzce propojené zdroje včetně CPU, paměti, úložiště a sítí. Problémy s údržbou infrastruktury (17,8%) zahrnují zejména selhání hardwarových komponentů, jako jsou opotřebované GPU, které mohou ovlivnit doladění a inferenci GenAI služeb. Vadné GPU například mohou zpracovávat požadavky nesprávně, což vede k chybám jako je generování nesmyslných výstupů. Síťové problémy (4,7%) zahrnují nejen šířku pásma sítě, ale také komunikaci mezi VM a uzly v rámci clusterů, včetně problémů s připojením a selhání DNS rozlišení. Problémy s úložištěm (4,7%) souvisí se správou obrovských objemů dat, která vyžaduje robustní úložná řešení. Selhání datového úložiště nebo IO operací, jako je poškození dat nebo zpoždění, mohou vést k narušení služby. Konfigurační problémy tvoří 24,5% incidentů a zahrnují nesprávnou konfiguraci (13,1%), aktualizace konfigurace (6,4%) a chybějící nebo mezery v konfiguraci (5,0%). Kódové chyby představují 21,5% případů a zahrnují chyby porušující datová omezení modelu (6,7%), chyby filtrů obsahu (2,2%), chyby zpracování výjimek (6,3%) a chyby napříč systémy (6,3%). Externí problémy s použitím (14,1%) a provozní chyby (12,7%) doplňují spektrum příčin.

Lidský faktor dominuje v detekci incidentů

Jedním z nejpřekvapivějších zjištění studie je vysoké procento incidentů hlášených lidmi místo automatizovanými systémy. Zatímco u tradičních cloudových služeb hlásí lidé pouze 13,7% incidentů, u GenAI služeb je to výrazných 38,3%. Tento jev lze vysvětlit tím, že 45,9% GenAI cloudových služeb je stále ve vývoji nebo ve fázi náhledu, zatímco pouze 54,1% dosáhlo stavu obecné dostupnosti. Současné monitorovací systémy pro GenAI služby často vycházejí z adaptací stávajících frameworků navržených pro jiné typy cloudových služeb, které ještě nemusí plně odpovídat specifickým požadavkům GenAI scénářů. Například incidenty neplatné inference jsou často identifikovány a hlášeny uživateli, což odráží spolupráci při dalším zdokonalování těchto systémů. Studie zjistila přibližně 25,9 jedinečných monitorů na 100 incidentů hlášených monitory u GenAI služeb, ve srovnání s 74,4% u ostatních cloudových služeb. Míra falešných poplachů u incidentů detekovaných monitory v GenAI službách je výrazně vysoká - 11,0% oproti 6,6% u incidentů detekovaných lidmi. Tato vyšší míra falešně pozitivních výsledků pramení především z citlivosti monitorovacích systémů. Tyto falešné poplachy zatěžují inženýry zbytečnými vyšetřováními, což zpomaluje řešení skutečných incidentů.

Výrazně delší doba řešení incidentů

GenAI incidenty vyžadují obecně více času na zmírnění ve srovnání s ostatními typy. Konkrétně GenAI incidenty trvá v průměru 1,12 časových jednotek na vyřešení, ve srovnání s 0,65 časovými jednotkami pro non-GenAI incidenty. Tato delší doba řešení platí napříč všemi kategoriemi zmírnění, což odráží složitost řešení různých GenAI incidentů. Distribuce přístupů ke zmírnění se významně liší mezi GenAI a tradičními službami. Zatímco u ostatních cloudových služeb tvoří ad-hoc opravy 54,7% všech řešení, u GenAI služeb je to pouze 22,4%. Distribuce zmírňujících přístupů u GenAI incidentů je vyváženější, s potřebou rozmanitějších, sofistikovanějších a časově náročnějších metod oproti jednoduchým ad-hoc opravám. Studie identifikovala osm hlavních kategorií zmírňujících strategií. Samoobnova (19,7%) představuje situace, kdy se přechodné incidenty automaticky zmírní, protože se služba obnoví sama díky svým mechanismům odolnosti. Ad-hoc opravy (22,4%) zahrnují improvizované, situačně specifické kroky aplikované k rychlému zmírnění symptomů. Rollback (15,2%) je široce používanou strategií pro incidenty způsobené změnami, kde inženýři vrátí tyto změny na předchozí, stabilní verzi.

Unikátní výzvy GenAI cloudových služeb

GenAI cloudové služby přinášejí fundamentálně odlišné výzvy ve srovnání s tradičními cloudovými službami. Zatímco tradiční ML platformy jako AzureML, AWS SageMaker a Google Cloud ML byly primárně používány pro úlohy jako trénink, inference a doladění modelů, GenAI služby jako velké jazykové modely spoléhají na masivní parametrické škály, vysoké hardwarové nároky a poskytují aplikace řízené přirozeným jazykem jako je generování textu, sumarizace a překlad. Tyto služby také umožňují uživatelům dolaďovat modely pomocí uživatelem nahraných datasetů, což vystavuje rizika ze změn chování na úrovni modelu. Navíc poskytují intuitivní konverzační uživatelská rozhraní, díky čemuž jsou přístupné širšímu publiku, ale zároveň přidávají složitost a rizika při správě uživatelských interakcí. Tyto charakteristiky vytvářejí nové problémy se spolehlivostí související s kvalitou modelu, soukromím a výkonem, které se vrství na konvenční problémy se spolehlivostí.

Implikace pro budoucnost

Výsledky studie nabízejí praktické poznatky pro širokou škálu zúčastněných stran. Pro výzkumníky studie zdůrazňuje několik směrů budoucího výzkumu, zejména v automatizovaných metodách detekce neplatných výsledků inference. V současnosti jsou neplatné výstupy, jako jsou halucinace nebo irelevantní odpovědi, náročné na detekci. Pro poskytovatele modelů, kromě vysokého poměru neplatných výsledků inference a výzev při detekci halucinací, je dalším významným zjištěním, že 38% GenAI incidentů hlásí lidé, což odráží nedostatečný vývoj monitorovacích nástrojů. Poskytovatelé by měli vylepšit observabilitu služeb pro efektivnější detekci a diagnostiku problémů. Pro správce služeb studie odhaluje, že doba zmírnění GenAI incidentů je 1,83krát delší než u non-GenAI incidentů, což zdůrazňuje potřebu automatizace při zmírňování incidentů. Složitost GenAI systémů, které zahrnují rozsáhlé a vzájemně propojené vrstvy infrastruktury, závislostí a konfigurací, je významným faktorem. Tato komplexní studie poskytuje první hloubkový pohled na charakteristiky incidentů v GenAI cloudových službách a odhaluje jedinečné výzvy, kterým tato rychle rostoucí oblast čelí. Zatímco se GenAI služby stávají stále důležitějšími pro podniky a uživatele po celém světě, pochopení a řešení těchto specifických problémů bude klíčové pro zajištění jejich spolehlivosti a stability do budoucna.

Kategorie: AI