Anthropic obnovil přístup ke svým nejnovějším modelům. Fable 5 se od 1. července vrátil uživatelům po celém světě, kdežto model Mythos 5 dostala k dispozici opět jen skupina amerických organizací. Firma zároveň představila Claude Science, výzkumný nástroj pro vědce.
Fable 5 je teď dostupný na platformě Claude, v Claude.ai, Claude Code i Claude Cowork. Pro plány Pro, Max, Team a vybrané firemní účty ho Anthropic do 7. července započítá až do poloviny týdenního limitu, poté bude přístupný přes uživatelské kredity. Přístup přes AWS, Google Cloud a Microsoft Foundry firma slibuje zprovoznit co nejdřív.
Nové mechanismy obrany před zneužitím
Firma při té příležitosti vysvětlila logiku, na které staví své ochrany. Používá takzvanou obranu do hloubky, tedy vrstvení několika mechanismů. Žádný z nich sám o sobě není dokonalý, dohromady ale model velmi ztěžují zneužití. Některé ochrany model učí odmítat nebezpečné požadavky, jiné zpětně analyzují vzorce zneužití.
Středem obrany jsou klasifikátory, menší automatizované systémy, které během konverzace hlídají, jestli po modelu někdo nechce potenciálně škodlivou práci. Anthropic přitom záměrně nastavil citlivost tak, aby blokovala i požadavky, které jsou nejspíš neškodné. Této rezervě říká bezpečnostní marže. U Fable 5 ji firma roztáhla víc než u kteréhokoli dřívějšího spuštění. Uživatelé to poznají tak, že model občas odmítne i rozumný a neškodný dotaz.
Marže pomáhá i proti pokusům o obejití ochran. Většina takových pokusů je omezená, odemkne jen jedno konkrétní chování a nic dalšího. Anthropic dělí obcházení ochran podle závažnosti. Od drobných, které se dostanou nanejvýš do bezpečnostní marže, přes škodlivá až po nejnebezpečnější, jež odemykají celou třídu škodlivého chování. U Fable 5 podle firmy zatím žádné univerzální obejití nikdo neobjevil.
Anthropic taky nasadil vylepšený bezpečnostní klasifikátor. Když uživatelův požadavek narazí na tuto bariéru, dostane upozornění a jeho dotaz putuje k modelu Opus 4.8. Výzkumníci z amerického Centra pro standardy a inovace v oblasti AI (CAISI) prověřili staré i nové ochrany a shodli se, že jsou mimořádně silné. Zpřísnění má ovšem svou cenu. Nový klasifikátor častěji označí za podezřelé i nevinné požadavky během běžného programování a ladění kódu. Firma slibuje, že bude systém dál vylepšovat, aby lépe odlišil skutečné zneužití od poctivé práce.
Společná pravidla pro celý obor
Anthropic spolu s Amazonem, Microsoftem, Googlem a dalšími partnery z programu Glasswing sestavuje společný postup pro hodnocení závažnosti prolomení ochran. Odvětví totiž zatím nemá jednotný způsob, jak popsat, jak nebezpečné dané obejití je. Vývojáři pak nevědí, kterým nálezům věnovat největší pozornost, a vlády nemají vodítko, kdy zasáhnout.
Návrh boduje každé prolomení podle čtyř kritérií. Kolik schopností navíc útočníkovi dá oproti běžně dostupným nástrojům, na kolik různých útočných úloh technika funguje, kolik lidské práce je potřeba k proměně v reálný útok a jak snadno se technika dá získat. U nejzávažnějších případů, třeba u útoku mířícího na energetické sítě nebo bankovní systémy, firma slibuje okamžité nasazení prvních protiopatření. Zakládá také tým, který bude nepřetržitě sledovat kanály, kam lidé hlásí nová prolomení. Souběžně spouští program na platformě HackerOne, kde budou moci bezpečnostní výzkumníci svá zjištění posílat k prověření.
Novinka Claude Science má usnadnit práci vědců
Anthropic uvedl Claude Science, pracovní nástroj pro vědce. Jde o aplikaci, která spojuje nástroje a knihovny běžné ve výzkumu, vytváří dohledatelné výstupy a nabízí pružný přístup k výpočetnímu výkonu. Firma ji spustila v testovací verzi pro plány Pro, Max, Team a Enterprise, a to na systémech macOS a Linux.
Vědecká práce bývá zdlouhavá. Výzkumníci se prokousávají desítkami databází, každá má vlastní strukturu, přebíhají mezi nástroji jako PubMed, Jupyter, R nebo terminálem výpočetního klastru. Claude Science tyhle roztroušené nástroje slévá do jednoho prostředí. Uživatel pracuje s koordinačním agentem, který má přístup k více než šedesáti připraveným dovednostem a konektorům pro genomiku, proteomiku, strukturní biologii nebo cheminformatiku. Agent umí spouštět další agenty a nechává na svou práci dohlížet kontrolního agenta, který prověřuje citace i výpočty a chyby sám opravuje.
Silnou stránkou je dohledatelnost. Když nástroj vytvoří obrázek, přiloží k němu přesný kód i prostředí, které ho vygenerovalo, popis v běžném jazyce a celou historii zpráv. Práce se tak dá ověřit a zopakovat i po měsících. Úpravy grafů zvládne uživatel zadat prostě slovy, třeba ať zmizí mřížka nebo se osa přepne na logaritmickou. Náročné výpočty, jako skládání proteinů nebo genomické analýzy nad obřími daty, nástroj sám naplánuje, zeptá se na svolení a úlohu pošle na infrastrukturu, kterou laboratoř už používá. Citlivá data přitom nemusí opustit systémy, kde leží. Ke Claude putuje jen ta část, kterou zrovna daný krok potřebuje. Aplikace využívá dovednosti z nástroje NVIDIA BioNeMo Agent Toolkit a napojuje se na modely jako Evo 2, Boltz-2 nebo OpenFold3.
Vědecké využití
Během několika měsíců testování si nástroj vyzkoušely konkrétní týmy. Firma Manifold Bio, která navrhuje léky mířící na konkrétní tkáně, s ním vybírala cíle pro své nejnovější experimenty. U každé tkáně a cíle nástroj posoudil povrchovou expresi, transport a bezpečnost a seřadil kandidáty podle kritérií, která si Manifold odvodil z vlastních dat. Podle firmy dokázal celý postup zvládnout od začátku do konce.
Neurovědec Jérôme Lecoq z Allen Institute postavil pomocí Claude Science soustavu asi dvaceti vlastních dovedností na psaní dlouhých přehledových studií. Podřízení agenti pročítají tisíce článků, vytahují z nich hlavní tvrzení a klíčové číselné zjištění a ukládají je do databáze. Sepsání takového přehledu dřív jeho týmu trvalo až dva roky. Teď jich má kolem deseti, mnohé přes sto stran, s citacemi prověřenými kontrolními agenty. A epidemiolog Stephen Francis z centra pro nádory mozku na UCSF s nástrojem zkoumá genetický základ mozkových nádorů. Analýzy, které dřív zabraly týdny, zvládá zhruba v desetině času. Výsledky si jeho skupina nezávisle ověřila a potvrdila, že nástroj umí pracovat rychle i spolehlivě.
