Startup Moonshot, podporovaný společností Alibaba, představil nový model umělé inteligence nazvaný Kimi K2 Thinking. Tento model navazuje na předchozí verzi K2 z července a přináší vylepšení v oblasti agentických schopností, což znamená, že dokáže lépe chápat požadavky uživatele bez nutnosti detailních instrukcí krok za krokem. Moonshot, založený v roce 2023, se zaměřuje na otevřené modely AI, které jsou dostupné pro širokou veřejnost i vývojáře.
Model Kimi K2 Thinking je postaven jako směs expertů (Mixture-of-Experts, MoE) s celkově jedním bilionem parametrů, z nichž se při každém výpočtu aktivuje 32 miliard. To umožňuje efektivní zpracování složitých úkolů. Vývojáři ho mohou používat přes platformu platform.moonshot.ai nebo kimi.com, a jeho váhy i kód jsou dostupné na Hugging Face. Model je uvolněn pod upravenou MIT licencí, která umožňuje komerční využití, ale vyžaduje zobrazení názvu "Kimi K2" v uživatelském rozhraní, pokud produkt překročí 100 milionů měsíčních aktivních uživatelů nebo generuje přes 20 milionů USD měsíčně.
Výkon v benchmarkách
Kimi K2 Thinking dosáhl rekordních výsledků v několika klíčových testech. V benchmarku Humanity’s Last Exam (HLE) získal 44.9 % s použitím nástrojů, což je nejlepší skóre v oblasti expertních otázek napříč předměty. V agentickém vyhledávání a procházení webu dosáhl 60.2 % v BrowseComp a 56.3 % v Seal-0, který testuje sběr aktuálních informací z reálného světa.
V oblasti kódování model exceluje s 71.3 % v SWE-Bench Verified, 83.1 % v LiveCodeBench v6 a 44.9 % v SWE-Multilingual. Tyto výsledky překonávají proprietární modely jako GPT-5 od OpenAI, Claude Sonnet 4.5 od Anthropicu a Grok-4 od xAI. Například v BrowseComp překonal GPT-5 s 60.2 % oproti 54.9 % a Claude 4.5 s 24.1 %. V GPQA Diamond dosáhl 85.7 % oproti 84.5 % u GPT-5.
Model překonal i předchozí otevřený lídr MiniMax-M2, například v BrowseComp 60.2 % oproti 44.0 % a v SWE-Bench Verified 71.3 % oproti 69.4 %. Kimi K2 Thinking podporuje nativní INT4 inferenci a kontextové okno až 256 tisíc tokenů, což zajišťuje rychlost a přesnost i při dlouhých sekvencích.
Agentické schopnosti a nástroje
Jednou z hlavních předností Kimi K2 Thinking je jeho schopnost automaticky vybírat a používat 200 až 300 nástrojů v sekvenci bez lidského zásahu. To umožňuje řešení složitých problémů, jako je plánování, vyhledávání, analýza a syntéza dat přes stovky kroků. Model produkuje průběžné myšlenkové stopy v poli reasoning_content, což zajišťuje transparentnost a konzistenci v dlouhých úkolech.
Příkladem je workflow denní zpravodajské zprávy, kde model volá nástroje pro datum, webové vyhledávání, analýzu obsahu a strukturovaný výstup. Tato agentická struktura umožňuje modelům fungovat autonomně, což je klíčové pro aplikace v kódování, jako je kompilace, testování a opravy kódu nebo v procházení webu pro sběr informací.
Efektivita a náklady
Výcvik modelu Kimi K2 Thinking stál 4,6 milionu USD. To je výrazně méně než miliardy u OpenAI, přesto model dosahuje srovnatelného nebo lepšího výkonu. Ceny za použití jsou 0,15 USD za milion tokenů při cache hit, 0,60 USD za milion tokenů při cache miss a 2,50 USD za milion výstupních tokenů. Tyto sazby jsou konkurenceschopné oproti MiniMax-M2 s 0,30 USD za vstup a 1,20 USD za výstup, a výrazně nižší než u GPT-5 s 1,25 USD za vstup a 10 USD za výstup.
Model je optimalizovaný pro rychlost, s dvojnásobnou inferenční rychlostí díky kvantizaci INT4 QAT, což je ideální pro dlouhé myšlenkové sekvence. Tato efektivita umožňuje podnikům nasazovat otevřené modely bez závislosti na proprietárních API, s plnou kontrolou nad daty a váhami.
Dostupnost a aplikace
Kimi K2 Thinking je dostupný na kimi.com v chatovém režimu, s plným agentickým režimem brzy. API je přístupné přes platform.moonshot.ai. Model lze testovat i na Hugging Face Spaces. Jeho otevřenost umožňuje výzkumníkům a firmám přizpůsobovat ho pro specifické úkoly, jako je agentické kódování nebo vyhledávání.
Tento model je dalším členem rostoucí konkurence čínských otevřených AI systémů, jako je DeepSeek, který trénoval svůj V3 model za 5,6 milionu USD. Firmy jako Airbnb již veřejně oceňují čínské modely pro jejich cenu a výkon oproti OpenAI. Moonshot tak přispívá k trendu, kde otevřené modely dosahují úrovně uzavřených systémů.
Zdroje: moonshotai.github.io, cnbc.com a venturebeat.com
