Google představil plnou verzi Gemma 3n: nová éra mobilních AI modelů

Google DeepMind oficiálně spustil plnou verzi Gemma 3n v červnu 2025, revolučního modelu umělé inteligence navržený speciálně pro mobilní zařízení a edge computing. Po úspěšném uvedení preview verze v květnu nyní vývojáři získávají přístup k nejnovějším multimodálním schopnostem, které přinášejí AI přímo do mobilních telefonů, tabletů a laptopů s běžnou výpočetní silou.

První model Gemma byl spuštěn začátkem roku 2024 a od té doby si vybudoval silné postavení v komunitě vývojářů. Gemmaverse dosáhl více než 160 milionů stažení a zahrnuje více než tucet specializovaných modelů pro různé aplikace - od bezpečnostních po medicínské využití. Mezi inspirativní příklady patří práce společnosti Roboflow, která využívá Gemma pro enterprise počítačové vidění, nebo Institute of Science Tokyo, které vytvořilo vysoce výkonné japonské varianty Gemma modelů.

Klíčové technické inovace a schopnosti

Gemma 3n nativně podporuje vstup obrazu, zvuku, videa i textu s textovým výstupem, což je důležitý pokrok oproti předchozím verzím. Model je dostupný ve dvou velikostech založených na efektivních parametrech: E2B a E4B. Zatímco jejich skutečný počet parametrů je 5 miliard respektive 8 miliard, architektonické inovace umožňují jejich provoz s pamětovou stopou srovnatelnou s tradičními 2B a 4B modely. E2B vyžaduje pouhé 2 GB paměti, zatímco E4B funguje s 3 GB paměti.

Jádrem Gemma 3n je průlomová architektura MatFormer (Matryoshka Transformer), která umožňuje elastickou inferenci. Podobně jako matrjošky (hrací panenka) obsahuje větší model menší, plně funkční verze sebe sama. Během trénování 4B efektivního parametru (E4B) je současně optimalizován 2B efektivní parametr (E2B) sub-model, což poskytuje vývojářům flexibilitu při nasazení podle dostupných zdrojů zařízení.

Model využívá inovaci Per-Layer Embeddings (PLE), která dramaticky zlepšuje kvalitu modelu bez zvýšení nároků na vysokorychlostní paměť akcelerátoru. Značná část parametrů může být načítána a zpracovávana efektivně na CPU, zatímco pouze základní transformer váhy musí být uloženy v omezenější paměti akcelerátoru.

PLE

Multimodální schopnosti pro reálné aplikace

Pro zpracování zvuku Gemma 3n využívá pokročilý audio enkodér založený na Universal Speech Model (USM). Enkodér generuje token pro každých 160 milisekund zvuku (přibližně 6 tokenů za sekundu), což umožňuje automatické rozpoznávání řeči (ASR) a automatický překlad řeči (AST) přímo na zařízení. Obzvláště silné výsledky Google pozoroval při překladu mezi angličtinou a španělštinou, francouzštinou, italštinou a portugalštinou.

Pro vizuální zpracování obsahuje Gemma 3n nový enkodér MobileNet-V5-300M, který poskytuje špičkový výkon pro multimodální úlohy na edge zařízeních. Podporuje rozlišení 256x256, 512x512 a 768x768 pixelů a zpracovává až 60 snímků za sekundu na Google Pixel. Oproti předchozím verzím poskytuje 13násobné zrychlení s kvantizací, vyžaduje o 46 % méně parametrů a má čtyřikrát menší pamětovou stopu.

Model podporuje více než 140 jazyků pro textové zpracování a multimodální porozumění v 35 jazycích. Gemma 3n E4B dosahuje LMArena skóre přes 1300, čímž se stává prvním modelem pod 10 miliard parametrů, který dosáhl tohoto benchmarku.

LMArena Elo Score

Dostupnost a podpora vývojářů

Google zajistil širokou podporu napříč populárními nástroji a platformami včetně AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth a vLLM. Omar Sanseviero, Staff Developer Relations Engineer, a Ian Ballantyne, Senior Developer Relations Engineer, kteří stojí za představením modelu, zdůrazňují zaměření na potřeby vývojářské komunity.

Gemma 3n je dostupná prostřednictvím Google AI Studio pro přímé experimentování, Hugging Face a Kaggle pro stažení modelových vah, s komplexní dokumentací pro rychlou integraci. Model podporuje nasazení prostřednictvím Google GenAI API, Vertex AI, SGLang, vLLM a NVIDIA API Catalog.

Pro povzbuzení inovací spustil Google soutěž Gemma 3n Impact Challenge s celkovou hodnotou cen 150 000 dolarů. Cílem je využít unikátní on-device, offline a multimodální schopnosti Gemma 3n k vytvoření produktu pro lepší svět.

Gemma 3n je krokem vpřed v oblasti mobilních AI modelů, kombinující výkonnost cloudových modelů s efektivitou potřebnou pro edge computing. S podporou multimodálních vstupů a pokročilými architektonickými inovacemi otevírá nové možnosti pro vývojáře vytvářející AI aplikace příští generace přímo na běžných mobilních zařízeních.

Kategorie: AI