Nejrychlejší a nejlevnější verze Gemini 2.5 Flash-Lite je tu
Dne 22. července 2025 oznámili Logan Kilpatrick a Zach Gleicher na blogu Google Developers, že model Gemini 2.5 Flash-Lite dosáhl stabilní verze a je nyní všeobecně dostupný. Tento model je nejrychlejší a nejlevnější v rodině Gemini 2.5, navržený speciálně pro úlohy citlivé na latenci (zpoždění) a náklady, jako je překlad nebo klasifikace. S cenou pouze 0,10 USD za 1 milion vstupních tokenů a 0,40 USD za 1 milion výstupních tokenů umožňuje zpracovávat velké objemy požadavků bez vysokých nákladů. Navíc došlo k 40% snížení ceny za vstup zvuku oproti zkušební verzi.
Klíčové vlastnosti modelu
Gemini 2.5 Flash-Lite vyniká nižší latencí než modely 2.0 Flash-Lite a 2.0 Flash při široké škále promptů. Nabízí kontextové okno až 1 milion tokenů, což umožňuje zpracovávat složité úlohy. Podporuje nativní nástroje jako Grounding with Google Search (uzemnění s vyhledáváním Google), Code Execution (spuštění kódu) a URL Context (kontext z URL). Model je trénovaný s daty do ledna 2025 a lze volitelně zapnout pokročilé uvažování pro náročnější případy. Je multimodální, takže zpracovává text, obrázky, dokumenty, video a audio, s limitem vstupu 500 MB.
Příklady použití v praxi
Už od zkušební verze se model osvědčil v praxi. Společnost Satlyt ho používá pro decentralizovanou platformu vesmírného výpočtu, kde dosáhla 45% snížení latence při diagnostice na oběžné dráze a 30% poklesu spotřeby energie. HeyGen s ním automatizuje plánování videí, optimalizuje obsah a překládá do více než 180 jazyků pro globální personalizaci. DocsHound zpracovává dlouhá videa a extrahuje tisíce screenshotů s nízkou latencí, což urychluje tvorbu dokumentace. Evertune analyzuje reprezentaci značek v AI modelech a rychle generuje reporty díky vysoké rychlosti modelu.
Jak začít s modelem
Pro použití specifikujte v kódu „gemini-2.5-flash-lite“. Pokud jste používali preview alias, přejděte na stabilní verzi do 25. srpna 2025, kdy bude preview odstraněn. Model je dostupný v Google AI Studio a Vertex AI. Podle souvisejících informací z internetu, jako je technická zpráva Google, je ideální pro produkční nasazení s vysokým průtokem a nízkými náklady, přičemž vyvažuje rychlost, cenu a kvalitu.

