Evropský projekt pro jazykovou a technologickou suverenitu

Evropa se vydává ambiciózní cestou k technologické nezávislosti v oblasti umělé inteligence. V čele tohoto úsilí stojí Univerzita Karlova, která se ujala role hlavního koordinátora prestižního projektu OpenEuroLLM. Tento rozsáhlý projekt, financovaný Evropskou unií v rámci programu Horizon Europe, si klade za cíl vytvořit otevřené, mnohojazyčné a vysoce kvalitní jazykové modely nové generace pro evropské komerční i veřejné služby. Projekt byl oficiálně zahájen 1. května 2023 a potrvá 36 měsíců, přičemž disponuje rozpočtem ve výši téměř 46 milionů eur, což jej řadí mezi nejvýznamnější evropské projekty v oblasti umělé inteligence.

Profesor Jan Hajič z Matematicko-fyzikální fakulty Univerzity Karlovy, který působí jako hlavní koordinátor projektu, vysvětluje v rozhovoru pro Seznam Zprávy podstatu velkých jazykových modelů (LLM): "Jde o programy, které na základě vstupního textu generují další slova, a postupně tak mohou vytvořit celé věty nebo dokonce knihy. Bere v potaz jazykovou a obsahovou znalost, ukládá si specifická data do svých interních tabulek a dále se na nich trénuje. Výsledek bývá přesvědčivý, ale ne vždy fakticky pravdivý." Tato technologie, která zaznamenala v posledních letech obrovský pokrok díky modelům jako ChatGPT, Claude nebo Gemini, se stává strategickou technologií budoucnosti.

Tři hlavní pilíře projektu OpenEuroLLM

Projekt OpenEuroLLM se od komerčních amerických či čínských modelů odlišuje ve třech zásadních aspektech. Prvním je důraz na mnohojazyčnost, kdy kvalitní podpora všech evropských jazyků představuje základní prioritu. Projekt se zavazuje obsáhnout všech 24 úředních jazyků Evropské unie, stejně jako další evropské jazyky. Zatímco globální komerční modely jako ChatGPT jsou také mnohojazyčné, evropský projekt staví tuto vlastnost na první místo, aby zajistil, že i menší jazykové komunity budou mít přístup k nejnovějším technologiím. Druhým klíčovým aspektem je otevřenost - modely budou vyvíjeny jako open-source a s plnou transparentností, což umožní jejich široké využití napříč Evropou i snadnější kontrolu souladu s evropskou legislativou, především s nedávno schváleným AI Act. Jak uvádí oficiální stránky projektu, všechny vytvořené jazykové modely budou dostupné pod otevřenou licencí, což umožní jejich bezplatné použití jak pro výzkumné, tak pro komerční účely. Tím se OpenEuroLLM zásadně liší od uzavřených komerčních modelů, u nichž uživatelé často neznají přesné detaily jejich fungování a trénování. Třetím pilířem je demokratizace přístupu k pokročilým AI technologiím. "Chceme minimalizovat digitální nerovnost mezi jazyky," zdůrazňuje profesor Hajič s tím, že cílem je zpřístupnit špičkové technologie nejen velkým korporacím, ale i menším subjektům a veřejnému sektoru. To je v souladu s evropskými hodnotami inkluzivity a rovného přístupu k technologiím.

Technická stránka projektu a konsorcium institucí

Projekt OpenEuroLLM je realizován konsorciem 25 partnerů z 15 evropských zemí. Vedle Univerzity Karlovy jsou do projektu zapojené významné vědecké a výzkumné instituce jako CNRS (Francie), Aalto University (Finsko), DFKI (Německo), KU Leuven (Belgie), University of Amsterdam (Nizozemsko) či Barcelona Supercomputing Center (Španělsko). Tato kombinace akademických institucí, výzkumných center a průmyslových partnerů zajišťuje, že projekt bude mít přístup k špičkovému know-how a infrastruktuře. Z technického hlediska se OpenEuroLLM zaměřuje na vývoj několika typů jazykových modelů. Podle informací z oficiálních stránek projektu budou vyvíjeny jak základní modely (foundation models), tak specializované modely pro konkrétní aplikace. Modely budou vydávány postupně v několika verzích, přičemž každá nová verze by měla přinést zlepšení ve výkonu a rozšíření funkcionalit. Profesor Hajič v rozhovoru uvádí: "Naše data jsou menšího rozsahu než u globálních hráčů jako OpenAI nebo Google – zato velmi kvalitní." Tento přístup odráží evropskou filozofii, která klade důraz na kvalitu před kvantitou a etické aspekty před bezohlednou maximalizací výkonu. Pro trénování modelů budou využity výpočetní kapacity evropských superpočítačů, přičemž již nyní je zajištěn přístup k superpočítačům jako LUMI ve Finsku a MareNostrum ve Španělsku, jak uvádí web Matematicko-fyzikální fakulty UK. Tato výpočetní infrastruktura poskytuje nezbytné kapacity pro trénování velkých jazykových modelů, které vyžadují obrovský výpočetní výkon.

Reálné dopady a využití v praxi

Výsledné jazykové modely mají sloužit široké škále uživatelů - od komerčních firem přes průmyslové podniky až po veřejné služby po celé Evropě. Web projektu zdůrazňuje, že OpenEuroLLM není pouze výzkumným projektem, ale zaměřuje se na vytvoření prakticky využitelných nástrojů, které mohou být nasazeny v reálných aplikacích. Mezi potenciální oblasti využití patří automatizace zákaznické podpory, generování obsahu, překlad dokumentů, analýza textů či podpora rozhodování. Z informací na webu projektu je patrné, že OpenEuroLLM spolupracuje s dalšími evropskými iniciativami v oblasti AI, jako jsou European Language Grid a AI4EU, což má zajistit kompatibilitu a synergii mezi různými evropskými projekty. Tato spolupráce je důležitá pro vytvoření uceleného evropského ekosystému umělé inteligence, který bude konkurenceschopný v globálním měřítku.

Časový harmonogram a očekávané výsledky

Podle informací z oficiálních zdrojů projektu se první verze modelů očekává již v průběhu roku 2025, přičemž finální modely by měly být dokončeny do konce projektu v dubnu 2026. Profesor Hajič v rozhovoru zdůrazňuje, že cílem je vytvořit modely, které budou konkurenceschopné nejen v současnosti, ale i v horizontu několika let, což vyžaduje neustálý vývoj a zdokonalování. Web Matematicko-fyzikální fakulty UK uvádí, že součástí projektu je také vytvoření robustní technické infrastruktury pro trénování, testování a nasazení jazykových modelů. Tato infrastruktura bude k dispozici evropským výzkumníkům i po skončení samotného projektu, čímž se zajistí dlouhodobá udržitelnost a další rozvoj evropských jazykových modelů.

Evropská digitální suverenita

Projekt OpenEuroLLM představuje významný krok k posílení evropské konkurenceschopnosti v oblasti umělé inteligence, která se stává stále důležitějším faktorem ekonomického růstu a společenského rozvoje. Jak profesor Hajič shrnuje v rozhovoru pro Seznam Zprávy: "Transparentní open-source modely posílí schopnost evropských firem konkurovat globálně a umožní efektivnější veřejné služby." Z informací na webu projektu je patrné, že OpenEuroLLM není pouze technickým projektem, ale má i významný politický a strategický rozměr. Evropa si uvědomuje, že bez vlastních technologických kapacit v oblasti umělé inteligence bude stále více závislá na technologiích vyvinutých v USA či Číně, což může mít dopady nejen na ekonomiku, ale i na bezpečnost, kulturní identitu a schopnost prosazovat evropské hodnoty v digitálním prostoru. Univerzita Karlova a český vědec Jan Hajič se tak ocitají v samém centru snah o technologickou nezávislost Evropy v éře digitální transformace. Jak uvádí web Matematicko-fyzikální fakulty UK, účast v projektu OpenEuroLLM je uznáním dlouhodobé excelence českého výzkumu v oblasti počítačové lingvistiky a umělé inteligence. Zároveň je to příležitost pro české výzkumníky podílet se na formování technologií, které budou v příštích letech zásadním způsobem ovlivňovat životy milionů Evropanů.

Kategorie: AI