Vrátit se na blog

Blog /

AI /

Proč AI modely zbožňují dlouhé pomlčky?

Ondřej Barták

podnikatel a programátor

6. 11. 2025

3 minut čtení

Dlouhé pomlčky – ty znaky, které vypadají jako — – se v textech generovaných umělou inteligencí objevují opravdu často. Pokud jste si toho všimli, nejste sami. Sean Goedecke, autor článku na svém webu, se rozhodl toto téma prozkoumat do hloubky. Vysvětluje, proč modely jako GPT-4o vkládají tyto pomlčky mnohem častěji než starší verze, jako GPT-3.5.

Co je to dlouhá pomlčka a jak ji AI používá?

Dlouhá pomlčka, v angličtině známá jako em-dash, slouží k oddělení myšlenek v textu – například k vložení vysvětlivky nebo k vytvoření pauzy. V běžném psaní lidí se objevuje občas, ale v textech od moderních modelů umělé inteligence, jako je GPT-4o, jich bývá hodně. Sean Goedecke si všiml, že mezi lety 2022 a 2024 došlo k velké změně. Starší model GPT-3.5 používal dlouhé pomlčky podobně jako lidé v současných textech, ale novější GPT-4o je vkládá dramaticky víc. To ho přimělo pátrat po důvodech.

Goedecke porovnává data z různých modelů a zjišťuje, že tato změna souvisí s tím, jak se trénují tyto systémy. Umělá inteligence se učí z obrovského množství textů, které slouží jako tréninková data. Pokud se tato data změní, změní se i styl psaní AI.

Hlavní hypotéza: Digitalizace starých knih

Sean Goedecke navrhuje, že klíčem k celému jevu je způsob, jakým se získávají tréninková data pro novější modely. Podle jeho analýzy laboratoře OpenAI začaly mezi lety 2022 a 2024 používat více digitalizovaných tištěných knih. Tyto knihy často pocházejí z 19. století, kde bylo používání dlouhých pomlček na vrcholu. Konkrétně cituje studii, která ukazuje, že frekvence pomlček dosáhla maxima v 60. letech 19. století.

Proč zrovna staré knihy? Goedecke vysvětluje, že starší modely jako GPT-3.5 se trénovaly hlavně na současném obsahu z internetu, často na pirátských zdrojích. Novější modely ale potřebují kvalitnější data, takže laboratoře sáhnou po veřejně dostupných digitalizovaných knihách z minulosti. Tyto texty obsahují o 30 % více dlouhých pomlček než moderní psaní. Výsledek? AI se naučí tento styl a aplikuje ho ve svých výstupech.

Goedecke podotýká, že tato změna v datech není náhodná. Laboratoře hledají způsoby, jak zlepšit kvalitu, a digitalizace starších děl jim poskytuje bohatý materiál. Přesto zůstává paradox: i když AI používá tolik dlouhých pomlček, jejich celkový styl psaní se 19. století příliš nepodobá v jiných ohledech.

Alternativní vysvětlení, která Goedecke zvažuje

Goedecke se nezastavuje jen u jedné myšlenky. Zmiňuje i jiné možné důvody, ale považuje je za méně pravděpodobné. Například proces nazvaný RLHF (posilování učení z lidské zpětné vazby) by mohl upřednostňovat dlouhé pomlčky, protože dodávají textu konverzační tón. Lidé, kteří hodnotí výstupy AI, by mohli preferovat takový styl.

Další nápad souvisí s platformami jako Medium, kde se dvojité pomlčky automaticky mění na dlouhé pomlčky. Pokud by tréninková data obsahovala hodně obsahu z Medium, mohlo by to ovlivnit AI. Goedecke toto vysvětlení odmítá jako nedostatečné, protože nedokáže vysvětlit celkový nárůst v používání.

V komentářích k článku se objevují i reakce komunity. Jeden komentátor tvrdí, že za vším stojí právě chování Medium, ale Goedecke to považuje za příliš úzké vysvětlení.

Proč zůstává vysvětlení spekulativní?

Sean Goedecke je upřímný a přiznává, že jeho závěry jsou spekulativní. Bez přímých informací o tom, jak OpenAI a jiné laboratoře získávají data, nelze nic potvrdit na sto procent. Žádná jediná příčina není univerzálně přijímaná. Přesto jeho hlavní teorie – že digitalizace starších knih z 19. století způsobila nárůst dlouhých pomlček – se zdá nejsilnější.

Tento jev ovlivňuje i lidi: někteří autoři teď dlouhé pomlčky vynechávají, aby jejich texty nevypadaly jako generované AI. Goedecke to všechno popisuje s detaily, ale bez zbytečných spekulací mimo dostupná data.

Kategorie: AI