Blog /
AI /
Proč AI modely zbožňují dlouhé pomlčky?

Proč AI modely zbožňují dlouhé pomlčky?

Ondřej Barták
Ondřej Barták
podnikatel a programátor
6. 11. 2025
3 minut čtení
Proč AI modely zbožňují dlouhé pomlčky?
Dlouhé pomlčky – ty znaky, které vypadají jako — – se v textech generovaných umělou inteligencí objevují opravdu často. Pokud jste si toho všimli, nejste sami. Sean Goedecke, autor článku na svém webu, se rozhodl toto téma prozkoumat do hloubky. Vysvětluje, proč modely jako GPT-4o vkládají tyto pomlčky mnohem častěji než starší verze, jako GPT-3.5.

Co je to dlouhá pomlčka a jak ji AI používá?

Dlouhá pomlčka, v angličtině známá jako em-dash, slouží k oddělení myšlenek v textu – například k vložení vysvětlivky nebo k vytvoření pauzy. V běžném psaní lidí se objevuje občas, ale v textech od moderních modelů umělé inteligence, jako je GPT-4o, jich bývá hodně. Sean Goedecke si všiml, že mezi lety 2022 a 2024 došlo k velké změně. Starší model GPT-3.5 používal dlouhé pomlčky podobně jako lidé v současných textech, ale novější GPT-4o je vkládá dramaticky víc. To ho přimělo pátrat po důvodech.

Goedecke porovnává data z různých modelů a zjišťuje, že tato změna souvisí s tím, jak se trénují tyto systémy. Umělá inteligence se učí z obrovského množství textů, které slouží jako tréninková data. Pokud se tato data změní, změní se i styl psaní AI.

Hlavní hypotéza: Digitalizace starých knih

Sean Goedecke navrhuje, že klíčem k celému jevu je způsob, jakým se získávají tréninková data pro novější modely. Podle jeho analýzy laboratoře OpenAI začaly mezi lety 2022 a 2024 používat více digitalizovaných tištěných knih. Tyto knihy často pocházejí z 19. století, kde bylo používání dlouhých pomlček na vrcholu. Konkrétně cituje studii, která ukazuje, že frekvence pomlček dosáhla maxima v 60. letech 19. století.

Proč zrovna staré knihy? Goedecke vysvětluje, že starší modely jako GPT-3.5 se trénovaly hlavně na současném obsahu z internetu, často na pirátských zdrojích. Novější modely ale potřebují kvalitnější data, takže laboratoře sáhnou po veřejně dostupných digitalizovaných knihách z minulosti. Tyto texty obsahují o 30 % více dlouhých pomlček než moderní psaní. Výsledek? AI se naučí tento styl a aplikuje ho ve svých výstupech.

Goedecke podotýká, že tato změna v datech není náhodná. Laboratoře hledají způsoby, jak zlepšit kvalitu, a digitalizace starších děl jim poskytuje bohatý materiál. Přesto zůstává paradox: i když AI používá tolik dlouhých pomlček, jejich celkový styl psaní se 19. století příliš nepodobá v jiných ohledech.

Alternativní vysvětlení, která Goedecke zvažuje

Goedecke se nezastavuje jen u jedné myšlenky. Zmiňuje i jiné možné důvody, ale považuje je za méně pravděpodobné. Například proces nazvaný RLHF (posilování učení z lidské zpětné vazby) by mohl upřednostňovat dlouhé pomlčky, protože dodávají textu konverzační tón. Lidé, kteří hodnotí výstupy AI, by mohli preferovat takový styl.

Další nápad souvisí s platformami jako Medium, kde se dvojité pomlčky automaticky mění na dlouhé pomlčky. Pokud by tréninková data obsahovala hodně obsahu z Medium, mohlo by to ovlivnit AI. Goedecke toto vysvětlení odmítá jako nedostatečné, protože nedokáže vysvětlit celkový nárůst v používání.

V komentářích k článku se objevují i reakce komunity. Jeden komentátor tvrdí, že za vším stojí právě chování Medium, ale Goedecke to považuje za příliš úzké vysvětlení.

Proč zůstává vysvětlení spekulativní?

Sean Goedecke je upřímný a přiznává, že jeho závěry jsou spekulativní. Bez přímých informací o tom, jak OpenAI a jiné laboratoře získávají data, nelze nic potvrdit na sto procent. Žádná jediná příčina není univerzálně přijímaná. Přesto jeho hlavní teorie – že digitalizace starších knih z 19. století způsobila nárůst dlouhých pomlček – se zdá nejsilnější.

Tento jev ovlivňuje i lidi: někteří autoři teď dlouhé pomlčky vynechávají, aby jejich texty nevypadaly jako generované AI. Goedecke to všechno popisuje s detaily, ale bez zbytečných spekulací mimo dostupná data.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.