Abstraktní Wikipedie/Aktualizace/2022-03-14
◀ | Aktualizace Abstraktní Wikipedie | ▶ |
Jak bychom v abstraktní Wikipedii vygenerovali text, jako je první věta článku v anglické Wikipedii o Mariya Zerova?
Mariya Yakovlevna Zerova, alternately Marija Jakovlevna Zerova, (April 7, 1902 – July 21, 1994) was a Ukrainian biologist and taxonomist known for her work in mycology.
V souvislosti s vytvořením této krátké věty se nabízí spousta zajímavých otázek - jméno, životopisná data, popis. Dnes se zaměříme pouze na jméno.
Vzhledem k tomu, že Zerova byla Ukrajinka, narodila se a žila na Ukrajině, její jméno bylo zapsáno pomocí cyrilice, "Марія Яківна Зерова". V jejím článku na anglické Wikipedii je její jméno v cyrilici uvedeno v infoboxu Wikipedie, nikoli však v textu článku. Existuje několik způsobů transliterace jména z cyrilice do latinky. Zejména písmeno я lze v angličtině transliterovat jako "ya" nebo "ja", což vede k variantě uvedené v anglickém článku Wikipedie.
Její Wikidata položka uvádí, že její křestní jméno v angličtině je "Marija", a ne "Maria", "Mariya" nebo "Mariia". (všechna tato tři jména se v ukrajinštině píší jako "Марія"). Se jmény je to složité, a tak není divu, že Wikidata mají problémy s jejich reprezentací. Velký dík a poděkování patří usilovné práci Wikiprojekt Jména na Wikidatech, který se snaží tento druh problémů vyřešit. Pokud máte zájem pomoci, měli byste se k nim připojit.
Jak bychom tedy získali její jméno pro Abstraktní Wikipedii pro různé jazyky? Potřebujeme lexémy pro každé křestní jméno v každém jazyce? Jako například lexém "Maria" v angličtině? A jak bychom pak propojili křestní jméno ve Wikidatech s křestním jménem a následně lexémy s tímto křestním jménem?
A co "Yakovlevna", její patronymum? Nebo "Zerova", její příjmení? Obě jména jsou vzácnější než "Mariya". Očekávali bychom lexémy pro každé z těchto jmen také ve Wikidatech, pro každý jazyk zvlášť? To se zdá být hodně práce.
Doufám, že v takových případech je odpověď záporná a že najdeme způsob, jak se tomu vyhnout. Ale jak by to mohlo vypadat? Jako obvykle očekávám, že jako komunita přijdeme na lepší řešení, než jaké jsem dokázal vymyslet já. Společně jsme chytřejší než kdokoli z nás. Berte to tedy jako první, hrubý návrh.
Nejdříve mě napadlo, že bychom ve Wikifunkcích měli funkce, které by jako řetězec přijaly jméno, například "Yakovlevna", a mohly by vygenerovat všechny potřebné tvary na základě regulárních morfologických funkcí. Jména, která mají nepravidelné tvary, by stále byla lexémy, ale pokud funkce dokáže vytvořit potřebné tvary, měli bychom být schopni ji použít přímo na základě řetězce. Pokud tedy potřebujeme genitivní tvar jména "Yakovlevna’s" (jako právě v této větě), funkce by ho prostě vygenerovala.
Stejný mechanismus generování potřebných tvarů může být užitečný pro mnoho místních jmen a jiných vlastních jmen. Kromě toho budeme pravděpodobně potřebovat funkce, které dokáží transliterovat mezi různými abecedami, což je samo o sobě vosí hnízdo. Transliterace se mohou v jednotlivých cílových jazycích lišit: transliterace "Зерова" do němčiny by byla "Serowa", nikoli "Zerova", jak je tomu v angličtině.
To ale není všechno. Bystrý čtenář si již mohl všimnout, že "Yakovlevna" není přímou transliterací "Яківна": to by bylo "Yakivna". (nebo "Jakivna"). Co se zde stalo?
Kromě toho, že jméno bylo transliterováno (tj. mapováno z jednoho písma do druhého), bylo také přeloženo nebo zpětně utvořeno tak, jak by bylo utvořeno v ruštině. Anglická podoba "Yakovlevna" vychází z ruské podoby "Яковлевна", a skutečně, pokud se podíváme do ruské Wikipedie, ruské jméno bioložky je "Мария Яковлевна Зерова" - verze jména, která není nikdy uvedena v jejím rodném ukrajinském článku Wikipedie.
Mimochodem, pokud vás překvapilo, že jména lze překládat, podívejte se na jména "papeže Jana Pavla II." v různých jazycích na Wikidatech kliknutím na "Všechny zadané jazyky".
Jak by abstraktní Wikipedie vůbec přišla na to, že má nejprve přeložit "Яківна" do ruštiny a pak ho transliterovat? Je to vůbec správné? Abych byl upřímný, jsem úplně na vážkách. Měla by se ukrajinská jména obecně nejprve přeložit do ruských variant a pak teprve transliterovat? Vezměme si dva další Ukrajince, kteří se jmenují stejně: prezident Ukrajiny a bratr kyjevského starosty se oba jmenují "Володимир", ale anglická Wikipedie prezidenta označuje jako "Volodymyr" (přímá transliterace) a druhého jako "Wladimir". V ukrajinštině mají stejné jméno!
Předpokládám, že u spoustu zdejších případů bude nejlepší se spolehnout na Wikidata a použít popisky prvků jako vstupní řetězce a strukturovaná data okolo zadaných a příbuzných jmen. To nám umožňuje vkládat a opravovat data manuálně, prvek po prvku, kde je důkaz, že někdo použil jinou formu. Pouze pokud Wikidata neposkytují potřebná data, bychom potřebovali použít záložní funkce. A záložní funkce mohou být jazyk od jazyka jiné, takže například „Zerova“ může být v ruštině „Яковлевна“ a v ukrajinštině „Яківна“.
A možná, jen možná, nás nutnost explicitního kódování přiměje lépe si uvědomit, jak jména lidí a míst proudí naším znalostním ekosystémem, jak odrážejí moc a nerovnost.
Tolik zajímavých věcí jen v prvních slovech této jediné věty, a to jsme ještě nemluvili o tom, zda je její datum narození uvedeno v gregoriánském, juliánském nebo jiném kalendáři!