Abstraktní Wikipedie/Aktualizace/2022-06-07
◀ | Aktualizace Abstraktní Wikipedie | ▶ |
Komunity budou pomocí abstraktní Wikipedie vytvářet (přinejmenším) dva různé typy článků: na jedné straně budeme mít vysoce standardizované články založené výhradně na Wikidatech a na druhé straně budeme mít ručně vytvořený obsah na míru, sestavený větu po větě. Dnes se budeme zabývat prvním typem, druhému typu se budeme věnovat v některém z příštích zpravodajů. (Abstraktní Wikipedie/Aktualizace/2022-06-21 )
Články prvního typu lze vytvořit velmi rychle a pravděpodobně budou ještě dlouho tvořit naprostou většinu článků. K tomu můžeme použít modely, tj. text s proměnnými. Jinak řečeno, text s mezerami, které se vyplňují z jiného zdroje, například ze seznamu, po vzoru hry mad libs. Model může být vytvořen jednou pro určitý typ položky a poté použit pro každou jednotlivou položku tohoto typu, která má ve Wikidatech dostatek dat. Výsledné články jsou podobné mnoha botem vytvořeným článkům, které již existují v různých Wikipediích.
Například v mnoha jazycích byly k vytváření nebo udržování článků po léta používány roboty (například články o 1313, 1428 nebo 1697, z nichž každý je dostupný ve více než stovce jazyků). V anglické Wikipedii bylo mnoho článků o amerických městech vytvořeno botem na základě sčítání lidu v USA a později aktualizováno po sčítání lidu v roce 2010. Lsjbot od Sverkera Johanssona je známým příkladem bota, který vytvořil miliony článků o lokalitách nebo druzích v několika jazycích, jako je švédština, warajština nebo cebuánština. Srovnatelné aktivity, i když ne tak plodné, probíhají v poměrně velkém počtu dalších jazyků.
Jak tyto přístupy fungují? Předpokládejme, že máte soubor dat, jako je následující seznam zemí:
Země | Kontinent | Hlavní město | Počet obyvatel |
---|---|---|---|
Jordánsko | Asie | Ammán | 10428241 |
Nikaragua | Střední Amerika | Managua | 5142098 |
Kyrgyzstán | Asie | Biškek | 6201500 |
Laos | Asie | Vientiane | 6858160 |
Libanon | Asie | Bejrút | 6100075 |
Nyní můžeme vytvořit model, který z těchto dat dokáže vygenerovat kompletní text, např.:
"<Country> je země v <Continent> s počtem obyvatel <Population>. Hlavní město <Country> je <Capital>."
S tímto textem a výše uvedeným souborem dat bychom vytvořili následujících pět protočlánků (odkazy nejsou pro zjednodušení uvedeny):
Jordánsko je země v Asie s počtem obyvatel 10 428 241. Hlavní město Jordánsko je Ammán.
Nikaragua je země v Střední Ameria s počtem obyvatel 5 142 098. Hlavní město Nikaragua je Managua.
Kyrgyzstán je země v Asie s počtem obyvatel 6 201 500. Hlavní město Kyrgyzstán je Biškek.
Laos je země v Asie s počtem obyvatel 6 858 160. Hlavní město Laos je Vientiane.
Libanon je země v Asie s počtem obyvatel 6 100 075. Hlavní město Libanon je Bejrút.
Klasické knihy na toto téma, jako například "Building natural language generation systems", nazývají tuto metodu "mail merge" (i když se používá nejen pro poštu). Model se kombinuje se souborem dat, často z tabulkového procesoru nebo databáze. Tato metoda se již desítky let používá k vytváření hromadných mailů a jiného hromadného obsahu a je formou masového přizpůsobení. Tyto metody se postupem času stávají stále složitějšími a jsou schopny odpovědět na více otázek: Jak se vypořádat s chybějícími nebo nepovinnými informacemi? Jak přizpůsobit část textu údajům, např. použít množné číslo nebo gramatický rod či třídy podstatných jmen, kde je to vhodné, atd.? Výše zmínění roboti, kteří na Wikipedii vytvořili miliony článků v různých jazycích, většinou pracovali v tomto duchu.
Skvělým příkladem toho, jak daleko lze posunout modelový přístup, je Reasonator Magnuse Manskeho, který na základě dat ve Wikidatech vytvoří následující automatický popis v angličtině pro Douglase Adamse:
Douglas Adams was a British playwright, screenwriter, novelist, children's writer, science fiction writer, comedian, and writer. He was born on March 11, 1952 in Cambridge to Christopher Douglas Adams and Janet Adams. He studied at St John's College from 1971 until 1974 and Brentwood School from 1959 until 1970. His field of work included science fiction, comedy, satire, and science fiction. He was a member of Groucho Club and Footlights. He worked for The Digital Village from 1996 and for BBC. He married Jane Belson on November 25, 1991 (married until on May 11, 2001 ), Jane Belson on November 25, 1991 (married until on May 11, 2001 ), and Jane Belson on November 25, 1991 (married until on May 11, 2001 ). His children include Polly Adams, Polly Adams, and Polly Adams. He died of myocardial infarction on May 11, 2001 in Santa Barbara. He was buried at Highgate Cemetery.
Kdybychom řekli, že je to jen lepší než nic, myslím, že bychom úspěch Reasonatoru podcenili. Výše uvedený text spolu s atraktivním zobrazením strukturovaných dat v Reasonatoru vede k ucelenějšímu přístupu ke znalostem, než jaký Douglasu Adamsovi poskytují mnohé z jednotlivých jazykových wikipedií. Pro srovnání se podívejte na články v Azerštině, Urdu, Malajálamštině, Korejštině nebo Dánštině. Zároveň se v něm objevují chyby, které by většina přispěvatelů neuměla opravit (například opakování jmen dětí nebo mezery uvnitř závorek, atd.).
Projekt Article placeholder částečně splnil úlohu vyplnění mezer v obsahu, ale vývojáři se záměrně vyhnuli tomu, aby výsledek vypadal příliš jako článek. Zobrazují strukturovaná data z Wikidat v kontextu jazykové Wikipedie. Například zde je vygenerovaná stránka o triceratopsovi' v haitské kreolštině.
Jednou z velkých nevýhod používání botů k vytváření článků ve Wikipedii bylo, že tento obsah většinou kontrolovala velmi malá část komunity - často jediná osoba. Mnoho botů a datových sad nebylo otevřeno tak, aby mohl snadno přijít někdo jiný, provést změnu a znovu spustit bota. (Reasonator se tomuto problému vyhýbá, protože text je generován dynamicky a není začleněn do skutečného článku Wikipedie).
Díky Wikifunkcím a Wikidatům budeme moci předat kontrolu nad všemi těmito kroky širší komunitě. Modely i data se budou upravovat na wiki se všemi obvyklými výhodami wiki: je zde přehledná historie, každý může upravovat prostřednictvím webu, lidé mohou diskutovat, atd.. Data použitá k naplnění modelů budou udržována ve Wikidatech a samotné modely ve Wikifunkcích. To nám umožní spolupracovat na textech, uvolnit kreativitu komunity, společně odhalovat a opravovat chyby a okrajové případy a pomalu rozšiřovat typy položek a pokrytí jednotlivých typů.
V dalším textu se budeme zabývat jiným přístupem k vytváření abstraktního obsahu, kdy obsah není výsledkem modelu založeného na typu popisované položky, ale spíše ručně vytvořeným článkem, sestaveným větu po větě.
Aktualizace vývoje v týdnu od 27. května:
- Tým měl na Hackathonu setkání, které bylo hojně navštíveno (asi 30 lidí). Děkujeme všem za účast a vaše dotazy a připomínky!
- Měli jsme také následné schůzky s uživatelem User:Mahir256, abychom zlepšili sladění ve směru NLG.
- Níže je uveden stručný týdenní přehled s důrazem na stav každého pracovního procesu.
- Výkon:
- Vypracování dokumentu o pozorovatelnosti.
- Aktualizované grafy Helm pro získání funkčních* služeb ve staging.
- Dokončení návrhu výkonnostních ukazatelů a jejich sdílení ke kontrole
- NLG:
- Rozsah potřebných změn ve Wikifunkcích po jejich spuštění
- Metadata:
- Začalo nahrávání a předávání orchestrátoru některé metriky časování vyhodnocování funkcí.
- Zkušenosti:
- Vrstva WikiLambda (PHP) byla převedena na nový formát typovaných seznamů
- Vylepšení mobilního prostředí na stránce zobrazení funkcí
- Přechod komponenty Tabs na používání Codexu díky týmu Design Systems.
- Design: Provedl komplexní testování uživatelského toku v jazyce Bangla.
- Výkon:
(Omlouvám se za pozdní aktualizaci. Další aktualizaci plánujeme odeslat tento týden)