Abstraktní Wikipedie/Aktualizace/2022-05-27
◀ | Aktualizace Abstraktní Wikipedie | ▶ |
Náš spolupracovník z Google.org, Ariel Gutman, je autorem návrhu architektury pro systém generování přirozeného jazyka (NLG) abstraktní Wikipedie.
Navrhovaná architektura se řídí 4 hlavními principy:
- Modularita: systém by měl být modulární, aby bylo možné nezávisle upravovat různé aspekty NLG (např. morfosyntaktická a fonotaktická pravidla).
- Lexikálnost: systém by měl být schopen jak načítat lexikální data (odděleně od kódu), tak se spoléhat na produktivní jazyková pravidla pro generování těchto dat za běhu (např. skloňování anglického plurálu s -s).
- Rekurzivita: vzhledem ke kompoziční a rekurzivní povaze většiny jazyků by efektivní systém NLG musel být sám rekurzivní.
- Rozšiřitelnost: systém by měl být přístupný rozšiřování jak jazykovými odborníky a technickými přispěvateli, tak i netechnickými a neodbornými přispěvateli, kteří pracují na různých částech systému.
Tyto úvahy vedou k návrhu "potrubního" systému, v němž je vstupní konstruktor zpracováván různými moduly (odpovídajícími různým aspektům přirozeného jazyka), dokud není vrácen konečný výstupní text.
V této pipeline jsou tmavě modré bloky prvky, které by vytvořili přispěvatelé do Wikifunkcí (obdélníky) nebo Wikidat (zaoblené obdélníky), zatímco světle modré prvky představují funkce nebo data žijící v orchestrátoru Wikifunkcí.
Klíčovým aspektem systému jsou "šablonové vykreslovače". Wikifunkce budou poskytovat specializovaný šablonovací jazyk, vyvinutý vlastními silami, který by měl umožnit i netechnickým přispěvatelům psát renderery pro jejich jazyk. Tyto renderery budou podporovány lexikálními daty z Wikidat a gramatickými vztahy ve stylu univerzální závislosti, které by v rámci Wikifunkcí definovali jazykově zainteresovaní přispěvatelé.
Budeme rádi, když nám na diskusní stránce návrhu sdělíte jakoukoli zpětnou vazbu, zejména pokud jde o nápad vyvinout vlastní šablonovací systém.
Další aktualizace za minulý týden
- Tento týden tým uspořádal první zasedání Deep Dive. Představili jsme naše projektové OKR (cíle a klíčové výsledky) a získali zpětnou vazbu od vedení.
- Tento týden strávil tým přípravami na víkendový Hackathon:
- Proběhla prezentace a otázky a odpovědi na téma Wikifunkcí.
- Pro účastníky Hackathonu bylo identifikováno a označeno několik úkolů z backlogu Phabricatoru.
Níže je uveden stručný týdenní přehled s důrazem na stav každého pracovního procesu:
- Výkon:
- Pokrok v nastavení Beta clusteru: služby orchestrátoru a evaluátoru se nyní automaticky aktualizují na nejnovější bitovou kopii.
- NLG:
- Dokončení počátečního návrhu dokumentu návrhu architektury systému NLG.
- Metadata:
- Částečné dokončení kódu front-endu, aby byla zajištěna dopředná i zpětná kompatibilita pro staré a nové formáty metadat.
- Zkušenosti:
- Další pokrok v implementaci zobrazení funkcí a editorů pro mobilní zařízení
- Dokončení migrace funkčních schémat na pole Benjamin
- Předané návrhy pro 'Text se záložním řešením'