Abstraktní Wikipedie/Související a předchozí práce/Generování přirozeného jazyka
Abstraktní Wikipedie vygeneruje text v přirozeném jazyce z abstraktní reprezentace. To není nová myšlenka a již několikrát byla vyzkoušena.
Cílem této stránky je shromáždit různé existující přístupy. Snaží se shrnout hlavní myšlenky různých přístupů, jejich výhody a nevýhody a upozorňuje na existující implementace. Tato stránka (vytvořená komunitou a pro komunitu) pomůže vybrat, na který přístup se zaměřit nejdříve.
Implementace
- Arria NLG
- Wikipedie: Arria NLG [ de ] [ en ] [ nn ]
- Webová stránka: https://www.arria.com/
- Licence: Proprietary, 30 patents apply
- Podporované jazyky: English
- ASTROGEN
- Webová stránka: http://www.dsv.su.se/~hercules/ASTROGEN/ASTROGEN.html
- Chimera
- Webová stránka: https://github.com/AmitMY/chimera
- Licence: MIT License
- Elvex
- Webová stránka: https://github.com/lionelclement/Elvex
- FUF/SURGE
- Webová stránka: https://www.cs.bgu.ac.il/~elhadad/surge
- Genl
- Webová stránka: http://kowey.github.io/GenI/
- GoPhi
- Webová stránka: https://github.com/rali-udem/gophi
- Grammar Explorer
- Webová stránka: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/tutorials/Grexplorer/grexplorer.html
- Grammatical Framework
- Wikipedie: Grammatical Framework [ en ] [ nn ]
- Webová stránka: https://www.grammaticalframework.org/
- Licence: GNU General Public License: see text
- Podporované jazyky: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
- jsRealB
- KPML
- Webová stránka: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/README.html
- Podporované jazyky: (2014):
- More advanced: Czech, English, German?, Spanish
- Prototype: Bulgarian, Chinese, Dutch, Portuguese, Russian
- Less advanced: French, Greek, Japanese
- Linguistic Knowledge Builder
- Webová stránka: http://moin.delph-in.net/LkbTop
- Multimodal Unification Grammar
- Webová stránka: https://david-reitter.nfshost.com/compling/mug/index.html
- NaturalOWL
- NLGen and NLGen2
- Webová stránka: https://launchpad.net/nlgen
https://launchpad.net/nlgen2
- OpenCCG
- Webová stránka: http://openccg.sourceforge.net/
- rLDCP
- Webová stránka: https://cran.r-project.org/web/packages/rLDCP/index.html
- RoseaNLG
- Webová stránka: https://rosaenlg.org/
- Podporované jazyky: English, French, German and Italian
- Semantic Web Authoring Tool (SWAT)
- Wikipedie: WYSIWYM [ en ] [ nn ] A SWAT is a tool that implements the WYSIWYM (what you see is what you meant) interaction technique for developing formal representations based on successive refinements (by humans) of NLG outputs.
- Webová stránka: http://mcs.open.ac.uk/nlg/SWAT/
- Podporované jazyky: OWL Simplified English
- SimpleNLG
- Webová stránka: https://github.com/simplenlg/simplenlg
- Podporované jazyky: English, French
- SPUD
- Webová stránka: https://www.cs.rutgers.edu/~mdstone/nlg.html
- Suregen-2
- Webová stránka: http://www.suregen.de/index.html
- Podporované jazyky: German, English
- Syntax Maker
- Webová stránka: https://github.com/mikahama/syntaxmaker
- Podporované jazyky: Finnish
- TGen
- Webová stránka: https://github.com/UFAL-DSG/tgen
- Universal Networking Language
- UralicNLP
- Webová stránka: https://uralicnlp.com/
https://github.com/mikahama/uralicNLP - Podporované jazyky: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]
Teoretické pozadí
Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] je podoblastí natural language processing. Viz broader topic on Scholia.[2]
Model pipeline
Ve svém přehledu z roku 2018,[3] Gatt[4] a Krahmer[5] začínají popisem natural language generation jako "úlohy generování textu nebo řeči z nejazykového vstupu". Identifikují šest dílčích problémů (podle Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, str. 70-82]:[3]
- Content determination (content determination (Q5165077))
- Text structuring (document structuring (Q5287648))
- Sentence aggregation (aggregation (Q4692263))
- Lexicalisation (lexical choice (Q6537688))
- Referring expression generation (referring expression generation (Q7307185))
- Linguistic realisation (realization (Q7301282))
Upozorňujeme, že šest výše uvedených témat má články pouze v anglické Wikipedii (24. července 2020).
Těchto šest dílčích úloh lze považovat za segmentaci "pipeline", které začíná "ranými" úlohami, jež jsou v souladu s účelem jazykového výstupu. "Pozdější" úlohy jsou více přizpůsobeny konečné jazykové podobě. Souhrnná podoba by mohla být "Co (1), uspořádané (2) a segmentované (3) jak, s jakými slovy (4&5), v jakých formách (6)". Lexikalizace (4) není v této souhrnné formě jasně odlišena od "generování odkazovacích výrazů" (REG) (5). Klíčovou myšlenkou při REG je vyhnout se opakování a dvojznačnosti, resp. zvládnout napětí mezi těmito protichůdnými cíli. To odpovídá Griceově maximě (Grice, 1975[7]), že "mluvčí by měli dbát na to, aby jejich příspěvky byly dostatečně informativní pro účely výměny, ale ne více" (nebo, jak řekl Roger Sessions (1950) podle Alberta Einsteina (1933): "vše by mělo být tak jednoduché, jak jen to jde, ale ne jednodušší!").
Content determination
Document structuring
Aggregation
Lexical choice
Referring expression generation
Realization
- "V jazykovědě je realizace proces, při kterém je nějaký druh povrchové reprezentace odvozen od své základní reprezentace; to znamená způsob, jakým se nějaký abstraktní objekt lingvistické analýzy vytváří ve skutečném jazyce. Často se říká, že fonémy jsou realizovány pomocí řečových zvuků. Různé zvuky, které mohou realizovat určitý foném, se nazývají jeho alofony."
- "Realizace je také dílčí úlohou generování přirozeného jazyka, která zahrnuje vytvoření skutečného textu v lidském jazyce (angličtina, francouzština atd.) ze syntaktické reprezentace."
- Anglická Wikipedie
- (Přispěvatelé Wikipedie, “Realization”, Wikipedie, svobodná encyklopedie, 26. května 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [navštíveno 31. srpna 2020].)
Přístup "černé skříňky"
V novějším průzkumu Gârbacea a Mei[8] navrhli "neuronové generování jazyka" jako vznikající podoblast NLG. Jedenáct článků citovaných v jejich průzkumu má v názvu slovo "neuronový jazyk", nejstarší z roku 2016 (Édouard Grave, Armand Joulin a Nicolas Usunier)[9]. Nejstarší citace, v níž se objevuje "neurální generování jazyka", je z roku 2017 (Jessica Ficler a Yoav Goldberg)[10].
V polovině roku 2020 není "neuronové generování jazyka" dostatečně vyspělé na to, aby mohlo být použito ke generování přirozeného jazyka pro jazykově neutrální obsah.
Reference
- Jessica Ficler and Yoav Goldberg, 2017[10]
- Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
- Gârbacea and Mei, 2020[8]
- Gardent et al., 2017[11]
- Gatt & Krahmer, 2018[3]
- Grice, 1975[7]
- Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)
Externí odkazy
- ACL Special Interest Group on Natural Language Generation ACL is the Association for Computational Linguistics.
- Ehud Reiter's Blog Ehud Reiter has no English Wikipedia page (apart from his user page).
- Natural Language Generation (CLAN Group), School of Natural and Computing Sciences, The University of Aberdeen.
- Institute for Language, Cognition and Computation (ILCC), School of Informatics, The University of Edinburgh.
- Harvard NLP, Harvard University.
- The Interaction Lab, School of Mathematical and Computer Sciences, Heriot-Watt University.
- Institute of Linguistics and Language Technology, University of Malta (Albert Gatt, Director).
- The Open University Natural Language Generation Group.
- TALN Research Group, Department of Information and Communication Technologies,Universitat Pompeu Fabra, Barcelona.
- The Natural Language Processing Group, The University of Sheffield.
- The Natural Language Group, Information Sciences Institute, University of Southern California.
- SyNaLP (Symbolic and statistical NLP), Laboratoire Lorrain d'Informatique et ses Applications (LORIA).
- Paul G. Allen School of Computer Science and Engineering, University of Washington.
Poznámky
- ↑ https://models.uralicnlp.com/nightly/
- ↑ V Scholia view on Natural-language generation chyběly standardní zdroje a přední autoři 27. července 2020. Místo toho se podívejte na Google Scholar.
- ↑ a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24
- ↑ Gattovy publikace
- ↑ Emiel Krahmer (Q51689943) Vybrané publikace
- ↑ a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27
- ↑ a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10
- ↑ a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08,
Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.
- ↑ a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)
- ↑ a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104. Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) - ↑ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133