Wikipédia abstraite/Travaux liés et précédents/Génération en langue humaine
La Wikipédia abstraite générera du texte en langue humaine depuis une représentation abstraite. Ceci n'est pas une idée nouvelle et cela a été tenté de nombreuses fois auparavant.
Cette page vise à collecter les différentes approches existantes. Elle tente de résumer les idées essentielles des différentes approches, leurs avantages et inconvénients, et de pointer les mises en œuvre existantes. Cette page (par et pour la communauté) aidera à choisir vers quelle approche nous nous contentrerons d’abord.
Mises en œuvre
- Arria NLG
- Wikipédia : Arria NLG [ de ] [ en ] [ nn ]
- Site Internet : https://www.arria.com/
- Licence : Proprietary, 30 patents apply
- Langues prises en charge : English
- ASTROGEN
- Site Internet : http://www.dsv.su.se/~hercules/ASTROGEN/ASTROGEN.html
- Chimera
- Site Internet : https://github.com/AmitMY/chimera
- Licence : MIT License
- Elvex
- Site Internet : https://github.com/lionelclement/Elvex
- FUF/SURGE
- Site Internet : https://www.cs.bgu.ac.il/~elhadad/surge
- Genl
- Site Internet : http://kowey.github.io/GenI/
- GoPhi
- Site Internet : https://github.com/rali-udem/gophi
- Grammar Explorer
- Site Internet : http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/tutorials/Grexplorer/grexplorer.html
- Grammatical Framework
- Wikipédia : Grammatical Framework [ en ] [ nn ]
- Site Internet : https://www.grammaticalframework.org/
- Licence : GNU General Public License: see text
- Langues prises en charge : Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
- jsRealB
- KPML
- Site Internet : http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/README.html
- Langues prises en charge : (2014):
- More advanced: Czech, English, German?, Spanish
- Prototype: Bulgarian, Chinese, Dutch, Portuguese, Russian
- Less advanced: French, Greek, Japanese
- Linguistic Knowledge Builder
- Site Internet : http://moin.delph-in.net/LkbTop
- Multimodal Unification Grammar
- Site Internet : https://david-reitter.nfshost.com/compling/mug/index.html
- NaturalOWL
- NLGen and NLGen2
- Site Internet : https://launchpad.net/nlgen
https://launchpad.net/nlgen2
- OpenCCG
- Site Internet : http://openccg.sourceforge.net/
- rLDCP
- Site Internet : https://cran.r-project.org/web/packages/rLDCP/index.html
- RoseaNLG
- Site Internet : https://rosaenlg.org/
- Langues prises en charge : English, French, German and Italian
- Semantic Web Authoring Tool (SWAT)
- Wikipédia : WYSIWYM [ en ] [ nn ] A SWAT is a tool that implements the WYSIWYM (what you see is what you meant) interaction technique for developing formal representations based on successive refinements (by humans) of NLG outputs.
- Site Internet : http://mcs.open.ac.uk/nlg/SWAT/
- Langues prises en charge : OWL Simplified English
- SimpleNLG
- Site Internet : https://github.com/simplenlg/simplenlg
- Langues prises en charge : English, French
- SPUD
- Site Internet : https://www.cs.rutgers.edu/~mdstone/nlg.html
- Suregen-2
- Site Internet : http://www.suregen.de/index.html
- Langues prises en charge : German, English
- Syntax Maker
- Site Internet : https://github.com/mikahama/syntaxmaker
- Langues prises en charge : Finnish
- TGen
- Site Internet : https://github.com/UFAL-DSG/tgen
- Universal Networking Language
- UralicNLP
- Site Internet : https://uralicnlp.com/
https://github.com/mikahama/uralicNLP - Langues prises en charge : Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]
Contexte théorique
La Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] est un sous-champ du natural language processing. Voir le sujet plus large sur Scholia.[2]
Modèle en pipeline
Dans leur étude de 2018,[3] Gatt[4] et Krahmer[5] commencent par décrire la natural language generation comme la « tâche de générer du texte ou de la parole depuis une entrée non lingusitique. » Ils identifient six sous-problèmes (d’après Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, pp. 70–82]:[3]
- Content determination (détermination du contenu (Q5165077))
- Text structuring (structuration de document (Q5287648))
- Sentence aggregation (agrégation (Q4692263))
- Lexicalisation (lexicalisation (Q6537688))
- Referring expression generation (génération d’expression référente (Q7307185))
- Linguistic realisation (réalisation (Q7301282))
Veuillez noter que les six sujets listés ci-dessus n'ont des articles que sur l'édition en anglais de Wikipédia (au 24 juillet 2020).
Ces six sous-problèmes peuvent être vus comme une segmentation du « pipeline », débutant par les tâches « préliminaires », alignées vers le but de la sortie linguistique. Les tâches « tardives » sont davantage alignées vers la forme linguistique finale. Une forme résumée pourrait être « Quoi (1), ordonné (2) et segmenté (3) comment, avec quels mots (4 et 5), sous quelles formes (6)”. La lexicalisation (4) n’est pas clairement distinguée de la « génération d’expression référente » (REG) (5) dans sa forme résumée. L’idée clé durant la REG est d’éviter toute répétition ou ambiguïté et de gérer la tension entre ces buts conflictuels. Cela correspond à la maxime gricéenne (Grice, 1975[7]) que « les locuteurs devraient s’assurer que leurs contributions sont suffisamment informatives pour les buts de l’échange, mais pas davantage » (ou, comme Roger Sessions a dit (1950) après Albert Einstein (1933) : « chaque chose devrait être aussi simple que possible, mais pas plus simple ! »).
Détermination du contenu
Structuration de document
Agrégation
Lexicalisation
Génération d’expression référente
Réalisation
- « En linguistique, la réalisation est le processus par lequel un certain type de représentation de surface est dérivé de sa représentation soujascente ; c’est-à-dire, la façon par laquelle un certain objet abstrait d’analyse linguistique vient à être produit en langue effective. Les phonèmes sont souvent dits être réalisés par les sons de la parole. Les différents sont qui peuvent réaliser un phonème particulier sont appelés ses allophones. »
- « La réalisation est également une sous-tâche de la génération de langue naturelle (GLN), ce qui implique de créer un texte réel dans une langue humaine (anglais, français, etc.) depuis une représentation syntaxique. »
- Wikipédia en anglais
- (contributeurs de Wikipédia , « Réalisation », Wikipédia, l'encyclopédie libre, 26 mais 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [accédée le 31 août 2020].)
Approche en boîte noire
Dans une étude ultérieure, Gârbacea et Mei[8] ont suggéré la « génération de langue neurale » comme un sous-chanp de la GLH. Onze des papiers cités dans leur étude ont des titres comprenant les mots « langue neurale », le plus précoce daté de 2016 (Édouard Grave, Armand Joulin, and Nicolas Usunier)[9]. La première citation dans laquelle « langue neurale » apparaît date de 2017 (Jessica Ficler and Yoav Goldberg)[10].
En mi-2020, la « génération de langue neurale » n’est pas assez mature pour être utilisée pour générer des rendus en langue humaine de contenu en langue neutre.
Références
- Jessica Ficler and Yoav Goldberg, 2017[10]
- Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
- Gârbacea and Mei, 2020[8]
- Gardent et al., 2017[11]
- Gatt & Krahmer, 2018[3]
- Grice, 1975[7]
- Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)
Liens externes
- ACL Special Interest Group on Natural Language Generation ACL is the Association for Computational Linguistics.
- Ehud Reiter's Blog Ehud Reiter has no English Wikipedia page (apart from his user page).
- Natural Language Generation (CLAN Group), School of Natural and Computing Sciences, The University of Aberdeen.
- Institute for Language, Cognition and Computation (ILCC), School of Informatics, The University of Edinburgh.
- Harvard NLP, Harvard University.
- The Interaction Lab, School of Mathematical and Computer Sciences, Heriot-Watt University.
- Institute of Linguistics and Language Technology, University of Malta (Albert Gatt, Director).
- The Open University Natural Language Generation Group.
- TALN Research Group, Department of Information and Communication Technologies,Universitat Pompeu Fabra, Barcelona.
- The Natural Language Processing Group, The University of Sheffield.
- The Natural Language Group, Information Sciences Institute, University of Southern California.
- SyNaLP (Symbolic and statistical NLP), Laboratoire Lorrain d'Informatique et ses Applications (LORIA).
- Paul G. Allen School of Computer Science and Engineering, University of Washington.
Notes
- ↑ https://models.uralicnlp.com/nightly/
- ↑ The Scholia view on Natural-language generation lacked the standard sources and leading authors on 27 July 2020. Instead, see Google Scholar.
- ↑ a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24
- ↑ publications de Gatt
- ↑ Emiel Krahmer (Q51689943) publications sélectionnées
- ↑ a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27
- ↑ a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10
- ↑ a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08,
Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.
- ↑ a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)
- ↑ a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104. Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) - ↑ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133