Абстрактна Вікіпедія/Оновлення/2021-06-24
Коротко: Спільнота Grammatical Framework запрошує вікімедійців безкоштовно взяти участь у літній школі GF 2021. Участь вікімедійців буде спонсорувати Digital Grammars.
“Grammatical Framework” (gf) — це мова функціонального програмування з відкритим вихідним кодом і набір інструментів, які спрямовані на багатомовну генерацію природними мовами та аналіз природної мови на вході. GF був вперше створений у 1998 році в Xerox Research для підтримки підготовки багатомовних документів. GF здатний аналізувати та генерувати тексти кількома мовами одночасно, працюючи з незалежним від мови поданням змісту. GF має активну і конструктивну спільноту та пропонує понад 40 мов.
Ось приклад того, як працює GF (зверніть увагу, синтаксис змінено із Haskell-подібного синтаксису на функціональний). Нехай задано таке абстрактне подання:
mkUtt(mkS(mkCl(mkNP(aPl_Det, horse_N), mkNP(aPl_Det, animal_N))))
Для полегшення його розуміння наведено термінологію без скорочень:
make Utterance (make Sentence (make Clause (make Noun Phrase (a Plural Determiner, horse Noun), make Noun Phrase (a Plural Determiner, animal Noun))))
Зверніть увагу, що ця структура, у свою чергу, також може бути абстрагована з викликом функції за допомогою простішої структури:
subsumes(horse_N, animal_N)
Можна лінеаризувати це абстрактне подання кількома мовами. Ось результати, створені реалізацією GF на хмарній основі (яка датується 2012 роком - на сьогодні GF додала підтримку ще десятків мов):
- болгарська: коне са животни
- китайська: 些 马 是 些 动 物
- нідерландська: paarden zijn dieren
- англійська: horses are animals
- іспанська: caballos son animales
- шведська: hästar är djur
Внесемо дві невеликі зміни до абстрактного подання: додамо заперечення (negative polarity) до речення (negativePol
), замінимо horse_N
на tree_N
, і ми отримаємо таке подання:
mkUtt(mkS(negativePol, mkCl(mkNP(aPl_Det, tree_N), mkNP(aPl_Det, animal_N))))
Як і вище, це може бути приховано викликом функції:
subsumesNot(tree_N, animal_N)
Це приводить до такої лінеаризації:
- болгарська: дърва не са животни
- китайська: 些 树 不 是 些 动 物
- нідерландська: bomen zijn niet dieren
- англійська: trees aren't animals
- іспанська: árboles no son animales
- шведська: träd är inte djur
Під час розробки ідеї Абстрактної Вікіпедії GF слугував важливим стимулом. Він був частиною AceWiki, розширення MediaWiki, яке тісно інтегрується з GF та Attempto Controlled English (ACE) з метою створення тексту на декількох мовах, а також для отримання формальної семантика тексту. Тоді як в AceWiki однією з головних цілей було висловити всі речення формальною логічною мовою (у цьому випадку OWL), нас менше цікавить формальна семантика абстрактного змісту (насправді це одна з основних різниць між Абстрактною Вікіпедією та багатьма попередніми проектами). Крім цього, ви можете побачити, як GF та AceWiki вплинули на розвиток абстрактної Вікіпедії.
З моменту анонсу Абстрактної Вікіпедії розробники та спільноти GF звернулись до розробників Абстрактної Вікіпедії, і ми обговорювали наші плани та ідеї. In order to further the relationship between the communities and to transfer experiences and ideas between them, we are very happy to extend an invitation to the Abstract Wikipedia community: this year’s Grammatical Framework Summer School will be open and free for all Wikimedians.
At this stage, it is too early to commit ourselves to using GF as the only approach towards natural language generation in Abstract Wikipedia. There are alternatives, and Wikifunctions will be malleable enough to support different approaches. One example for such an alternative is HPSG (Head-driven phrase structure grammar), which will be presented in the second week of the summer school. But we plan to learn from the decades of work and research into GF and the hundreds of person-years that went into its development, and we also plan to explore whether we can reuse some of the software or parts of the comprehensive grammar libraries that are part of GF. In order to facilitate such reuse, it will be crucial to have more knowledge about each other and better mutual understanding.
The GF Summer School 2021 will be held from 26 July to 6 August in Singapore, and it will be possible to attend online. Registration will be required. In order to register as a Wikimedian, please email inari
, state your Wikimedia account and your name, your country of residence, the languages you read and write, and whether you would like to participate for one or two weeks. This step is required in order to have you avoid the participation fee—if you sign up yourself, you will need to pay the fee. We are very thankful to Digital Grammars for covering the fee for Wikimedians.
We are very excited about this collaboration and are looking forward to the two communities working together and to mutually benefit from each other's goals, experiences, and skills.
This week also saw our first office hour. We answered a lot of questions, and you can catch up on the logs. We plan the next office hour to be in four to six weeks, and will announce dates also in this newsletter.