抽象的なウィキペディア/更新情報/2021年02月10日

抽象的なウィキペディアの更新情報

抽象ウィキペディアの目標は、表現されるコンテンツの抽象的表現から自然言語のテキストを生成することです。そのために、ウィキデータから語彙データを使用します。また、テキストを生成できるようになるまでにはまだ程遠いですが、皆さんに協力を奨励したいことの一つが、ウィキデータの語彙データの網羅性と完全性です。

今日、ウィキデータの語彙データの網羅性を視覚化し、例示し、より理解をガイドするのに役立つ2つのツールのプロトタイプを紹介したいと思います。

アノテーションインターフェース

第一のプロトタイプは、ユーザーが任意の言語で文に注釈を付けることができるアノテーションインターフェイスです。その語形(Form)と語義(Sense)を選択し、各単語や表現をウィキデータの語彙素(Lexeme)と関連付けます。

次のスクリーンショットで例を見ていただけます。

ウィキデータを使ったアノテーションツールのスクリーンショット

ここで文の各「単語」には、語彙素（語彙素ID L31818は単語のすぐ下にあります）の後に見出語(lemma)、言語、品詞の順に注釈が付けられています。次に、選択した場合、コンテキストで使用されている特定の語形(Form)が表示されます。たとえば、dignityでは、語彙素の単数形の語形である語形ID L31818#F1が表示されます。最後に「語義」が表示されます。これは語義ID L31818#S1が割り当てられ、注釈で定義されています。
いつでも、任意の注釈を削除したり、新しい注釈を追加したりできます。いくつかのオプションは、Wikidataに直接アクセスできます。たとえば、必要な語義が見当たらないか抜けていて語義を所定の語彙素に追加する場合、Wikidataに移動し、通常の方法でそれを行うことができます。そこで追加し、戻って新しく追加した語義を選択できます。
プロトタイプのユーザーインターフェースは少し遅いので、操作を始める場合は数秒待ってください。様々な言語でそのまま動くはずです。（ページの上部に）ユニバーサル言語セレクタが利用可能です。言語を変更することができます。語義の注釈は、高頻度で語彙素の言語でのみ利用できるということに留意ください。UIはまだ言語フォールバックを実行しないため、ドイツ語のUIで英語の文を見ると、注釈が抜けていることがよくあります。

これは、技術的にはバニラMediaWiki設定上にJavaScriptとCSSで完全に実装したプロトタイプです。これは、そのようなシステムにとって最善の技術的解決策ではない可能性がありますが、再実装の可能性のため、ツールにユーザーの関心があるかどうかを判断するのに役立つはずです。また、入力文のLexemes、Senses、およびFormsの選択を提供するために他のグループによって実装できるAPIに同意することは魅力的なタスクになります。ここでの現在のベースラインは非常に単純であり、自動タグ付けシステムとしては十分ではないでしょう。これを多くの言語の多くの文で利用できるようにすることで、自然言語理解システムをトレーニングするためのグレートなコーパスを提供できます。その上に構築できるものはたくさんあります。

このプロトタイプの目標は、語彙データの網羅性に関してウィキデータコミュニティでの進捗状況をより具体化することです。任意の記述言語で文章を抜き出し、それをこのシステムに入れて、どれだけ完全に注釈をつけられるかを調べることができます。これは、ウィキデータの語彙データを紹介し、事例となる経験を作る方法です。

プロトタイプのアノテーション・インターフェースは、annotation.wmcloud.orgにあります。
ここでそれについて議論することができます: annotation.wmcloud.org/wiki/Discussion（そのwikiで新しいアカウントを作成する必要があります）

コーパス・カバレッジ・ダッシュボード

第二のプロトタイプツールは、40の言語のそれぞれでウィキペディアコーパスと比較したデータの網羅性を示すダッシュボードです。

昨年、Google Researchで前の役職にいた間、約40のウィキペディア言語版についてのクリーンアップテキストから言語モデルを構築して公開する出版物を共同執筆しました。^[1] 言語モデルの他に生データも公開しました。Googleがテキストをいくつかの機能に統合するためウィキペディアのテキストで使用する前処理システムによって、このテキストはクリーンアップされています。だから、生のウィキテキストと比較すると、このデータセットは比較的クリーンな自然言語テキストで構成されているものの、まだ多くのアーティファクトが含まれています。私たちが使用できるより優れた大規模な百科事典のテキストコーパス、ウィキペディアのより優れたクリーンアップバージョン、あるいはより多くの言語をカバーするものをご存知の場合は、お知らせください。

TensorFlow modelsからこれらのテキストを抽出しました。ダウンロード用に抽出したテキストを提供します。テキストをトークンに分割し、単語の出現回数をカウントし、ウィキデータの語彙データの指定言語のLexemes上のFormsにこれらトークンがどれだけ出現するかを比較しました。これが有用だとわかった場合、クリーンアップされたテキストをより永続的な場所に移動します。

英語での現在の状態のスクリーンショットをここに示します。

Screenshot of Wikidata lexicographic coverage dashboard.

この言語についてのウィキデータで利用可能なFormの数と、ウィキペディアで実証されている種々のFormの数（つまり、所定言語のウィキペディアにおける単語や単語種別の数）を確認できます。トークン数は、所定言語のコーパス内の単語の総数です。 Covered forms は、コーパスに含まれるフォームが、ウィキデータの語彙セットにいくつ含まれているかを示し、covered tokens は、カバーされている出現数を示しています（つまり、英語版ウィキペディアで「time」という単語が100回出てくる場合、1つのCovered Formとしてカウントされますが、covered tokensは100となります）。 2つの円グラフは、formとtoken、それぞれのカバー率を視覚化しています。
最後に、ウィキデータにまだない1000もの頻出formへのリンクがあります。これは、コミュニティが迅速にカバー率を強化するために優先付するのに役立ちます。ただし、経過報告は手作業で行われ、自動的には更新されません。今のところ、時々更新を行う予定です。

プロトタイプのコーパス・カバレッジ・ダッシュボードは次の場所にあります。: Wikidata:Lexicographical coverage
こちらで議論することができます:Wikidata talk:Lexicographical coverage

ヘルプ募集

両方のプロトタイプツールは、まさにプロトタイプであり、実際の製品ではありません。私たちは、これらのプロトタイプをサポートし、さらに開発することを約束していません。同時に、全てのコードとデータは、もちろんオープンソースです。どなたかがこれらのプロトタイプの開発または保守を引き受けたいと思ったら、大歓迎です—私たちに知らせてください（私のトークページ上、電子メール、またはツールのアイデアページ上で）

また、どなたかがアイデアは良いが異なる実装の方が良いと思う場合には、それを進めてください。— 喜んでサポートし、お話しします。ここには改善することがたくさんありますが、これら2つのプロトタイプが、語彙データの分野でのコンテンツとツールのさらなる開発につながることを願っています。

Notes

↑ Mandy Guo, Zihang Dai, Denny Vrandečić, Rami Al-Rfou: Wiki-40B: Multilingual Language Model Dataset, LREC 2020.