Wikimedia Indonesia/Hibah Riset Wikidata 2024/FROG: Framework of Open GraphRAG

Nama kegiatan dan pelaksana

FROG: Framework of Open GraphRAG

Fariz Darari

Universitas Indonesia, Depok, Indonesia

Ringkasan kegiatan

Apa kegiatan Anda?

Kegiatan kami berpusat pada riset pengembangan kerangka kerja untuk sistem retrieval-augmented generation berbasis data terhubung (linked data) dengan struktur graf. Spesifiknya, kami berfokus pada data terhubung yang terbuka (open linked data) yang dapat diakses semua orang, yakni Wikidata. Kami mengembangkan suatu sistem tanya-jawab yang memungkinkan orang untuk bertanya terkait informasi yang disimpan pada Wikidata dengan bahasa manusia. Kemudian, dari pertanyaan tersebut secara otomatis akan dibuat kueri SPARQL yang bersesuaian dengan mempertimbangkan ontologi dari Wikidata itu sendiri. Selanjutnya, kueri tersebut akan dieksekusi pada Wikidata Query Service (WDQS) untuk mendapatkan hasil yang sekiranya dapat menjawab pertanyaan yang diberikan. Terakhir, hasil eksekusi kueri yang awalnya dalam format tabular akan diubah menjadi bahasa manusia dengan bantuan Large Language Model (LLM) agar lebih intuitif dan mudah diinterpretasi oleh manusia. Dapat dipastikan bahwa output dari kegiatan kami bersifat terbuka, sehingga dapat diakses oleh siapa saja dan dimodifikasi sesuai kebutuhan mereka masing-masing.

Apa alasan Anda membuat kegiatan ini? Apakah manfaat / dampak kegiatan ini bagi Anda, bagi Wikimedia Indonesia/Wikidata Indonesia, dan/atau bidang keilmuan Jejaring Semantik?

Alasan kami membuat kegiatan ini adalah untuk menjembatani pengaksesan informasi dari basis pengetahuan open linked data bagi orang awam dengan menyediakan antarmuka dalam bahasa manusia. Sejatinya, untuk bisa mengakses informasi dari linked data, dibutuhkan pengetahuan terkait bahasa kueri yang digunakan—dalam konteks Wikidata, yaitu SPARQL—yang mana ini cukup sulit dikuasai oleh pengguna awam. Oleh karena itu, kegiatan yang kami buat akan berfokus pada bagaimana cara membangkitkan kueri SPARQL secara otomatis dari pertanyaan yang diberikan sehingga dapat mempermudah pengaksesan informasi dari basis pengetahuan open linked data. Dengan demikian, pengguna tidak perlu risau memikirkan bagaimana cara mengakses informasi dari data dengan format seperti itu. Harapannya, dengan adanya antarmuka yang berbasis bahasa manusia seperti ini, penggunaan Wikidata sebagai sumber pengetahuan yang terstruktur bisa lebih masif lagi. Tentu saja, ini akan selaras dengan visi dan misi dari Wikimedia dan Wikidata Indonesia, yakni pemanfaatan Wikidata yang lebih inklusif untuk semua (khususnya masyarakat Indonesia). Lebih lanjut lagi, hasil riset ini juga akan bermanfaat sebagai pendekatan ilmiah dan praktis (practical) yang inovatif untuk bidang ilmu jejaring semantik/knowledge graph.

Apa yang ingin Anda capai dari kegiatan Anda? Apakah indikator keberhasilan dari proyek ini?

Sistem yang dikembangkan mampu menghasilkan kueri SPARQL yang cukup akurat ke Wikidata berdasarkan pertanyaan pengguna. Dengan eksekusi tersebut, diharapkan LLM dapat menghasilkan jawaban yang benar dan relevan. Secara kuantitatif, indikator keberhasilan dari proyek ini ditandai dengan rata-rata akurasi untuk keseluruhan data uji yang mencapai 75% atau lebih. Selain itu, indikator publikasi yang kami tetapkan untuk kegiatan ini adalah dua publikasi konferensi internasional yang terindeks Scopus. Publikasi tersebut akan kami buat versi open access-nya semua melalui arXiv.

Apa yang membuat Anda layak melaksanakan kegiatan Anda?

Kami layak melaksanakan kegiatan ini dikarenakan kami mempunyai kemampuan yang mumpuni dalam bidang jejaring semantik dan perolehan informasi. Hal ini dibuktikan dengan adanya publikasi-publikasi di berbagai konferensi top dunia, terutama di bidang jejaring semantik, seperti International Semantic Web Conference (ISWC). Ketiga anggota riset ini berasal dari universitas terbaik di Indonesia (menurut QS World University Ranking 2025). Selain itu, salah satu anggota dari kegiatan ini telah melakukan penelitian terkait Wikidata sejak munculnya Wikidata di tahun 2013/2014 dan telah mengembangkan banyak sistem terkait Wikidata, mulai dari COOL-WD, ProWD, OD2WD, dan COVIWD. Sebagai tambahan, salah satu anggota kegiatan ini juga tergabung dalam institusi riset knowledge graph internasional di Vienna, Austria, yakni: Institute for Data, Process and Knowledge Management @ WU Vienna.

Bagaimana Anda menggunakan ekosistem Wikimedia (Wikipedia, Wikidata, dsb.) dalam proyek Anda?

Kami akan menggunakan Wikidata sebagai basis pengetahuan dari sistem yang akan kami kembangkan. Spesifiknya, kami akan menggunakan Wikidata Query Service (WDQS) untuk melakukan eksekusi kueri dan untuk mendapatkan konteks ontologi (seperti URI property dan entity beserta label dan deskripsinya) yang memadai dalam pembuatan kueri yang bersesuaian dengan pertanyaan yang diajukan.

Apa hal baru yang ditawarkan dari proyek yang Anda ajukan?

Kami mengusulkan framework GraphRAG yang bersifat terbuka dengan memanfaatkan data terbuka Wikidata sebagai sumber pengetahuan utama. Framework ini memperkenalkan pendekatan baru dalam sistem retrieval-augmented generation (RAG) dengan mengintegrasikan

pencarian vektor untuk memperoleh properti yang relevan secara lebih efektif menggunakan basis data vektor yang open source,
penggunaan large language model yang bersifat open source sehingga lebih mudah diinspeksi, dan
penggunaan basis pengetahuan, yakni Wikidata yang bersifat open source sehingga dapat diakses oleh semua orang.

Selain hasil kueri pada GraphRAG yang bersifat text-based, kami juga berencana akan menambahkan fitur visual querying, yang hasil kuerinya dapat berupa visualisasi, misalnya gambar, barchart, dan linechart, mengadopsi dari fitur visualisasi kueri pada WDQS. Hal ini akan menambah keramahan (user friendliness) dari sistem FROG pada Wikidata.

Inovasi ini mengisi celah penelitian terkait pemanfaatan knowledge graph besar seperti Wikidata dalam meningkatkan akurasi dan relevansi hasil LLM melalui kueri SPARQL yang lebih presisi. Pendekatan kami, menilik poin-poin di atas, memiliki perbedaan signifikan dengan ChatGPT serta layanan LLM sejenisnya, sebagai berikut:

Berbeda dengan ChatGPT ataupun layanan LLM lainnya yang bersifat tertutup, pendekatan kami adalah dengan menggunakan semua komponen yang bersifat open source, mulai dari LLM hingga vector database, sehingga dapat dengan mudah diinspeksi atau dimodifikasi sesuai keinginan.
LLM pada umumnya masih belum didukung oleh sistem RAG. Adapun ChatGPT yang sudah menerapkan konsep RAG masih belum dapat mengambil informasi dari Wikidata secara langsung (belum terintegrasi).

Jangka Waktu kegiatan

1 November 2024 – 31 Mei 2025

Anggaran kegiatan

Rp. 25.000.000

Pengalaman Publikasi Tim

Nilay Tufek, Aparna Saissre, Valentin Just, Fajar J. Ekaputra, Marta Sabou, Allan Hanbury. "Validating Semantic Artifacts with Large Language Models." In Proceedings of the 21th European Semantic Web Conference (ESWC), Krete, Greece, pp. 24-30. 2024.
Millenio Ramadizsa, Fariz Darari, Werner Nutt, Simon Razniewski. Knowledge gap discovery: A case study of Wikidata. Wikidata Workshop 2023 in conj. with ISWC 2023, Athens, Greece.
Anna Breit, Laura Waltersdorfer, Fajar J. Ekaputra, et al. "Combining machine learning and semantic web: A systematic mapping study." ACM Computing Surveys 55, no. 14s (2023): 1-41. https://doi.org/10.1145/3586163
Muhammad Faiz, Gibran M.F. Wisesa, Adila A. Krisnadhi, Fariz Darari. Chapter 13. A Pattern-based Enrichment of Wikidata from Open Data Using OD2WD. Advances in Pattern-Based Ontology Engineering: 227-257, 2021.
Fariz Darari. COVIWD: COVID-19 Wikidata Dashboard. Jurnal Ilmu Komputer dan Informasi (Journal of Computer Science and Information), 14(1):39-47, 2021. Available in English at: https://jiki.cs.ui.ac.id/index.php/jiki/article/view/941/440
Hana Raissya, Fariz Darari, and Fajar J. Ekaputra. "VizKG: A framework for visualizing SPARQL query results over knowledge graphs." In Proc. 6th Int. Workshop Vis. Interact. Ontologies Linked Data. 2021. https://ceur-ws.org/Vol-3023/paper3.pdf
Nadyah Hani Ramadhana, Fariz Darari, Panca O. Hadi Putra, Werner Nutt, Simon Razniewski, Refo Ilmiya Akbar. User-Centered Design for Knowledge Imbalance Analysis: A Case Study of ProWD. VOILA 2020 in conj. with ISWC 2020, Virtual (Athens), Greece.
Avicenna Wisesa, Fariz Darari, Adila Krisnadhi, Werner Nutt and Simon Razniewski. Wikidata Completeness Profiling Using ProWD. K-CAP 2019, Marina del Rey, California, USA.
Muhammad Faiz, Gibran M.F. Wisesa, Adila Krisnadhi and Fariz Darari. OD2WD: From Open Data to Wikidata through Patterns. WOP 2019 in conj. with ISWC 2019, Auckland, New Zealand.
Fariz Darari, Radityo Eko Prasojo, Simon Razniewski, and Werner Nutt: COOL-WD: A Completeness Tool for Wikidata. ISWC 2017 Demo, Vienna, Austria.
Radityo Eko Prasojo, Fariz Darari, Simon Razniewski, Werner Nutt. Managing and Consuming Completeness Information for Wikidata Using COOL-WD. COLD 2016 Workshop, Kobe, Japan.

Status

Permohonan ini telah DITERIMA dan akan didanai oleh Wikimedia Indonesia