Wikimedia Enterprise
Nhân viên và nhà thầu của Wikimedia Foundation tham gia với cộng đồng tình nguyện viên trong việc duy trì nội dung của trang này |
Wikimedia Enterprise | |
---|---|
enterprise.wikimedia.com | |
Project |
|
Technical | |
Wikimedia Enterprise là một dịch vụ liên bộ phận mới của Quỹ Wikimedia được cung cấp với giá enterprise.wikimedia.com. Mục tiêu dịch vụ là xây dựng các dịch vụ dành cho những người tái sử dụng thương mại số lượng lớn nội dung Wikimedia. Dịch vụ được công bố vào tháng 3 năm 2021 (blogpost, bài viết WIRED) và ra mắt vào tháng 10 năm 2021 (Thông cáo báo chí, bài viết OpenFutures).
The focus is on organizations that want to repurpose Wikimedia content in other contexts, providing data services at a large scale, so that they are faster and more comprehensive, reliable, and secure. Wikimedia Enterprise aims to improve the user experience of Wikimedia's readers beyond our own websites; increase the reach and discoverability of the content; and improve awareness and ease of attribution and verifiability by the organizations that reuse Wikimedia project data the most—through self-funding services.
There is a very high barrier to entry for using Wikimedia data, outside of the common use cases of reading or editing. This is because the content is hard for machines to segment and understand, which in turn affects how far Wikimedia project data reaches beyond our own ecosystem, and the scale of impact it can have.
In the Movement Strategy recommendations to increase the sustainability of our movement and improve user experience there are the recommendations to, respectively: "Explore new opportunities for both revenue generation and free knowledge dissemination through partnerships and earned income—for example...Building enterprise-level APIs," and "Make the Wikimedia API suite more comprehensive, reliable, secure and fast, in partnership with large scale users.... and improve awareness of and ease of attribution and verifiability for content reusers."
It is well known that a few massive companies use our projects' data. Those companies recognize that without the Wikimedia projects, they would not be able to provide as rich or reliable an experience to their own users. There has long been a feeling among community members that these companies should do more to reinvest in the Wikimedia communities for the benefits they gain from the content and resources they use.
This led to the idea of developing a new approach that is more sustainable in the long term and provides a much clearer relationship between Wikimedia and enterprise users. Most financial benefit for Wikimedia would likely only come from a very small handful of heavy for-profit users, and would feed back into the Wikimedia movement.
As this idea developed, it became clear there is a responsibility to democratize our data for organizations that do not possess the resources of these largest users, to ensure we are leveling the playing field and helping to foster a healthy internet without reinforcing monopolies. The benefits of such a service shouldn't just be for startups or alternatives to the internet giants, but also for universities and university researchers; archives and archivists; along with the wider Wikimedia movement.
Tổng quan
Wikimedia Enterprise’s focus is on businesses that reuse our content, typically at a large scale—e.g., integrated into knowledge graphs, search, voice assistants, maps, news reporting, community tools, third party applications, and full-corpus research studies. Augmenting Wikimedia's many datasets to put structure behind our unstructured content will allow all our content reusers to meet their individual requirements while also setting us up to build new tools and services in the future, available to everyone. Reusers of our content are looking for three critical components:
- Frequency: Regular current snapshots of Wikimedia projects
- Reliability: Dependable, accessible infrastructure
- Quality: a “best last revision”
Emphasizing a self-funding set of specific use cases allows the Wikimedia API team to focus on volunteers, teams, and organizations looking to access (and, most importantly, interact with) our data sets. This includes the majority of community editing tools, which will be out of scope for this service. For more information on improvements to the existing Wikimedia APIs see the service page on the "API Gateway" initiative.
Program Goals:
- Content: Make more of our movement's content available in consistent machine-readable formats, freely available for all researchers and re-users.
- Resource-load: Reduce the need for high-intensity site-scraping by the highest-frequency and highest-volume reusers, which currently target our production servers.
- Fundraising: Provide a clearer and more consistent way for the largest re-users to reinvest derived benefits back to the movement, instead of making occasional altruistic donations that vary in size.
Cộng đồng
Contact the team if you would like to arrange a conversation about this service with your community, at a time and meeting software platform of your choice.
Past public meetings:
tháng 3 năm 2021 #1 & tháng 3 năm 2021 #2, tháng 4 năm 2021, tháng 6 năm 2022, tháng 2 năm 2023
...and also at the EMWCon Spring 2021 conference (video); March and July 2022 Strategic Wikimedia Affiliates Network (SWAN) meetings; the May 2021 Wikimedia Clinic; at Wikimania in 2021 and 2023.
Following are the introduction paragraphs for a much more detailed Community essay.
Libre and Gratis are the two meanings of “free,” commonly phrased as free as in speech, or free as in beer.
Wikimedia projects are, have always been, and will always remain libre. The principles of free cultural works mean that anyone can use Wikimedia without restriction, including commercially. As a movement, we embrace this. It is why we reject ‘non-commercial’ licenses, as they would limit the kinds of reuse possible. And it is why we consider commercial reuse an important means of distributing knowledge to audiences.
Equally, Wikimedia projects are, have always been, and will always remain gratis. The ability to freely access the knowledge available across all Wikimedia projects has always been core to the mission of the Foundation and the movement. We provide this access not only to individuals visiting our websites but also programmatically to machines so that our content can be repurposed in other environments. The full corpus of Wikimedia content always has been, and will continue to be, made available for reuse in various forms (including but not limited to database dumps, APIs, and scraping) at no cost.
As a result, our content is often repurposed by for-profit organizations that rely on it to support their business models, and which consequently earn revenue from it. Outside of voluntary corporate donations to the Wikimedia Foundation, the movement has never received benefits from any of this revenue through return investment. In acknowledgement of this, under the heading of Increase the sustainability of our movement the Movement Strategy process asked the Wikimedia Foundation to explore, among other things, “enterprise-level APIs...models for enterprise-scale for-profit reusers, taking care to avoid revenue dependencies or other undue external influence in product design and development.” Furthermore, under the heading Improve User Experience, a further recommendation stated, "Make the Wikimedia API suite more comprehensive, reliable, secure, and fast, in partnership with large scale users where that aligns with our mission and principles, to improve the user experience of both our direct and indirect users, increase the reach and discoverability of our content and the potential for data returns, and improve awareness of and ease of attribution and verifiability for content reusers."
The Enterprise project team is developing a new resource aimed at for-profit content reusers, who have product, service, and system requirements that go beyond what we freely provide. Use of this offering will not be required for for-profit content reuse; companies can continue to use the current tools available at no cost. All Enterprise API revenue will unequivocally be used to support the Wikimedia mission—for example, to fund Wikimedia programs or help grow the Wikimedia Endowment.
This project represents a new kind of activity at the Foundation. The project is at a very early stage that should be considered a learning period. We will have successes, we will make mistakes, and we will need to adapt our strategies. The team is committed to listening, engaging, and where possible, integrating the feedback we get on our work. This document is organic and is reflective of the team's current thinking; we are attempting to document as much work as possible in the open. Up until now, our work has been shaped by a series of initial interviews with community members, Wikimedia Foundation Board and staff, researchers, and reusers.
...continue to read the rest of the Community essay. See also the FAQ and Principles.
Given the nature of the service, primary decision making for it will rest with the Wikimedia Foundation. We are seeking community input, in particular from the technical community and those who have been involved in the strategy process, throughout the lifetime of the service. Technical feedback has been gathered from colleagues at the Wikimedia Foundation, industry and research partners, technical partners across the movement, and with the broader technical communities via Phabricator. Input into the funding development side of the service will follow a similar pattern. We will continue gathering input via research interviews and focus groups, as well feedback here on Meta as per our principles.
Access
Có nhiều phương pháp để truy cập vào các bộ dữ liệu của API Enterprise.
Tất cả nội dung đều được cấp phép tự do (xem thêm [nguyên tắc của dự án Wikimedia Enterprise/Principles]).
- Paid
- API Realtime (Batch và Streaming) và tệp dump hàng ngày ở định dạng NDJSON có sẵn thông qua trang web sản phẩm chuyên dụng Enterprise API: enterprise.wikimedia.com.
- Free
- Tạo tài khoản thông qua trang web sản phẩm API Enterprise bao gồm 5.000 yêu cầu API theo yêu cầu, được làm mới hàng tháng (bao gồm cả [điểm cuối Structured Contents https://enterprise.wikimedia.com/news/structured-contents-wikipedia-infobox/]) và các tệp snapshot API hai lần một tháng ở định dạng NDJSON miễn phí (làm mới vào ngày 2 và 21 hàng tháng).
- Một số bộ dữ liệu có sẵn bên ngoài trang web WME. Dữ liệu của API Enterprise được cập nhật cho tất cả mọi người hai tuần một lần trên [trang Wikimedia Dumps https://dumps.wikimedia.org/other/enterprise_html/]. Một số bộ dữ liệu Beta cũng có sẵn trên HuggingFace.
- API Snapshot và Realtime (Batch) có sẵn thông qua Dịch vụ dữ liệu cho bất kỳ ai có tài khoản dịch vụ đám mây Wikimedia.
- Các tổ chức có mục đích sử dụng phi thương mại và liên quan đến sứ mệnh, mà không thể được thực hiện bằng các API/dữ liệu mở miễn phí hiện có, có thể yêu cầu mở rộng quyền truy cập vào dịch vụ API với chi phí giảm hoặc miễn phí tùy thuộc vào mức độ sử dụng và ứng dụng.
Technical
For full information about the product, see the regular technical updates on MediaWiki.org and the documentation page.
Qua thời gian, sản phẩm API 'API product' được cung cấp sẽ phát triển và cải tiến. Thông tin này là chính xác tính đến tháng 9 năm 2024.
Tổng quan
Tất cả các API của chúng tôi đều trả về cùng một định dạng phản hồi JSON có cấu trúc (hoặc ND-JSON), giúp dễ dàng kết hợp một API với các API khác. Ba API; cùng dữ liệu, các phương pháp truy xuất khác nhau:
- Tận dụng dữ liệu lớn với Snapshot API
- Nhận các thay đổi ngay lập tức với luồng API thời gian thực.
- Khôi phục các mục đơn với API On-demand
API phản hồi bao gồm dữ liệu bài viết như tóm tắt, hình ảnh, Wikidata QID, giấy phép và nhiều hơn nữa. Cũng bao gồm dữ liệu cụ thể cho phiên bản cuối cùng, chẳng hạn như biên tập viên, kích thước thay đổi và điểm độ tin cậy với xác suất hoàn nguyên.
On-demand API
Các người tái sử dụng dựa vào hạ tầng phụ thuộc vào nền tảng EventStream cần các dịch vụ như RESTBase để lấy HTML từ tiêu đề trang và các phiên bản hiện tại nhằm cập nhật sản phẩm của họ. Những người tái sử dụng với khối lượng lớn đã yêu cầu một phương thức đáng tin cậy để thu thập dữ liệu này, cũng như các cấu trúc khác ngoài HTML khi tích hợp nội dung của chúng tôi vào các KG và sản phẩm của họ.
API theo yêu cầu của Wikimedia Enterprise cho phép người dùng truy xuất các bài viết đơn lẻ từ bất kỳ dự án nào của Wikimedia bất cứ lúc nào.
- Thực hiện các yêu cầu HTTP tiêu chuẩn để lấy tài liệu theo ID hoặc tên từ tất cả các dự án và ngôn ngữ, hoặc sử dụng bộ lọc để hạn chế phản hồi.
- Yêu cầu dữ liệu trang mới nhất bất cứ lúc nào để bổ sung dữ liệu API Thời gian thực hoặc Ảnh chụp.
- Một loạt các sơ đồ thương mại và hợp nhất theo các thỏa thuận cấp độ dịch vụ (SLA).
Realtime API
High-volume reusers currently rely heavily on the changes that are pushed from our community to update their products in real time, using EventStream APIs to access such changes. High-volume reusers are interested in a service that will allow them to filter the changes they receive to limit their processing, guarantee stable HTTP connections to ensure no data loss, and supply a more useful schema to limit the number of api calls they need to make per event.
API Thời gian thực của Enterprise cho phép người dùng truyền tải các cập nhật theo thời gian thực từ bất kỳ dự án Wikimedia nào.
- Phát trực tiếp: Nhận cập nhật phát trực tiếp (dòng lửa) về mọi thay đổi khi chúng xảy ra theo thời gian thực.
- Lô: Tải xuống các tệp ảnh chụp nhanh nén của các bản cập nhật gia tăng mỗi giờ.
- Cập nhật ngay lập tức cho nội dung mới, bất kỳ chỉnh sửa, xóa bỏ nào, và các sự kiện tin tức nóng hổi bao gồm những thay đổi về độ hiển thị do cộng đồng biên soạn.
- Lọc các sự kiện theo Dự án hoặc Không gian tên Phiên bản
- Một loạt các sơ đồ thương mại và hợp nhất theo các Thỏa thuận Cấp độ Dịch vụ (SLA) với các kết nối được đảm bảo.
Snapshot API
For high volume reusers that currently rely on the Wikimedia Dumps to access our information, we have created a solution to ingest Wikimedia content in near real time without excessive API calls (On-demand API) or maintaining hooks into our infrastructure (Realtime).
API Snapshot Doanh Nghiệp cho phép người dùng truy xuất toàn bộ các dự án Wikimedia dưới dạng tệp dữ liệu.
- Tải xuống một tệp nén chứa tất cả mọi thứ trong bất kỳ dự án, hoặc bất kỳ ngôn ngữ nào
- Nội dung bài viết dưới định dạng HTML cũng như Wikitext.
- Tối đa theo nhịp độ chụp ảnh hàng ngày.
- Tệp nén JSON, Wikitext hoặc HTML 24 giờ của các dự án Wikimedia dựa trên văn bản.
- Một tệp cập nhật theo giờ với các thay đổi sửa đổi của các dự án Wikimedia dựa trên văn bản.
- Một loạt các sơ đồ thương mại và hợp nhất theo các thỏa thuận cấp độ dịch vụ (SLA).
- SLA và hỗ trợ
Các tài khoản hợp đồng nhận được 99% SLA và đảm bảo thời gian phản hồi hỗ trợ. Tất cả các tài khoản đều có quyền truy cập vào các tài nguyên giới thiệu onboarding và câu hỏi thường gặp của trung tâm trợ giúp của chúng tôi.
Team
The Wikimedia Foundation staff who work specifically on this project:
Business
Product
-
Christopher Petrillo
Product Management -
Stephanie Delbecque
Product Management
Engineering
-
Ricardo Esquito
Software Engineering -
Luvo Dlulisa
Software Engineering -
Ruairi O'Donnell
Software Engineering -
Ehi Enabulele
Software Engineering
Program
Names in bold indicate management.
Nhiều người từ các nhóm khác nhau cũng đóng góp đáng kể, bao gồm từ các nhóm Pháp lý của WMF, Kỹ thuật, Đối tác, Thiết kế, Truyền thông, v.v. Các công việc hợp đồng bổ sung được cung cấp bởi: PartnerHero cung cấp dịch vụ hỗ trợ khách hàng; Vuurr đang hỗ trợ quy trình bán hàng của chúng tôi; và Super Natural Design là nhà thiết kế của trang web dự án.
Governance
The board of the LLC overseeing the project are Ex officio from Wikimedia Foundation leadership, representing their Wikimedia Foundation staff roles. This includes the Chief Advancement Officer Lisa Seitz-Gruwell; General Counsel Stephen LaPorte; Chief Product and Technology Officer Selena Deckelman; and Lane Becker who serves as the LLC's president. The LLC is subject to the governance of the Wikimedia Foundation Board of Trustees as described at the Wikimedia Foundation Board Statement on Wikimedia Enterprise revenue principles.
All reports and official documents of the LLC are published on a dedicated Wikimedia Enterprise page on the Wikimedia Foundation Governance website. For convenience, annual reports are also linked here:
- năm 2022 (calendar)
- năm 2022-năm 2023 (fiscal)
Press
Commercial launch - October 2021 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
Wikimedia Foundation Press release Of particular note:
|
First customers - June 2022 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Press Release Of particular note:
|
Xem thêm
- API:Main page – MediaWiki Action API documentation
- Wikitech: Data Services portal – A list of community-facing services that allow for direct access to databases and dumps, as well as web interfaces for querying and programmatic access to data stores.
- Enterprise hub – a page for those interested in using the MediaWiki software in corporate contexts.
- MediaWiki Stakeholders group – an independent affiliate organisation that advocates for the needs of MediaWiki users outside the Wikimedia Foundation, including for-profit enterprises.
- Enterprise MediaWiki Conference – an independent conference series for that community.