GDJ 2007/Polska Wikipedia na tle innych wersji językowych. Ilość i jakość artykułów
Na początek garść statystyk
Podstawowe dane statystyczne
editPoniższe zestawienie w oparciu o statsy Erika Zachte - nie uwzględniona en wiki - brak danych od wielu miesięcy
pl wiki | de wiki | fr wiki | ja wiki | it wiki | es wiki | nl wiki | pt wiki | |
La - Liczba artykułów (14.09.07) | 424 K | 640 K | 557 K | 413 K | 347 K | 277 K | 347 K | 285 K |
Lu - Liczba użytkowników IV 2007 (>10 edycji) |
9 055 | 44 567 | 21 927 | 17 386 | 10 384 | 14 967 | 9 187 | 8 100 |
La/Lu IV 2007 | 41,4 | 13,2 | 22 | 21,1 | 28,1 | 15 | 31,8 | 31,4 |
Lbak -Liczba bardzo aktywnych użytkowników >100 edycji/miesiąc (IV 2007) |
342 | 1049 | 687 | 559 | 466 | 493 | 304 | 185 |
Lu/Lbak IV 2007 | 26,5 | 42,5 | 31,9 | 31,1 | 22,3 | 30,4 | 30,2 | 43,8 |
La/Lbak IV 2007 | 1096 | 562 | 898 | 654 | 626 | 456 | 960 | 1373 |
Ed/La Edycje na artykuł (IV 2007) |
15,2 | 35,8 | 24,3 | 27,6 | 18,4 | 26,8 | 19,6 | 16,1 |
Głębokość wiki (Edycje/La × Liczba nieartykułów/La) | 16 | 105 | 70 | 52 | 63 | 70 | 35 | 82 |
Ed/Lu Edycje na jednego użytkownika (IV 2007) |
629,3 | 472,6 | 534,6 | 582,4 | 517 | 402 | 623,3 | 505,5 |
>2kb - Liczba artykułów mających więcej niż 2kb (IV 2007) |
64 K 17% |
259 K 44% |
144 K 30% |
69 K 19% |
85 K 29% |
88 K 39% |
93 K 32% |
46 K 18% |
<0,5kb - stuby - poniżej 500b (IV 2007) |
83 K (22%) |
70 K 12% |
91 K 19% |
117 K 32% |
52 K 18% |
34 K 15% |
50 K 17% |
63 K 25% |
Ls - Liczba słów (IV 2007) | 83 M | 251 M | 188 M | 175 M | 102 M | 108 M | 85 M | 65,5 M |
Ls/La | 221 | 427 | 392 | 478 | 349 | 480 | 291 | 258 |
Ls/Lu | 9 166 | 5 632 | 8 574 | 1 007 | 9 823 | 7 216 | 9 252 | 8 086 |
Ls/Ed | 14,5 | 11,9 | 16 | 17,3 | 19 | 18 | 14,8 | 16 |
Lw/La - Linki wewnętrzne na jeden artykuł (IV 2007) |
16,8 | 24,5 | 21,3 | 29,5 | 20,9 | 32,1 | 16,8 | 16,1 |
Lw/Ls | 13,17 | 17,4 | 18,4 | 16,2 | 16,7 | 20,8 | 17,3 | 15,9 |
Lg/La - liczba grafik na jeden artykuł (IV 2007) |
0,34 | 0,82 | 0,64 | 0,39 | 0,58 | 0,85 | 0,58 | 0,57 |
Lg/Lupg - liczba grafik do liczby zładowanych grafik na lokalną Wikipedię |
Głębokość wiki wzięta z Listy wikipedii na meta. Dla angielskiej wiki ten wskaźnik jest równy 338 i jest najwyższy ze wszystkich wiki.
Wnioski i przypuszczenia
edit- Mamy najwięcej artykułów przypadających na wikipedystę i najmniej edycji na artykuł - wynik działania botów.
- Największa liczba artykułów przypadających na wikipedystę i najwięcej edycji na użytkownika świadczą o tym, że jesteśmy najbardziej produktywni, chociaż nie świadczy to o specjalnej efektywności - liczba słów na jednego wikipedystę jest porównywalna z innymi wersjami językowymi.
- Niski wskaźnik liczby użytkowników do liczby bardzo aktywnych użytkowników, to może być efekt działania komitetu powitalnego - jest nas mało, ale jeżeli zaczynamy działać, to się angażujemy bardziej
- Wielkość artykułów - mamy najmniej artykułów liczących >2kb, za to bardzo dużo substubów, jednak nie jest najgorzej - w ja wiki i pt wiki stosunek artykułów mających 2kb do mających 0,5kb jest gorszy
- Po pierwszej akcji botowej we wrześniu 2005 % artykułów z 2kb spadł z 21% do 15%, ale na zmianę % artykułów <0,5kb nie miało to wpływu.
- Biorąc pod uwagę ilość słów przypadających na artykuł - także znajdujemy sie na ostatnim miejscu - prawdopodobnie nie jest to wynikiem zwięzłości języka (chyba, że linkowaniem zastępujemy szersze omówienie problemu dotyczącego linkowanego pojęcia)
- Marnotrawstwo - tu podobnie jak w innych wersjach - na jedną edycję przypada 14,5 słowa, w niemieckiej jest jeszcze mniej, ale Włosi w jednej edycji dodają więcej słów - 19. Być może wynik poprawiłby się, gdyby uniknąć akcji jednorazowych - sortowanie stubów, dodawanie kategorii bez innych poprawek w artykule. Potrzebny byłby większy nacisk na kulturę edycji - stosowanie podglądu itd. Chociaż to może nie jest najbardziej pilna sprawa.
- Hipertekst - na jeden artykuł przypada u nas 16,8 linka wewnętrznego, to raczej mało - duże Wikipedie mają powyżej 20, jedynie holenderska i portugalska (najmniejsze z powyższych) mają mniej.
- Gęstość hipertekstu - tutaj brylujemy - jest niebiesko, może aż za bardzo - na 13,2 słowa przypada jeden link - w innych zaczyna się od 16, w es co 21 słowo jest linkiem. Tu być może tez potrzebny większy nacisk na to, by nie linkować kilkukrotnie do tego samego hasła - problem kryptospamu.
- Ilustrowanie artykułów - tu też nie najlepiej - na jeden artykuł przypada 0,34 grafiki, w niemieckiej czy hiszpańskiej powyżej 0,82. Biorąc pod uwagę, że w wielu jest po kilka grafik - mamy całe morze niezilustrowanych artykułów. Co dziwne - mało grafik jest też w ja wiki.
Hasła medalowe
editStan na połowę lipca
edit- Featured articles - zajmujemy 7 miejsce pod względem ilości medalowych artykułów. W każdej nas wyprzedzającej jest praktyka usuwania medali, choć zasady konsensusu skłaniające się ku głosowaniom.
- Jeżeli chodzi o o stosunek liczby medalowych artykułów do ogólnej liczby artykułów, to jesteśmy w ogonie peletonu, na 21 miejscu.
Stan na koniec sierpnia
edit- Po uwzględnieniu kilku dalszych Wikipedii mających FA, zajmujemy nadal 7 pozycję - poza wersjami angielską, niemiecką i francuską, więcej FA mają też wersje hiszpańska, włoska i hebrajska.
- FA/Liczba wszystkich artykułów - tu zajmujemy 24 miejsce, ale to przez te dopisane Wikipedie. Wyprzedziliśmy wersję francuską, indonezyjską i katalońską.
I co z tym dalej?
edit- Można zaproponować na meta ujednolicenie procedury przyznawania medali, by ograniczyć "ślepe" głosowania.
- Mniej istotne, ale ciekawie jest to zrobione w wersji hiszpańskiej, gdzie, jeśli nie ma kworum, to głosowanie przedłuża się o tydzień
- W większości wersji konsens ustalany jest przez dwa, trzy tygodnie. To może być za mało na wyłapanie błedów. U nas jest straszne ... jeżeli ktoś zauważy błędy na kilka dni przed końcem głosowania.
- Można FA wykorzystać dla promocji Wikipedii. Jak?
Dobre artykuły
editU nas ta procedura dopiero ruszyła, ale w ciągu ponad 2 miesięcy mamy 46 artykułów (stan na 28 sierpnia). Tempo może zacząć spadać, bo na razie to jest jeszcze penetrowanie tych 400 000 haseł jakie mamy w poszukiwaniu kandydatów.
- Good articles - w tym przypadku tylko wersje fińska i francuska mają podobnie jak polska mniej GA niż FA. Jeżeli chodzi o stosunek GA do wszystkich jesteśmy na końcu, ale dopiero wystartowaliśmy z dobrymi artykułami.
I co dalej?
editDobre artykuły nie wiszą na głównej stronie, więc mogą wydawać się zbędne ich szabloniki, ale każdy z nich łatwiej jest doprowadzić do wersji medalowej, niż jakis wybrany artykuł.
- Co można zrobić:
- Można uruchomić jakąś inicjatywę rozbudowy tych artykułów w Wikiprojektach
- Można zrobić specjalny projekt do oceniania, czego tym artykułom jeszcze brakuje - coś podobnego jak kanon.
- ...
Spam?
editExternal links - ciekawie wygląda porównanie różnych wersji językowych pod względem linków zewnętrznych. Przypuszczać można, że w Wikipediach, w których działają boty podejrzewające spam, liczba linków zewnętrznych, a właściwie wzrost tej liczby będzie maleć. Tu trzeba wziąć poprawkę na nadgorliwych użytkowników, którzy będą bezkrytycznie usuwać przydatne linki zewnętrzne.
Jak to wygląda w poszczególnych wersjach językowych:
- Linki zewnętrzne - patrząc na większe Wikipedia, mamy najmniejszy wskaźnik wzrostu 1% miesięcznie w stosunku do wzrostu liczby artykułów 3%. Mimo to, w większość Wikipedii na jeden artykuł przypada jeden link. Biorąc pod uwagę często wykorzystywane źródła internetowe, nie mamy jakiegoś strasznego zalewu linków zewnętrznych. Bardziej drastycznie wyglądało to w en wiki rok temu, ale teraz nie ma nowych statsów.
Test Wikipedii
editOpis eksperymentu
editZrobiłem następujący test jakości Wikipedii (na razie tylko pl):
- Losowałem 100 artykułów - pomijałem arty czysto techniczne (rediry, przekierowania)
- Aby ocena była w miarę obiektywna dawałem punkty za:
- Stopień rozwinięcia (od 0 - ultrastub do 6 - medalowy)
- NPOV (od 0 do 1)
- Formatowanie (od 0 do 1)
- Uźródłowienie (od 0 do 1)
- Linkowanie (od 0 do 1)
- Styl (od 0 do 1)
- Ilustracja (od 0 do 1)
- Błędy (od 0 do -2)
Następnie sumowałem punkty. Maksymalnie art mógł dostać 12 punktów jak łatwo policzyć. Oprócz tego notowałem też dziedziny, których arty dotyczyły oraz to czy art był utworzony przez bota czy przez człowieka.
Rezultaty
editPolska Wikipedia
editŚrednie oceny wszystkich artykułów:
- Rozwinięcie: 1.23 (jak widać większość ze 100 artów, to był stuby lub lekko rozwinięte stuby)
- NPOV: 0.896 (jak widać nie jest tak źle 89% artów było NPOV)
- Uźródłowienie: 0.153 (tylko 15% artów jest uźródłowiona)
- Formatowanie 0.774 (77% artów ma poprawne formatowanie)
- Linkowanie 0.88 (88% artów ma zadowalające i poprawne linkowania)
- Styl 0.778 (78% artów jest napisana w miarę poprawną polszczyzną i utrzymuje encyklopedyczność stylu)
- Ilustracja: 0.14 (tylko 14% artów jest choćby minimalnie zilustrowana)
- Błędy 0.11 (ok 11% artów ma łatwo zauważalne na pierwszy rzut oka błędy literowe lub merytoryczne)
- Średnia 4.741 (na maks: 12, czyli 39% maksymalnej oceny)
Te same dane dla artów z pominięciem botowych (botowych było 34):
- Rozwinięcie: 1.87 (ciut lepiej, bo botowe to wszystkie są stubami - ale nadal poziom stubizacji jest bardzo wysoki)
- NPOV: 0.84 (trochę gorzej, ale nie tak źle - botowe oczywiście wszystkie były NPOV)
- Uźródłowienie: 0.17 (trochę lepiej, ale nadal nędza)
- Formatowanie 0.67 (tu gorzej, ale nie tak tragicznie - botowe oczywiście są wszystkie poprawnie sfromatowane)
- Linkowanie 0.81 (jak wyżej)
- Styl 0.66 (tu już dużo gorzej - widać, że ludzie piszą gorzej od botów)
- Ilustracja: 0.21 (a tu znacznie lepiej - bo te wszystkie botowe nigdy nie są ilustrowane)
- Błędy 0.17 (boty nie robią błędów)
- Średnia 5.1 (43% - a jednak ludzie są lepsi od botów)
Dziedziny (próbka 100 jest pewnie za mało, żeby te dane były wiarygodne - ale przynajmniej daje to jakiś obraz):
Z botem
- Geografia 32
- Biografia 21
- Religia 6
- Astronomia 5
- Sport 5
- Biologia 4
- Historia 3
- Sztuka 3
- Literatura 2
- Oświata 2
- Technika 2
- Transport 2
- Biznes 2
- Gry komputerowe 1
- Humanizm 1
- Imię 1
- Językoznawstwo 1
- Kalendarium 1
- Matematyka 1
- Medycyna 1
- Muzyka 1
- Psychologia 1
- Wojskowość 1
- Życie codzienne 1
bez bota:
- Biografia 21
- Religia 6
- Geografia 5
- Sport 5
- Biologia 4
- Historia 3
- Sztuka 3
- Literatura 2
- Transport 2
- Biznes 2
- Oświata 1
- Technika 1
- Gry komputerowe 1
- Humanizm 1
- Imię 1
- Językoznawstwo 1
- Kalendarium 1
- Matematyka 1
- Medycyna 1
- Muzyka 1
- Psychologia 1
- Wojskowość 1
- Życie codzienne 1
Wnioski: Polska Wikipedia to może nie jest botopedia - ale jest zdecydowanie stubopedią. Nie jest tak źle z NPOV, stylem i linkowaniami - ale jest fatalnie z uźródłowieniem i ilustrowaniem.
Anglojęzyczna Wikipedia
editŚrednie oceny wszystkich artykułów:
- Rozwinięcie: 2,2 (prawie dwa razy lepiej niż polska)
- NPOV: 0.83 (wobec 0,89 w polskiej - ale to chyba skutek większego ubotowienia)
- Uźródłowienie: 0,44 (wobec 0,15 polskiej)
- Formatowanie 0.77 (prawie identycznie z polską - 0,77 też.)
- Linkowanie 0.79 (wobec 0,88 w polskiej - arty w en. są generalnie mniej polinkowane niż w pl.)
- Styl 0.77 (wobec 0,78% w pl - prawie tak samo)
- Ilustracja: 0.23 (wobec 0.14 w pl - w en jest prawie dwa razy lepiej - ale to po części efekt zezwolenia na fair use)
- Błędy 0.105 (wobec 0,11 w pl - prawie to samo - ale trzeba wziąć pod uwagę, że w en znalezienie błędów językowych jest dla mnie trudniejsze niż w pl.)
- Średnia 5,93 (wobec 4.74 w pl)
Dziedziny:
- Biografia 24
- Muzyka 14
- Geografia 8
- Biologia 7
- Film 6
- Internet 5
- Wojskowość 5
- Oświata 4
- Architektura 2
- Ekonomia 2
- Medycyna 2
- Astronomia 2
- Gry komputerowe 2
- Życie codzienne 2
- Media 2
- Literatura 2
- Technika 2
- Religia 2
- Sztuka 2
- Matematyka 2
- Prawo 1
- Sport 1
- Historia 1
Jak widać w en jest bardziej zrównoważony skład tematyczny. Rzuca się w oczy - że jest mniej artów na tematy religijne a znacznie więcej na tematy muzyczne i filmowe.
Ze względów na to, że botowych artów było tylko 6 - nie ma sensu dawać statystyki z botowymi i bez.
Wnioski końcowe
editJakość Wikipedii en jest zdecydowanie wyższa od pl - choć nie jakoś skrajnie drastycznie. Najbardziej rzucającymi się w oczy plusami na korzyść en są:
- dużo mniej stubów i artów wykonanych przez boty
- bardziej równomierny rozkład reprezentacji dziedzin
- zdecydowanie wyższy poziom uźródłowienia
- dużo większy stopień zilustrowania
W czym Pl jest lepsza:
- liczbowo jest nieco lepsza w NPOVie - ale psychologiczne odczucie jest takie, że polska jest zdecydowanie bardziej NPOV - choć to po części skutek dużego ubotowienia
- linkowanie - w pl. arty są zdecydowanie obficiej linkowane niż w en. - czy to jednak dobrze? może przesadzamy z linkowaniem?
Z czego wynikają słabe statsy?
edit- Jaki jest trend?
- ...
- Co można zrobić, by było lepiej - najpilniejsze kwestie
- ...