Edytowanie przez IP: Zwiększenie prywatności i przeciwdziałanie nadużyciom/Ulepszenie narzędzi
Wprowadzenie
Nasz cel jest dwojaki:
- Po pierwsze, chronić nasze projekty przed wandalizmami, nękaniem, pacynkami, uciążliwymi wandalami, dezinformacją i innymi szkodliwymi działaniami.
- Po drugie, chronić niezalogowanych użytkowników przed prześladowaniem, nękaniem i innymi nadużyciami poprzez nieujawnianie ich adresów IP.
Na podstawie naszych rozmów na stronie dyskusji projektu zebraliśmy następujące zastosowania zbierania adresów IP:
- wyszukiwanie redaktorów przebywających w pobliżu
- sprawdzenie wkładu użytkownika niezarejestrowanego
- sprawdzenie wkładu cross-wiki
- określanie, czy ktoś edytuje z VPN lub Tor
- określenie lokalizacji użytkownika, a także ciekawostek, takich jak jego uniwersytet/firma/agencja rządowa
- powiązania z uciążliwymi użytkownikami
- niektóre filtry nadużyć wykorzystują je do blokowania określonych rodzajów spamu
- blokowanie zakresów
A number of these workflows come into action when we are attempting to see if two user accounts are being used by the same person, sometimes called sockpuppet detection. Using IP addresses to perform sockpuppet detection is a flawed process. IP addresses are getting increasingly dynamic with the increase in the number of people and devices coming online. IPv6 addresses are complicated and ranges are difficult to figure out. To most newcomers, IP addresses appear to be a bunch of seemingly random numbers that don’t make sense, are hard to remember and difficult to make use of. It takes significant time and effort for new users to get accustomed to using IP addresses for blocking and filtering purposes.
Our goal is to reduce our reliance on IP addresses by introducing new tools that use a variety of information sources to find similarities between users. In order to ultimately mask IP addresses without negatively impacting our projects, we have to make visible IP addresses redundant to the process. This is also an opportunity to build more powerful tools that will help identify bad actors.
Pomysły na narzędzia do stworzenia
Chcemy ułatwić użytkownikom pobieranie informacji, do którego dotychczas wykorzystywali informacje możliwe do ustalenia na podstawie IP tak aby mogli wykonywać swoją pracę. Aby to uczynić, proponujemy stworzenie trzech nowych narzędzi.
1. Informacja o IP
Ta funkcja jest w trakcie tworzenia. Aby śledzić jej rozwój, zobacz: IP Info Feature.
Jest kilka ważnych informacji które dostarcza adres IP. To m.in. lokalizacja, organizacja, korzystanie z Tor/VPN, rDNS. Obecnie, jeżeli użytkownik chce zobaczyć te informacje o adresie IP, musi on skorzystać z zewnętrznego narzędzia lub wyszukiwarki internetowej. Możemy uprościć ten proces poprzez wyświetlanie tych informacji zaufanym użytkownikom bezpośrednio na wiki. W przyszłości, gdy adresy IP będą maskowane, te informacje będą nadal wyświetlane, ale dla maskujących nazw użytkowników.
Jedna obawa dotyczy tego, że nie zawsze da się łatwo ustalić, czy dany IP wychodzi z VPN lub znajduje się na czarnej liście. Czarne listy są wrażliwe – niektóre nie są aktualizowane, inne mogą wprowadzać w błąd. Chcemy dowiedzieć się, w jakich sytuacjach pomocna informacją dla ciebie jest, czy IP wychodzi z VPN lub znajduje się na czarnej liście oraz jak poszukujesz tych informacji teraz.
Korzyści:
- Wyeliminuje to konieczność przeklejania adresów IP do zewnętrznych narzędzi celem wyciągnięcia potrzebnych informacji.
- Ograniczenie czasu potrzebnego na zbieranie danych.
- W dłuższej perspektywie zmniejsza zależność od adresów IP, które sa trudne do zrozumienia.
Zagrożenia:
- W zależności od implementacji, ryzykujemy ujawnieniem informacji o IP większej grupie osób niż tylko ograniczona grupa użytkowników będąca świadoma jak działają adresy IP.
- W zależności od serwisów na których będziemy polegać przy pobieraniu szczegółowych informacji o IP możliwe jest, że nie będziemy mogli dostarczyć przetłumaczonych informacji, czyli będą one pokazywane po angielsku.
- Istnieje ryzyko, że użytkownicy nie zrozumieją że za edycją stała organizacja/szkoła, a nie osoba indywidualna, która ją wprowadziła.
2. Znajdywanie podobnych użytkowników
Aby wykrywać pacynki redaktorzy muszą przejść długą drogę aby stwierdzić, że dwaj użytkownicy to ta sama osoba. Obejmuje to porównywanie wkładu, informacji o lokalizacji, wzorce edycyjne i wiele innych. Celem tej funkcji jest ułatwienie tego procesu i zautomatyzowanie tych porównywań, które da się wykonać bez ręcznej pracy.
This would be done with the help of a machine learning model that can identify accounts demonstrating a similar behavior. The model will be making predictions on incoming edits that will be surfaced to checkusers (and potentially other trusted groups) who will then be able to verify that information and take appropriate measures.
We could potentially also have a way to compare two or more given unregistered users to find similarities, including seeing if they are editing from nearby IPs or IP ranges. Another opportunity here is to allow the tool to automate some of the blocking mechanisms we use – like automatic range detection and suggesting ranges to block accordingly.
A tool like this holds a lot of possibilities—from identifying individual bad actors to uncovering sophisticated sockpuppeting rings. But there is also a risk of exposing legitimate sock accounts who want to keep their identity secret for various reasons. This makes this project a tricky one. We want to hear from you about who should be using this tool and how can we mitigate the risks.
With the help of the community, such a feature can evolve to compare features that editors currently use when comparing editors. One possibility is also to train a machine learning model to do this (similar to how ORES detects problematic edits).
Here’s one possibility for how such a feature might look in practice:
-
Finding similar editors with IPs
-
Finding similar editors with masked IPs
Korzyści:
- Takie narzędzie znacznie ograniczy czas i wysiłki poświęcane przez osoby funkcyjne na wyszukiwanie użytkowników działających w złej wierze.
- To narzędzie będzie można także wykorzystać do wyszukiwania wspólnych zakresów dla dwóch problemowych użytkowników, aby ułatwić nakładanie blokad zakresów IP.
Zagrożenia:
- If we use Machine Learning to detect sockpuppets, it should be very carefully monitored and checked for biases in the training data. Over-reliance on the similarity-index score should be cautioned against. It is imperative that human review be part of the process.
- Easier access to information such as location can sometimes make it easier, not more difficult, to find identifiable information about someone.
3. Baza dokumentująca uciążliwych użytkowników
Uporczywi wandale są ręcznie opisywani na wiki o ile w ogóle są. Obejmuje to opis ich zachowań edycyjnych, artykułów, które edytują, sposoby rozpoznawania pacynek, wymienienie wszystkich używanych IP. Z rozsianymi po różnych stronach adresami IP trudno jest wyszukiwać informacje. Lepszym sposobem jest zbudowanie specjalnej bazy danych do ich dokumentowania.
Such a system would facilitate easy cross-wiki search for documented vandals matching search criteria. Eventually, this could potentially be used to automatically flag users when their IPs or editing behaviors are found to match those of known long-term abusers. After the user has been flagged, an admin could take necessary action if that seems appropriate. There is an open question about whether this should be public or private or something in-between. It is possible to have permissions for different levels of use for read and write access to the database. We want to hear from you about what would you think would work best and why.
Koszty:
- Taka baza wymagała by uczestnictwa społeczności w jej zapełnianiu dotychczas znanymi uporczywymi wandalami. Dla niektórych wiki to może być dużo pracy.
Korzyści:
- Cross-wiki search for documented long-term abusers would be an enormous benefit over the current system, reducing a lot of work for patrollers.
- Automated flagging of potentially problematic-actors based on known editing patterns and IPs would come in handy in a lot of workflows. It would allow admins to make judgements and actions based on the suggested flags.
Zagrożenia:
- Po zbudowaniu takiego systemu musimy mocno zastanowić się, kto powinien mieć dostęp do tych danych i jak trzymać jej bezpieczeństwo.
These ideas are at a very early stage. We want your help with brainstorming on these ideas. What are some costs, benefits and risks we might be overlooking? How can we improve upon these ideas? We’d love to hear from you on the talk page.
Dotychczasowe narzędzia wykorzystywane przez redaktorów
Narzędzia wbudowane w wiki
- CheckUser: CheckUser allows a user with a checkuser flag to access confidential data stored about a user, IP address, or CIDR range. This data includes IP addresses used by a user, all users who edited from an IP address or range, all edits from an IP address or range, User agent strings, and X-Forwarded-For headers. Most commonly used for detecting sockpuppets.
- Allow checkusers to have access to which users have over 50 accounts on the same email. The existence of those was confirmed in phab:T230436 (although the task itself is irrelevant). While this does not affect the IP privacy directly, it could slightly mitigate the effect of harder abuse management.
Narzędzia specyficzne dla projektu (także boty i skrypty)
Please specify what project the tool is used on, what it does and include link if possible
Narzędzia zewnętrzne
Narzędzia w ToolForge
- Intersect contribs
- WHOIS and reverse DNS
- Editor interaction analyser – Analyse interactions between two or three users – activity on same pages, during the same time etc.
- IPCheck: Allows you to look up information about an IP address including if it is a a proxy, tor node or potential VPN.
- GUC – Global user contributions for any user.
- Reverse DNS for a range
Narzędzia spoza wiki
- Major IP address blocks: http://www.nirsoft.net/countryip/cz.html
- User agent string lookup: http://www.useragentstring.com/
- Nmap
- Spamhaus lists and XBL (Exploits blacklist)
- Talos – IP reputation (mainly for email spam)