IP編輯:增強隱私和解決濫用的措施/改進工具

This page is a translated version of the page IP Editing: Privacy Enhancement and Abuse Mitigation/Improving tools and the translation is 97% complete.

背景

我们对这个项目有两个目标:

  • 首先,保护我们的项目不受破坏、骚扰、傀儡、长期破坏者、虚假宣传以及其他破坏行为的影响。
  • 其次,通过隐藏 IP 地址,保护我们的未注册编者不受迫害、骚扰和粗鲁对待。

根据项目讨论页和其他地方的对话,我们了解到以下在维基计划中使用 IP 地址的方式:

  • IP 地址对于查找“附近的”编者很有用——即相近的编者会使用同一个或相近的 IP 段
  • IP 地址可以用于查看一个未注册用户的贡献
  • IP 地址对于检查跨维基破坏很有用
  • IP 地址可以用来检查是否有人和试图通过 VPN 或 Tor 节点来编辑
  • IP 地址可以用来查看一个编者的地理位置,例如编者所属的大学、公司、政府机构等信息
  • 若能得知 IP 地址,则可以知道一个 IP 地址是否与一个已知的长期破坏者(LTA)有关
  • IP 地址在特定的过滤器中用来阻止特定的垃圾信息
  • IP 地址对于 IP 段封禁很重要

当我们尝试检查两个账户是否由同一个人使用时(亦即傀儡检测),以上的一些使用方式就会起作用。

使用 IP 进行傀儡检测是有缺陷的。随着使用网络的人和设备数量不断增加,IP 地址会变得更加动态化。IPv6 地址比较复杂而且难以计算 IP 段。对于大多数新手,IP 地址看起来就像是一串无意义的随机数字,而且难以记忆和使用。对于新手来说,需要花费大量时间和经历去适应使用 IP 地进行封禁和编辑过滤。

我们的目标是通过引入新工具减少对 IP 地址的依赖,新工具可以使用多种信息来源来找出用户之间的相似性。为了最终在无副作用的前提下隐藏 IP 地址,我们会让可见的 IP 地址作为整个过程中的冗余(以免影响现有的反破坏能力)。这也是一个开发更强大的反破坏工具的机会。

关于开发工具的构想

我们希望让用户能更轻松地从 IP 地址中获取他们需要地信息,以便完成他们地工作。为了做到这一点,我们设想了三个新工具/功能。

 
IP 信息功能示例

1. IP 信息功能

此功能目前正在工作。要继续操作,请访问:IP信息功能

IP 地址可提供一些关键信息,例如地理位置、组织、Tor/VPN 节点的可能性、反向 DNS、列出的 IP 段等。目前,如果一个编者想要查看这些信息,他们需要使用外部工具或搜索引擎来获取这些信息。我们可以将这个过程简化为向该维基上的可信用户显示这些信息。在将来 IP 地址被屏蔽的情况下,通过替代 IP 地址、用来识别匿名用户的名称仍可查询到这些信息。

到目前为止,我们与一些用户进行了沟通。从沟通中我们得知,有时要区分一个 IP 是否被用作代理或是否在黑名单中并不容易。黑名单很不可靠,有些黑名单更新不及时,有些则有误导性。我们想知道在什么场景下,能够知道 IP 是否用作代理或列于黑名单,会对你有帮助。以及目前你们是如何查找这些信息的。

优点:

  • 用户不需要将 IP 地址复制到外部工具中以取得需要的信息
  • 预计这会明显减少获取这些信息所需的时间
  • 长期来说,这会减少我们对 IP 地址这一难以理解的信息的依赖

风险:

  • 根据具体实现的情况,我们可能会有将 IP 相关的信息暴露给一大群人的风险,而不只是目前了解 IP 地址原理的少数用户。
  • 根据我们所使用的底层服务的不同,我们有可能无法提供翻译过的信息,而只能以英语显示。
  • 如果是组织、学校在编辑,而不是个人,则用户有可能会误解

2. 寻找相似的编者

为了检测傀儡账户(以及未注册用户),编者们需要花费巨大精力去调查两个用户是否是同一人。这会涉及比对用户的贡献、地理位置信息、编辑模式以及更多其他信息。此功能的目标是简化这个过程,并自动化完成其中的一些可以不需要人力的比对工作。

This would be done with the help of a machine learning model that can identify accounts demonstrating a similar behavior. The model will be making predictions on incoming edits that will be surfaced to checkusers (and potentially other trusted groups) who will then be able to verify that information and take appropriate measures.

我们可能还有方法去对比连个或更多的未注册用户,并发现其中的相似性,包括查看他们是否从相近的 IP 地址或 IP 段进行编辑。另一个可能性,是让现在我们使用的一些封禁机制自动化,例如自动 IP 段检测,以及提出广域封禁建议等。

A tool like this holds a lot of possibilities—from identifying individual bad actors to uncovering sophisticated sockpuppeting rings. But there is also a risk of exposing legitimate sock accounts who want to keep their identity secret for various reasons. This makes this project a tricky one. We want to hear from you about who should be using this tool and how can we mitigate the risks.

在社群的帮助下,这样的功能可以发展为比较两位编者的特征,而这些特征是现在比对编者时所使用的特征。还有一个可能性是训练一个机器学习模型来实现这个功能(类似于 ORES 检测不当编辑的方法)。

以下是这项功能可能的界面:

优点:

  • 这样的工具可大幅减少我们的工作人员在我们的项目中寻找不当行为者的时间和精力。
  • 这个工具也可以用来发现已知有问题的编者之间共用的 IP 段,以便封禁 IP 段。

风险:

  • 如果我们用机器学习的方法去检测傀儡账户,就要非常小心地监视它并检查训练数据中的偏差。要避免过度依赖模型给出的相似性分数。同时,傀儡查核的流程中必须含有人工审查。
  • 轻松获取诸如位置之类的信息有时可以使查找有关某人的可识别信息变得更加容易,而不是更加困难。

3. 记录长期破坏者的数据库

目前,一些长期破坏者的破坏行为是由编者手动记录在维基页面上。这些记录通常会包含他们的编辑行为、编辑的页面、识别其傀儡账户的技巧、他们使用过的 IP 地址等。由于许多记录这些破坏者的 IP 地址的页面越来越长,一旦有人需要查询相关的信息,查询的难度会变得很大。因此,更好的方法是建立专门记录这些长期破坏者的数据库。

这样的系统可以让跨维基搜索满足某一条件的记录在案的破坏者变得简单。最终,这个系统或许可以自动识别用户是否是某个长期破坏者。如果一个用户的 IP 与编辑行为被系统检测到和已知的长期破坏者相符,系统可以自动标记之,然后管理员可以采取必要的行动。关于这个数据库是否应该开放或是介于开放与不开放之间,这是仍待讨论的问题。可能可以对数据库设置多个层级的读、写权限。我们想知道您对认为的最好的工作方式,以及您的理由。

 
长期破坏者数据库可能的功能

代价:

  • 需要社群成员将现在已知的长期破坏者填入数据库。这对于某些维基来说工作量巨大。

优点:

  • 跨维基搜索记录在案的长期破坏者与现在的系统相比是一个很大的优势,减少了许多巡查工作。
  • 基于编辑模式和 IP 地址自动标记潜在的破坏者会在许多工作中派上用场。管理员可以基于这些标记来做判断和操作。

风险:

  • 如果我们建立了这样一个系统,我们必须仔细思考哪些人有权使用该数据库中的数据,以及我们如何确保数据安全。

这些设想还处在非常早期的阶段。我们希望能集思广益。是否有什么成本、收益和风险我们没有考虑到?如何改进这些想法?我们希望在讨论页看到你的想法。

现存的编辑者们使用的工具

站内工具

  • 用户查核:用户查核功能允许带有“checkuser”权限的用户查询关于用户、IP 地址及 CIDR 地址块的非公开数据。该数据包含一名用户使用的 IP 地址、使用同一个 IP 地址或 IP 段的所有用户、来自特定 IP 地址或 IP 段的所有编辑、用户代理字符串、X-Forwarded-For 请求头字段。用户查核常用来检测傀儡账户。
  • 允许用户查核员查看哪些账户所关联的邮箱关联了超过 50 个账户。这种账户在 phab:T230436 中已被证实的确存在(虽然这个 Task 本身与本主题无关)。虽然这不直接影响 IP 隐私,但也可以稍微削弱反破坏的效果。

项目专用工具(包括机器人和脚本)

请说明工具是在哪个项目上使用以及其功能。如果可以的话请附上链接。

外部工具

ToolForge 工具

第三方工具