2026 年 3 月下半旬,我在博客上部署了一套私有的统计系统。动机很简单:我在用的广告拦截器会把我正在用的那套分析系统 GoatCounter 拦截掉,导致我没有办法在手机上方便地看到博客的流量信息。为了应付这事情,我就自己稍稍改了一个开源版本的统计系统,部署到了 Cloudflare 上,方便我每天睡前躺在床上看一看博客的流量构成。
部署上去的当天晚上,或者是第二天,我立刻就看到了一个非常诡异的流量尖峰。这个流量尖峰会把我博客上面所有的文章全都爬一遍,就跟和尚念经一样,准时准点,从头到尾。而且是一个基于 Chrome 的,能跑 JavaScript 的自动化脚本。
实际上这件事情已经发生了很久了。我在 Netlify 上有访问日志,日志不会告诉我具体的 IP,但每天 9 点到 10 点这段时间都会有 12,000 到 13,000 条请求。而在这个时段之外,每个小时基本上是 1,000 左右。这个东西对我的 host 造成的压力可想而知,而且这个流量尖峰每天都会出现。
这件事情让我觉得非常怪异。更妙的是,在 GoatCounter 上完全看不到这个访问尖峰。但我私有化部署的这套分析系统把这个人抓到了,这意味着这个爬虫脚本利用了某种技术手段把常见的统计脚本屏蔽掉了,或许是出于隐藏自己的目的。而且 CloudFlare 的 Bot Filter 也过滤不掉它,因为 CF 那边记录的 Bot Score 是 99 分,证明这个 bot 的行为模式和人类很像。Anyway, very tricky, 但还是被我抓到了。
追踪 IP
我改了一下博客的统计代码,在里面纳入了 IP 分析,等待第二天这个人上钩,继续爬我博客上面的所有文章。这次,我抓到了他的 IP。
群里的朋友发动各自善用的分析工具,共同建立了一个完整的肖像:这个 IP 上面有腾讯的员工在给 Linux 社区发 patch,Email 后缀域名是 @tencent.com。我们还顺着看到了他的 GitHub 帐号,以及私人邮箱。
这个 IP 非常脏,里面有很多黑产行为,比如 XSS 攻击、SQL 注入攻击,被长亭的蜜罐抓过好多次。这个「腾讯员工」的 IP 上面甚至还 host 了一个幻兽帕鲁的服务器,甚至绑定过几个域名。我们当时猜测:一个腾讯员工,跟运营商固定了自己的宽带,然后在自家搭了一个 Home Lab,这人要么足够蠢用自己的 IP 做黑产,要么足够蠢,被人当了肉鸡。
我给这个人的工作邮箱发了邮件,并邮件里抗议,表示你不可以这样对我的网站,这给我造成了很大的负担。
我的邮件没有得到任何回复,而且第二天流量尖峰又来了。前一天我已经把这个 IP 屏蔽了,但是第二天又冒出来两个新 IP。回去一查,依然和腾讯员工有关:依然是在 Linux 社区里发 patch 的腾讯员工,一个是实习生,一个是正式员工。一切变得更怪了。
我非常疑惑,难道是腾讯员工在用自己的家宽来做爬虫吗?这些人究竟在合起伙来干什么?我去查 IP 归属地,全部都是商圈、住宅区,但 IP 定位可能不是很准,所以我脑子里面全都是问号。
腾讯内部介入
我把这件事情发到了群里,一个腾讯员工立刻联系到我,问我方不方便把这三个人的邮箱发给他,他在内网帮我核实一下。他找到了这三个人当中的一个,向这个人确认,这个人说他没有做这样的事情,跟他没有关系。
然后这位群友帮我确认了:这是腾讯办公网络的出口,意味着是腾讯内部的员工在做这件事情,但不是这三个人。
这也意味着,我们之前建立的所有关于那个 IP 的「肖像」跟这件事情没有关系。整个 IP 是几千人共用的出口,脏记录是所有人的叠加,任何一个用公司网络发过邮件的人都可能出现在里面。我们当时怀疑的那个人,很可能和这件事完全无关 [1]。
他问我要不要跟 IT 部门商量,把我的博客访问从内网切掉。他当时的理解是,内网有很多同事访问我的博客,可能会给我造成流量压力,如果我觉得这是个问题,就在 IT 系统里把我博客访问切掉。
但我解释:不是这样的。是有一个人每天早上 9 点,像按表操课一样在爬我博客的每一篇文章,做归档,所有的图片做一遍请求,这并不是一个正常的流量访问。你们员工来看我的博客,我完全欢迎;如果你们全员来朝圣我的博客,我也会非常开心,这个流量我愿意花。如果直接切了腾讯内网对我博客的访问,这样对腾讯内部员工不公平,对我也不公平。
但这很明显是我在为一件不值当的事情付出我的流量,因为 Netlify 每个月到月底的时候,我的流量基本上都会被爬到见底,这个恼人的爬虫一直在把我的博客推向被 Netlify 切断访问的边缘。
我还额外提供了一条信息:我的一个朋友的博客每天也在出现这个问题:同一个人,用一个能跑 JavaScript 的模拟浏览器,每一天在不停地爬他博客上面的每一篇文章,只看了两秒就关闭博客转而去爬下一篇博客,爬取时间跟我的记录就是前后脚。
到底在干什么?
我们非常困惑,这个人究竟在干什么,还是腾讯当中的某一个组在干什么?你们在用我博客的数据训练模型吗?还是你们觉得我这个人有风险,每天在盯着我?还是腾讯当中的某一个员工仓鼠症大爆发,每天一定要看到我博客有什么东西更新了?
哪怕是在训练大语言模型,我觉得也犯不上每天把所有的文章都爬一遍,很明显增量爬取才是一个更加务实的行为。如果是拿来训练模型的话,这个模型到底对我有多饥渴,是多希望变成我的形状?
我暂时还没有得到正面答复。腾讯的 IT 部门也是第一次听说这样的事,完全没有配过对应的拦截策略。最终我得到的答复是,IT 部门找到了这个人,这个人已经把爬虫停了,明天不会再有这个流量尖峰了。
但是就这样。没有任何解释。
我理解,如果我要求腾讯当中的某一个人出来解释这件事情,那是在给他套一个自证陷阱,他自己也百口莫辩。你跟我说你没有恶意,你又凭什么说你没有恶意?你拿什么材料佐证?但如果没有一个人出来说,只是说我把这个 bot 掐掉了,我也觉得很不舒服。毕竟我被祸害了我这么长时间,却连个说法都没有,这对我不公平。
但以你我对于腾讯的刻板印象,发生这件事情,你我都不意外,对吧?
关于 AI 爬虫,我的态度
事实上,我个人对于 AI 爬虫或者 Google 那种爬虫,反倒没有那么反感。
很多人都会说,AI 学习了你,它造出来了一个全新的你,你的价值就被取代了。但我抱持相反且乐观的态度:我们这一代人正在见证一个非常奇异的时刻,我们正在构建一个和人类集体智慧有关的模型,我不想错过它。我非常愿意加入这个 party,让我的智慧产出变成全人类共有资产的一部分。
我深知各大模型厂商大多数都会用它来盈利,但说实话,你我也在大量白嫖他们的运算资源。绝对会有大量的人这一辈子都不会给任何一个模型厂商付费,但是我们都在免费用他们的模型。他们在向我们提供善意,或者说至少是免费的服务,而我作为创作者提供一些供养模型的养料,这是一个相当公平的买卖。
你可能说,他们只是为了推高自己的盈利才提供免费服务,这是一个为了获取盈利而埋下的 hook,他们是商人,商人逐利商人不讲道义和人性。But I don't care。从结果来讲,它让普通老百姓获益了,让普通人有机会接触到这些又高级又前沿的东西,让这个社会变得更好了(当然,滥用 AI 产生 AI slop 是另外一个问题,那是 AI 教育的问题)。只要他们做了正确的事情,就结果而言一切都是良善的,对我来讲就足够了。
我间接性地把我的智慧分享给了所有人。虽然它被剪碎了,它变成了流体,里面没有我的名字,没人向我致以谢意。但 Again,我没那么在乎这个 Credit。我不觉得大语言模型剽窃了我什么东西,因为它是真的把我的东西学习走了,并且把我的思想传递出去了。只要它没有直接把我的工作 copy and paste,没有在做低端洗稿,对我来说这就不是剽窃,而是学习。作为一名教育工作者,我教育了一个非常伟大的东西,这是一件让我感到非常自豪的事。
所以我没有很介意大语言模型来爬我的数据,相反的,我非常欢迎这个行为。甚至如果你能够把你的模型开源,或者至少做一两个开源的模型贡献给社区,我认为这就是极好的事,因为它能够更加让我直观地触摸到我的智慧对什么东西产生了影响。
当然如果不做这件事情(比如说 Claude 从来没开源过半个模型),只要提供了免费的服务,我也算是勉强我可以接受。
我不会指责任何一个让社会受益的 AI 厂商。
但我们回到腾讯的这个 case 上,很明显这不是一个 fair use,这不是对我博客内容的公平使用。
如果你只是为了满足你自己的仓鼠症,你真的对我有那么饥渴吗?你真的对我身边的朋友那么饥渴吗?你每天都要把我们的文章从上到下舔一遍才能开始工作?真的有必要这么色情吗?这件事情对谁有好处?
是的,可能对任何人都没有好处。我的流量配额损失了,Netlify 为我付了毫无必要的流量账单。我并没有因此变成这个社会当中更好的公民,这个社会没有因此向前走一步。
如果你没有每天从头到尾把我的文章读一遍,只是自动化地爬取,那这意味着对你来讲也没有什么好处,它只是为了满足你自己的某种欲望、某种情感、某种技术上的优越感,以一种非常愚蠢的技术手段来创造一种毫无价值的 Vibe。
此外,如果这是腾讯当中的某一个组在做的事情,或者是腾讯的意志,那这就是另外一个层面的问题了,但很明显我拿不出这个层面的证据。
关于隐私的矛盾
长久以来,我博客的统计系统用的都是 GoatCounter。我完全没有用 Google Analytics,没有用任何可能会让你觉得不舒服的分析方法。我用的分析系统对于用户来讲完全是开源透明的,它不在你的电脑上埋 cookie,用的是纯粹的数据建模来记录访问,没有任何细致的行为数据被记录,拿到的只是一个非常模糊的数据,能够让我看到流量是怎么进来的、怎么出去的,仅此而已。
哪怕你用了 Adblock,用了 tracker block,我都觉得 OK,你如果不想被 track,let it go,我尊重你,我不在乎数据是否完整。
但是腾讯方面逼迫我必须要在这段时间里细致地记录访客的所有行为。这让我非常不舒服。如果我不做这个记录,我抓不出来这个人是腾讯的;但如果我记录了,这意味着我的访客的隐私权被侵犯了。
我必须要做这件事情来保护我的网站,这让我内心觉得非常矛盾。我唯一能做的,是在这件事情翻篇之后,在看不到这个流量尖峰之后,把这些数据全部匿名化、或者彻底抹掉。
我希望腾讯方面能够意识到,你们逼迫我做了一件在我看来很不道德的事情,让我觉得非常不舒服,我觉得有人需要为此做一些基本的解释。
结语
借着这个特别的事情,简单讲了讲我对流量、爬虫、AI 的看法,以及 AI 时代一个社会公民如何参与公众实践的个人态度。我个人认为,自己的写作被纳入大语言模型的整个过程,也是一个公民参与社会实践的过程。我们感受到自己在推动这个文明的发展,尽管这力道仅如半只蚂蚁。
尽管力量微小,但我感受到一种前所未有的参与感,这让我感受到自己是人类共同体的一员,这让我觉得非常的骄傲和非常的快乐。
以上今天就是今天的分享,莉莉爱你 ♥。
但是比较微妙的事情是的,我们依然不知道为什么这三个 IP 都被长亭的 IP 库记录了不止一次恶意攻击行为。 ↩︎


Loading comments...