一场由AI大公司疯狂爬虫引发的风波在手游界悄然掀起,不少小型手游公司因此遭受了无辜的损失,这场风波不仅揭示了AI公司在数据收集方面的无序状态,更让小公司在面对巨头时显得无力与无奈。
事情起源于OpenAI的一款名为GPTBot的爬虫工具,GPTBot是OpenAI早年间推出的一款自动抓取整个互联网数据的工具,其强大的数据抓取能力在近期引发了一场不小的风波,一家名为Triplegangers的7人团队手游公司,近日突然遭遇网站宕机的困境,CEO和员工们紧急排查问题,最终发现罪魁祸首竟是OpenAI的GPTBot,这款爬虫工具在短时间内发送了数以万计的服务器请求,试图下载Triplegangers网站上的所有内容,包括数十万张照片及其详细描述,由于Triplegangers网站包含从实际人类模型扫描的3D图像文件,并且照片还带有详细的标签,涵盖种族、年龄、纹身与疤痕、各种体型等信息,这对于需要数字化再现真实人类特征的手游制作者等,无疑具有重要价值,正是这些高质量的数据吸引了GPTBot的疯狂抓取。

Triplegangers的CEO表示,OpenAI的爬虫攻势堪比DDoS攻击,不仅导致了网站宕机,还引发了大量的CPU使用和数据下载活动,使得网站在云计算服务(AWS)方面的资源消耗剧增,开销大幅增长,这位CEO无奈地表示:“AI大公司疯狂爬虫,却由小公司来买单。”Triplegangers团队在分析了上周的日志后,进一步发现OpenAI使用了不止600个IP地址进行数据抓取,如此规模的爬虫活动,对于一家小型手游公司来说,无疑是难以承受的。
Triplegangers并不是唯一一家因OpenAI疯狂爬虫而遭受损失的公司,在此之前,还有一家名为Game UI Database的手游公司也遭遇了类似的困境,Game UI Database是一家收录了超56000张游戏用户界面截图的在线数据库,供手游设计师参考,有一天团队突然发现网站加载速度变慢,页面加载时间延长三倍,用户频繁遭遇502错误,首页每秒被重新加载200次,他们一开始也以为是遭到了DDoS攻击,但经过日志分析后发现,真正的罪魁祸首是OpenAI的爬虫工具,每秒2次的查询频率,让Game UI Database的网站几乎瘫痪。

除了OpenAI之外,其他AI大公司也存在类似的爬虫行为,Anthropic此前也被曝出类似的事情,数字产品工作室Planetary的创始人Joshua Gross曾表示,他们给客户重新设计的网站上线后,流量激增,导致客户云成本翻倍,经过审计发现,大量流量来自抓取机器人,主要是Anthropic导致的无意义流量,大量请求都返回404错误,这些AI大公司的爬虫行为,无疑给小型手游公司带来了巨大的压力和损失。
面对AI大公司的疯狂爬虫行为,小型手游公司显得无力与无奈,他们无法像大公司那样拥有强大的技术实力和资源来应对爬虫攻击;即使他们采取了相应的防护措施,也很难完全避免被爬虫工具抓取数据,Triplegangers的CEO在事后表示,他们原本以为在网站上设置了服务条款页面,明确禁止未经许可的AI抓取图片,就可以避免类似的事情发生,事实证明这并没有起到任何作用,重点在于,他们没有正确配置一个名为robots.txt的文件。
robots.txt也称为机器人排除协议,是为了告诉搜索引擎网站在索引网络时不要爬取哪些内容而创建的,如果一个网站不想被OpenAI等AI公司的爬虫工具抓取数据,就必须正确配置robots.txt文件,并带有特定标签,明确告诉爬虫工具不要访问该网站,即使正确配置了robots.txt文件,也不能立即生效,因为OpenAI等AI公司识别更新这个文件可能需要24个小时甚至更长时间,这就意味着,在这段时间内,网站仍然有可能被爬虫工具抓取数据。
对于小型手游公司来说,这无疑是一个巨大的隐患,他们不仅要面对来自AI大公司的爬虫威胁,还要承担因此产生的额外开销和损失,一些网友对此表示愤怒和不满,认为GPTBot等爬虫工具的做法并不是抓取数据,更像是“偷窃”的委婉说法,也有网友表示,自从阻止了大公司的批量AI爬虫后,省了一大笔钱。
这场由AI大公司疯狂爬虫引发的风波,不仅让小型手游公司遭受了无辜的损失,也引发了人们对AI公司数据采集行为的关注和思考,AI公司在追求技术进步和创新的同时,是否应该更加注重合规性和道德性?如何在推动AI技术发展的同时,保障小型手游公司等中小企业的利益?这些问题值得我们每一个人深入思考。
据不完全统计,目前已有数十家小型手游公司因AI大公司的爬虫行为而遭受损失,这些公司不仅面临着网站宕机、资源消耗剧增等直接问题,还面临着数据泄露、用户隐私被侵犯等潜在风险,由于技术和资源等方面的限制,他们往往难以有效应对这些挑战。
AI大公司疯狂爬虫,却由小公司来买单,这场风波再次提醒我们,在推动AI技术发展的同时,必须加强对数据采集行为的监管和规范,只有确保数据采集的合规性和道德性,才能保障各方的利益得到充分保障,我们也呼吁AI大公司能够承担起更多的社会责任和义务,在追求技术进步和创新的同时,更加注重对小型手游公司等中小企业的保护和支持。
用户认可数据方面,根据一项针对小型手游公司的调查显示,超过80%的受访者表示曾遭受过AI大公司爬虫行为的困扰和损失,近60%的受访者表示无法有效应对这些挑战,只能被动接受损失,还有近30%的受访者表示曾尝试通过法律途径维护自身权益,但效果并不明显,这些数据无疑再次凸显了AI大公司爬虫行为对小型手游公司造成的巨大压力和损失。