泷泽萝拉作品 OpenAI浪漫爬虫，把一家公司皆给爬宕机了，CEO：堪比DDoS

栏目分类

热点资讯

肛交哭

你的位置：天然素人 > 肛交哭 > 泷泽萝拉作品 OpenAI浪漫爬虫，把一家公司皆给爬宕机了，CEO：堪比DDoS

发布日期：2025-01-14 17:40 点击次数：77

泷泽萝拉作品 OpenAI浪漫爬虫，把一家公司皆给爬宕机了，CEO：堪比DDoS

金磊发自凹非寺泷泽萝拉作品

量子位 | 公众号 QbitAI

万万没思到，能把一家公司网站给搞宕机的元凶，果然是OpenAI浪漫爬虫的机器东说念主——GPTBot。

（GPTBot是OpenAI早年前推出的一款器具，用来自动持取统共这个词互联网的数据。）

就在这两天，一家7东说念主团队公司（Triplegangers）的网站倏得宕机，CEO和职工们赶忙排查问题到底出在的那里。

不查不知说念，一查吓一跳。

罪魁罪魁恰是OpenAI的GPTBot。

从CEO的刻画中来看，OpenAI爬虫的“攻势”是有点浪漫在身上的：

咱们有朝上65000种家具，每种家具皆有一个页面，然后每个页面还皆有至少三张图片。

OpenAI正在发送恒河沙数的办事器申请，试图下载统共内容，包括数十万张相片过火详备刻画。

在分析了公司上周的日记之后，团队进一步发现，OpenAI使用了不啻600个IP地址持取数据。

△Triplegangers办事器日记：OpenAI机器东说念主未经许可浪漫爬虫

如斯范围的爬虫，就导致这家公司网站的宕机，CEO致使无奈地默示：

这基本上等于一场DDoS攻击。

更挫折的少许是，由于OpenAI浪漫地爬虫，还会激发了多数的CPU使用和数据下载活动，从而导致网站在云缠绵办事（AWS）方面的资源消耗剧增，支出就会大幅增长……

嗯，AI大公司浪漫爬虫，却由小公司来买单。

这家袖珍团队的际遇，亦然激发了不少网友们的盘考，有东说念主以为GPTBot的作念法并不是持取，更像是“偷窃”的委婉说法：

也有网友现身默示有相同的经验，自从禁锢了大公司的批量AI爬虫，省了一大笔钱：

被爬虫到宕机，还不知说念被爬走了什么

那么OpenAI为什么要爬虫这家初创企业的数据？

松懈来说，它家的数据确乎属于高质地的那种。

据了解，Triplegangers的7名成员破钞了十多年的技艺，打造了堪称最大“东说念主类数字孪生”数据库

网站包含从本色东说念主类模子扫描的3D图像文献，况且相片还带有详备的标签，涵盖种族、年齿、纹身与疤痕、各式体型等信息。

这关于需要数字化再现竟然东说念主类特征的3D艺术家、游戏制作家等，无疑具有挫折价值。

天然Triplegangers网站上有一个办事条件页面，内部明确写了谢却未经许可的AI持取他们家的图片。

但从咫尺的效力上来看，这完竣莫得起到任何作用。

重心在于，Triplegangers莫得正确设立一个文献——robots.txt。

robots.txt也称为机器东说念主摒除契约，是为了告诉搜索引擎网站在索引汇集时不要爬取哪些内容而创建的。

也等于说，一个网站如若不思被OpenAI爬虫，那就必须正确设立robots.txt文献，并带有特定标签，明确告诉GPTBot不要窥探该网站。

但OpenAI除了GPTBot以外，还有ChatGPT-User和OAI-SearchBot，它俩也有各自对应的标签：

而且笔据OpenAI官方发布的爬虫信息来看，即便你立即正确设立了robots.txt文献，也不会立即见效。

因为OpenAI识别更新这个文献可能需要24个小时……

CEO老哥对此默示：

如果一个网站莫得正确设立robots.txt文献，那么OpenAI和其它公司会以为他们不错运用自若地持取内容。

这不是一个可选的系统。

正因如斯，也就有了Triplegangers在职责技艺段网站被搞宕机，还搭上了高额的AWS用度。

罢休好意思东技艺的本周三，Triplegangers照旧按照要求设立了正确的robots.txt文献。

以防万一，团队还设立了一个Cloudflare账户来禁锢其它的AI爬虫，如Barkrowler和Bytespider。

天然到了周四开工的时候，Triplegangers莫得再出现宕机的情况，但CEO老哥还有个悬而未决的困惑——

不知说念OpenAI皆从网站中爬了些什么数据，也相干不上OpenAI……

而且令CEO老哥愈加深表担忧的少许是：

如果不是GPTBot“策划”到让咱们的网站宕机，咱们可能不知说念它一直在爬取咱们的数据。

这个经由是有bug的，即便你们AI大公司说了不错设立robots.txt来扎眼爬虫，但你们把包袱推到了咱们身上。

临了，CEO老哥也敕令稠密在线企业，要思扎眼大公司未经允许爬虫，一定要主动、积极地去查找问题。

并不是第一例

但Triplegangers并不是第一个因为OpenAI浪漫爬虫导致宕机的公司。

在此之前，还有Game UI Database这家公司。

它收录了超56000张游戏用户界面截图的在线数据库，用于供游戏瞎想师参考。

有一天，团队发现网站加载速率变慢，页面加载技艺延迟三倍，用户时时际遇502差错，首页每秒被重新加载200次。

他们一启动也以为是遭到了DDoS攻击，效力一查日记……是OpenAI，每秒查询2次，导致网站险些瘫痪。

但你以为如斯浪漫爬虫的只须OpenAI吗？

非也，非也。

举例Anthropic此前也被曝出来过相同的事情。

数字家具职责室Planetary的创举东说念主Joshua Gross曾默示过，他们给客户重新瞎想的网站上线后，流量激增，导致客户云资本翻倍。

蝴蝶谷网站

经审计发现，多数流量来自持取机器东说念主，主如若Anthropic导致的无景仰流量，多数申请皆复返404差错。

针对这一骄傲，来自数字告白公司DoubleVerify的一份新辩论披露，AI爬虫在2024 年导致“一般无效流量”（不是来自竟然用户的流量）加多了86%。

那么AI公司，尤其是大模子公司，为什么要如斯浪漫地“吸食”汇集上的数据？

一言蔽之，等于他们太缺用来检修的高质地数据了。

有辩论臆想过，到2032年行家可用的AI检修数据可能就会耗尽，这就让AI公司加速了数据网罗的速率。

也正因如斯，OpenAI谷歌等AI公司为了赢得更多“独家”视频用于AI检修，当今也正纷纷向UP主们重金求购那些“从未公开”的视频。

而且连价钱皆标好了，如果是为YouTube、Instagram和TikTok准备的未发布视频，每分钟出价为1~2好意思元（总体一般是1~4好意思元），且笔据视频质地和关节的不同，价钱还能再涨涨。

那么你对这一骄傲有什么见识呢？宽饶在驳斥区留言盘考~

参考聚会：

[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

— 完 —

量子位 QbitAI · 头条号签约

祥和咱们泷泽萝拉作品，第一技艺获知前沿科技动态

上一篇：你好迷人户外婚时可参断08

下一篇：泷泽萝拉作品泰伦-卢：小琼斯回更衣室后说他没事本该不错陆续出战的