AI爬蟲如狼似虎，維基百科已經(jīng)選擇認(rèn)慫

2025-04-29 09:02 · 稿源：三易生活公眾號

聲明：本文來自微信公眾號“三易生活”（ID:IT-3eLife），作者:三易菌，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

本月初，代表全美2200多家新聞機構(gòu)的新聞/媒體聯(lián)盟（News/Media Alliance）發(fā)起“支持負(fù)責(zé)任AI”運動，呼吁監(jiān)管機構(gòu)強制科技巨頭為AI產(chǎn)品使用的內(nèi)容付費。但就在美國媒體抱團保衛(wèi)自己的知識產(chǎn)權(quán)時，單打獨斗的維基百科則宣布向AI廠商“投降”。

運營維基百科的維基媒體基金會（Wikimedia）近日宣布，將通過與谷歌旗下的數(shù)據(jù)科學(xué)社區(qū)平臺Kaggle合作，發(fā)布一份專門優(yōu)化用于人工智能模型訓(xùn)練的數(shù)據(jù)集。這份公開的數(shù)據(jù)集截止至2025年4月15日，內(nèi)容包括研究摘要、簡短描述、圖像連接、信息框數(shù)據(jù)和文章章節(jié)，但不包含參考文件或音頻文件等非書面元素，首次發(fā)布的數(shù)據(jù)集將提供英語和法語版本。

好端端的維基百科為什么要在谷歌的Kaggle上，公開一個規(guī)模如此龐大的數(shù)據(jù)集呢?答案其實很簡單，因為維基媒體基金會無法忍受AI廠商的爬蟲。

本月初，維基媒體基金會發(fā)布官方博客文章透露，自2024年1月以來，維基共享資源（Wikimedia Commons）上所存放的1.44億個圖像、視頻或其他文件帶寬增長50%，但這些流量并非來自人類用戶，而是來自AI廠商的爬蟲。

為了管理超過4500萬個媒體文件，維基媒體基金會采取的是分布式存儲，也就是數(shù)據(jù)被切割成多個碎片，然后根據(jù)一定的策略分配到不同的存儲節(jié)點上，使得數(shù)據(jù)可以就近存儲，從而提高訪問速度和效率。

根據(jù)維基媒體基金會的介紹，當(dāng)某個內(nèi)容被多次請求時，他們就會將內(nèi)容緩存到離用戶最近的數(shù)據(jù)中心，倘若某個內(nèi)容很久都未被請求，那么就會存儲在核心數(shù)據(jù)中心。如此一來，在請求冷門內(nèi)容時，相關(guān)請求必須遍歷從靠近用戶的數(shù)據(jù)中心到核心數(shù)據(jù)中心的所有路徑，再將其存儲在區(qū)域數(shù)據(jù)中心，所以就會帶來更大的帶寬消耗。

可問題在于，維基媒體基金會設(shè)計的分布式存儲是為人類用戶服務(wù)，而不是為了應(yīng)對AI廠商的爬蟲，這就導(dǎo)致了他們面臨越來越高的成本壓力。畢竟人類用戶往往會訪問特定或相似主題的內(nèi)容，而AI廠商的爬蟲為了獲取更多數(shù)據(jù)，通常會囫圇吞棗式地抓取每一個內(nèi)容，所以就意味著維基媒體基金會認(rèn)為的冷門內(nèi)容也會被頻繁訪問。

AI爬蟲如狼似虎，維基百科選擇認(rèn)慫

維基媒體基金會方面發(fā)現(xiàn)，爬蟲瀏覽的網(wǎng)頁數(shù)量僅占全體訪客的35%，但訪問其核心數(shù)據(jù)中心的流量卻高達65%。作為一個非營利性機構(gòu)，維基媒體基金會的收入主要來源于捐贈，所以他們也不可能用有限的資金去購買更多帶寬。

與谷歌Kaggle合作發(fā)布模型訓(xùn)練的數(shù)據(jù)集，這就是維基媒體基金會為降低30%的爬蟲使用帶寬的方式。該機構(gòu)表示，Kaggle托管的數(shù)據(jù)集“在設(shè)計時充分考慮了機器學(xué)習(xí)的工作流程”，使得AI開發(fā)者能夠更輕松地訪問機器可讀的數(shù)據(jù)，以進行建模、微調(diào)、基準(zhǔn)測試、對齊和分析。

由于維基媒體基金會的非營利屬性，就意味著他們不能將自己擁有的數(shù)據(jù)出售，所以在AI廠商使用爬蟲抓取非授權(quán)內(nèi)容尚處于灰色地帶時，能做的就只有將數(shù)據(jù)這個“燙手的山芋”扔出去，從而節(jié)省平臺的帶寬和服務(wù)器資源。為了讓AI廠商的爬蟲去抓取Kaggle上的數(shù)據(jù)，維基媒體基金會設(shè)計的數(shù)據(jù)集甚至是JSON格式的。

據(jù)悉，JSON格式是一種輕量化的數(shù)據(jù)交換格式，也是目前各種應(yīng)用程序之間數(shù)據(jù)交換和通信的主流格式，其一大特點就是易于機器解析。相比txt、jpg、mp4等為人類服務(wù)的格式，JSON格式主要是為機器服務(wù)。這樣一來，相比抓取或解析維基百科上的原始文本、圖像，Kaggle上結(jié)構(gòu)良好的JSON格式的維基百科相關(guān)內(nèi)容顯然就更具吸引力。

從某種意義上來說，這次維基媒體基金會被迫與谷歌Kaggle合作，凸顯了內(nèi)容平臺的反爬蟲策略在AI時代已經(jīng)落伍。因為在AI廠商高速迭代的爬蟲技術(shù)面前，內(nèi)容平臺的反爬蟲策略還做不到完美區(qū)隔人類與機器。

AI爬蟲如狼似虎，維基百科選擇認(rèn)慫

君不見在去年5月末，知乎網(wǎng)頁端出現(xiàn)了非登錄用戶無法查看全文的情況。彼時外界普遍認(rèn)為，知乎采取這一限制措施是為了反爬蟲，防止AI廠商使用爬蟲抓取其高質(zhì)量內(nèi)容來訓(xùn)練AI模型。然而僅僅過去了半年時間，知乎就放開限制，用戶無需登錄即可直接瀏覽完整內(nèi)容。

其實知乎“認(rèn)慫”的原因也不難猜測，畢竟他們的商業(yè)模式就是基于更多的人類用戶使用，非登錄用戶不可查看全文會極大影響獲客，進而讓知乎的商業(yè)價值受損。用戶體驗與反AI爬蟲不可兼得，這也是當(dāng)下全球所有內(nèi)容平臺共同面對的難題。

如今，非營利性的維基媒體基金會選擇逃避，要賺錢的美國新聞媒體，則是在嘗試讓AI廠商為他們的內(nèi)容付費。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

特朗普認(rèn)慫了？對華關(guān)稅將“大幅下降”，但不會為0

特朗普聲稱，對于最終的關(guān)稅稅率“中國會非常滿意”，并表達了“希望中國在美進行貿(mào)易”的立場。

?特朗普認(rèn)慫了 ?特朗普 ?特朗普關(guān)稅政策
為了反爬蟲 GitHub部署新規(guī)則：使用中文可能被限制訪問

據(jù)報道，GitHub部署了新的風(fēng)控規(guī)則，會檢查用戶瀏覽器請求頭的語言部分，如果檢測到用戶使用的是中文（僅限zh_CN），則可能會觸發(fā)訪問限制。不過GitHub并非全面封禁中文用戶，而是將多個條件整合觸發(fā)限制，首先會檢查常規(guī)規(guī)則（如黑名單IP和UA），再檢測IP地址質(zhì)量。只有當(dāng)這兩個條件全部通過后，才會檢查語言部分是否包含zh_CN，如果用戶IP質(zhì)量沒問題，通常不會觸發(fā)語?

?GitHub ?風(fēng)控規(guī)則 ?中文用戶訪問
薦為什么說廣告是AI大模型公司最現(xiàn)實的商業(yè)化選擇？

從ChatGPT開啟訂閱模式開始，業(yè)界似乎默認(rèn)大模型公司的C端商業(yè)化道路就是一條——訂閱制。原因似乎也說得通——推理是有成本的。在經(jīng)過谷歌、Perplexity等公司的實踐，OpenAI、騰訊的躍躍欲試之后，廣告大概率會成為更多大模型公司商業(yè)化的現(xiàn)實選擇。

?大模型商業(yè)化 ?AI訂閱模式 ?廣告變現(xiàn)
薦OpenAI，Google和阿里們都“認(rèn)”了的MCP，究竟給開發(fā)者帶來啥實惠了

AI領(lǐng)域的互操作性標(biāo)準(zhǔn)之爭正變得異常熱鬧。GoogleDeepMindCEODemisHassabis宣布，將為其Gemini模型添加對Anthropic主導(dǎo)的模型上下文協(xié)議MCP的支持，稱其為“一個優(yōu)秀的協(xié)議，正迅速成為AIAgent時代的開放標(biāo)準(zhǔn)”。MCP有潛力成為提升AI在具體業(yè)務(wù)場景中實用性的關(guān)鍵基礎(chǔ)設(shè)施，促進AI與現(xiàn)有軟件和工作流程更緊密的融合。

?AI互操作性 ?Gemini模型 ?MCP協(xié)議
山石網(wǎng)科攜8大方案亮相2025 RSAC，斬獲AI領(lǐng)域創(chuàng)新者殊榮

2025年RSA網(wǎng)絡(luò)安全大會在舊金山開幕，匯聚全球650多家廠商和600多位演講者。山石網(wǎng)科憑借AI安全創(chuàng)新獲國際權(quán)威獎項，展示八大安全解決方案：1）Open XDR方案實現(xiàn)安全異構(gòu)聯(lián)動；2）零信任訪問方案動態(tài)授權(quán)；3）安全SD-WAN覆蓋多云場景；4）全流量威脅檢測系統(tǒng)；5）終端安全管理平臺；6）云主機防護平臺；7）云防火墻；8）云內(nèi)微隔離平臺。其產(chǎn)品以"開放融合、AI賦能"理念，助力企業(yè)構(gòu)建智能安全體系，已在金融、醫(yī)療等多行業(yè)落地應(yīng)用。

?RSA ?Conference ?2025
1對1 AI全科家教！酷開AI學(xué)習(xí)機Y41 Air發(fā)布：1999元起

快科技4月23日消息，酷開AI學(xué)習(xí)機Y41 Air已經(jīng)發(fā)布，官方號稱1對1 AI全科家教，定價1999元，5月17日開售。據(jù)介紹，酷開AI學(xué)習(xí)機Y41 Air內(nèi)置了酷開教育智能體，深度融合酷開靈耳、Deepseek、通義千問、豆包等大模型，設(shè)有從學(xué)齡前到K12的全階段教育服務(wù)，語音、拍照都可解題真人式啟發(fā)教學(xué)，孩子多維知識提升快?？梢宰寣W(xué)齡前兒童通過AI互動百科視頻邊看、邊問、邊學(xué)，還可以幫助青少年享受AI家教1V1個性化互動講題、AI英語口語陪練。支持隨問隨答，并且能夠在解題或陪練的過程中隨時進行答疑互動及延伸對話，幫助孩子養(yǎng)成主動思考、敢于表?

?酷開AI學(xué)習(xí)機 ?AI全科家教 ?教育科技
國科云解析安全智能再升級，助力千行百業(yè)加速數(shù)字化轉(zhuǎn)型

北京國科云公司發(fā)布新一代云解析產(chǎn)品，實現(xiàn)DNS服務(wù)的全面升級。新產(chǎn)品在智能解析、安全防護和性能優(yōu)化方面取得突破，支持可視化管理和API對接，集成智能調(diào)度與秒級故障切換機制。采用彈性帶寬、DDoS防火墻等多重安全防護，新增多維分析報表功能。收費模式改為一次性全包價，避免隱性成本。提供專屬人工客服和秒級響應(yīng)服務(wù)，顯著提升用戶體驗。此次升級重新定義了DNS服務(wù)行業(yè)標(biāo)準(zhǔn)，為數(shù)字化轉(zhuǎn)型提供更智能、安全的域名解析解決方案。

?DNS解析服務(wù) ?云解析產(chǎn)品 ?網(wǎng)絡(luò)安全
薦百度優(yōu)選MCP，AI電商新解法

AI技術(shù)正在重塑全球電商行業(yè)格局，百度推出MCP開放平臺，為開發(fā)者提供AI電商解決方案。文章指出，AI已實現(xiàn)24小時智能直播、精準(zhǔn)選品匹配、自動化營銷等功能，幫助商家降本增效。數(shù)據(jù)顯示，49%美國消費者會使用AI工具輔助購物決策。百度MCP平臺整合搜索、交易等能力，開發(fā)者可快速調(diào)用電商工具，同時獲得百度流量支持。目前已有上千開發(fā)者加入該平臺。專家認(rèn)為，未來電商競爭將轉(zhuǎn)向AI應(yīng)用深度和生態(tài)開放度，中國企業(yè)出海需構(gòu)建AI技術(shù)壁壘。

?電商 ?人工智能 ?跨境電商
從英語到全科，愛貝助力成長每一步

文章討論了人工智能（AI）在未來2025年的發(fā)展，提出了“智能AI在中國的未來”概念，構(gòu)建“互聯(lián)網(wǎng)+全智能”的OMO學(xué)習(xí)生活模式，實現(xiàn)大規(guī)模個性化學(xué)習(xí)，最終目標(biāo)是“任何知識，全智能可及”。文章分為四部分：一是增強理解力，通過AI智能識別和分析圖像，構(gòu)建“人工智能+全智能”系統(tǒng)，實現(xiàn)“一圖勝千言”的效果；二是人機交互，實現(xiàn)3D虛擬現(xiàn)實，通過虛擬現(xiàn)實場景模擬體驗；三是智能決策，AI自我學(xué)習(xí)優(yōu)化，提供最佳解決方案；四是全面影響，AI技術(shù)在教育、醫(yī)療、生活等領(lǐng)域的應(yīng)用，實現(xiàn)“一切知識，全智能可達”。文章還指出，AI將引領(lǐng)未來，AI教育成為主流趨勢，通過虛擬現(xiàn)實設(shè)備實現(xiàn)沉浸式學(xué)習(xí)體驗；AI決策，30分鐘內(nèi)完成高難度任務(wù)；AI決策的挑戰(zhàn)，數(shù)學(xué)、物理、跨學(xué)科應(yīng)用，難以預(yù)測未來；全智能生活，互聯(lián)網(wǎng)+全智能的融合，推動社會變革；AI普及，24小時在線學(xué)習(xí)，自我優(yōu)化提升；AI影響人類，AI輔助決策成為常態(tài)，AI在中國的普及將超過50%。

?愛貝AI智習(xí)中心 ?OMO學(xué)習(xí)生態(tài) ?精準(zhǔn)學(xué)習(xí)
百度宣布3年開放2.1萬個校招實習(xí)崗：還要培養(yǎng)AI技術(shù)大佬

百度招聘官宣，未來三年，百度將開放21000個實習(xí)崗位給優(yōu)秀校園人才，并持續(xù)加強對實習(xí)生的培養(yǎng)，進一步提升實習(xí)轉(zhuǎn)正率。據(jù)介紹，今年3月，百度已面向在校學(xué)生開放3000暑期實習(xí)崗位，87%與AI相關(guān)，覆蓋大模型、機器學(xué)習(xí)、無人駕駛等領(lǐng)域。此外，百度今年也將啟動管理培訓(xùn)生計劃、AIDU計劃，面向AI領(lǐng)域招募頂尖校園人才，致力于培養(yǎng)AI時代核心

?百度招聘 ?實習(xí)崗位 ?校園人才

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

AI爬蟲如狼似虎，維基百科已經(jīng)選擇認(rèn)慫

特朗普認(rèn)慫了？對華關(guān)稅將“大幅下降”，但不會為0

為了反爬蟲 GitHub部署新規(guī)則：使用中文可能被限制訪問

薦為什么說廣告是AI大模型公司最現(xiàn)實的商業(yè)化選擇？

薦OpenAI，Google和阿里們都“認(rèn)”了的MCP，究竟給開發(fā)者帶來啥實惠了

山石網(wǎng)科攜8大方案亮相2025 RSAC，斬獲AI領(lǐng)域創(chuàng)新者殊榮

1對1 AI全科家教！酷開AI學(xué)習(xí)機Y41 Air發(fā)布：1999元起

國科云解析安全智能再升級，助力千行百業(yè)加速數(shù)字化轉(zhuǎn)型

薦百度優(yōu)選MCP，AI電商新解法

從英語到全科，愛貝助力成長每一步

百度宣布3年開放2.1萬個校招實習(xí)崗：還要培養(yǎng)AI技術(shù)大佬

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場動蕩，希音、Temu 率先在美開啟“漲價潮”！

站長商機