无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 負(fù)責(zé)任AI最新資訊  > 正文

    AI爬蟲如狼似虎,維基百科已經(jīng)選擇認(rèn)慫

    2025-04-29 09:02 · 稿源: 三易生活公眾號

    聲明:本文來自微信公眾號“三易生活”(ID:IT-3eLife),作者:三易菌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    本月初,代表全美2200多家新聞機構(gòu)的新聞/媒體聯(lián)盟(News/Media Alliance)發(fā)起“支持負(fù)責(zé)任AI”運動,呼吁監(jiān)管機構(gòu)強制科技巨頭為AI產(chǎn)品使用的內(nèi)容付費。但就在美國媒體抱團保衛(wèi)自己的知識產(chǎn)權(quán)時,單打獨斗的維基百科則宣布向AI廠商“投降”。

    運營維基百科的維基媒體基金會(Wikimedia)近日宣布,將通過與谷歌旗下的數(shù)據(jù)科學(xué)社區(qū)平臺Kaggle合作,發(fā)布一份專門優(yōu)化用于人工智能模型訓(xùn)練的數(shù)據(jù)集。這份公開的數(shù)據(jù)集截止至2025年4月15日,內(nèi)容包括研究摘要、簡短描述、圖像連接、信息框數(shù)據(jù)和文章章節(jié),但不包含參考文件或音頻文件等非書面元素,首次發(fā)布的數(shù)據(jù)集將提供英語和法語版本。

    好端端的維基百科為什么要在谷歌的Kaggle上,公開一個規(guī)模如此龐大的數(shù)據(jù)集呢?答案其實很簡單,因為維基媒體基金會無法忍受AI廠商的爬蟲。

    本月初,維基媒體基金會發(fā)布官方博客文章透露,自2024年1月以來,維基共享資源(Wikimedia Commons)上所存放的1.44億個圖像、視頻或其他文件帶寬增長50%,但這些流量并非來自人類用戶,而是來自AI廠商的爬蟲。

    為了管理超過4500萬個媒體文件,維基媒體基金會采取的是分布式存儲,也就是數(shù)據(jù)被切割成多個碎片,然后根據(jù)一定的策略分配到不同的存儲節(jié)點上,使得數(shù)據(jù)可以就近存儲,從而提高訪問速度和效率。

    根據(jù)維基媒體基金會的介紹,當(dāng)某個內(nèi)容被多次請求時,他們就會將內(nèi)容緩存到離用戶最近的數(shù)據(jù)中心,倘若某個內(nèi)容很久都未被請求,那么就會存儲在核心數(shù)據(jù)中心。如此一來,在請求冷門內(nèi)容時,相關(guān)請求必須遍歷從靠近用戶的數(shù)據(jù)中心到核心數(shù)據(jù)中心的所有路徑,再將其存儲在區(qū)域數(shù)據(jù)中心,所以就會帶來更大的帶寬消耗。

    可問題在于,維基媒體基金會設(shè)計的分布式存儲是為人類用戶服務(wù),而不是為了應(yīng)對AI廠商的爬蟲,這就導(dǎo)致了他們面臨越來越高的成本壓力。畢竟人類用戶往往會訪問特定或相似主題的內(nèi)容,而AI廠商的爬蟲為了獲取更多數(shù)據(jù),通常會囫圇吞棗式地抓取每一個內(nèi)容,所以就意味著維基媒體基金會認(rèn)為的冷門內(nèi)容也會被頻繁訪問。

    AI爬蟲如狼似虎,維基百科選擇認(rèn)慫

    維基媒體基金會方面發(fā)現(xiàn),爬蟲瀏覽的網(wǎng)頁數(shù)量僅占全體訪客的35%,但訪問其核心數(shù)據(jù)中心的流量卻高達65%。作為一個非營利性機構(gòu),維基媒體基金會的收入主要來源于捐贈,所以他們也不可能用有限的資金去購買更多帶寬。

    與谷歌Kaggle合作發(fā)布模型訓(xùn)練的數(shù)據(jù)集,這就是維基媒體基金會為降低30%的爬蟲使用帶寬的方式。該機構(gòu)表示,Kaggle托管的數(shù)據(jù)集“在設(shè)計時充分考慮了機器學(xué)習(xí)的工作流程”,使得AI開發(fā)者能夠更輕松地訪問機器可讀的數(shù)據(jù),以進行建模、微調(diào)、基準(zhǔn)測試、對齊和分析。

    由于維基媒體基金會的非營利屬性,就意味著他們不能將自己擁有的數(shù)據(jù)出售,所以在AI廠商使用爬蟲抓取非授權(quán)內(nèi)容尚處于灰色地帶時,能做的就只有將數(shù)據(jù)這個“燙手的山芋”扔出去,從而節(jié)省平臺的帶寬和服務(wù)器資源。為了讓AI廠商的爬蟲去抓取Kaggle上的數(shù)據(jù),維基媒體基金會設(shè)計的數(shù)據(jù)集甚至是JSON格式的。

    據(jù)悉,JSON格式是一種輕量化的數(shù)據(jù)交換格式,也是目前各種應(yīng)用程序之間數(shù)據(jù)交換和通信的主流格式,其一大特點就是易于機器解析。相比txt、jpg、mp4等為人類服務(wù)的格式,JSON格式主要是為機器服務(wù)。這樣一來,相比抓取或解析維基百科上的原始文本、圖像,Kaggle上結(jié)構(gòu)良好的JSON格式的維基百科相關(guān)內(nèi)容顯然就更具吸引力。

    從某種意義上來說,這次維基媒體基金會被迫與谷歌Kaggle合作,凸顯了內(nèi)容平臺的反爬蟲策略在AI時代已經(jīng)落伍。因為在AI廠商高速迭代的爬蟲技術(shù)面前,內(nèi)容平臺的反爬蟲策略還做不到完美區(qū)隔人類與機器。

    AI爬蟲如狼似虎,維基百科選擇認(rèn)慫

    君不見在去年5月末,知乎網(wǎng)頁端出現(xiàn)了非登錄用戶無法查看全文的情況。彼時外界普遍認(rèn)為,知乎采取這一限制措施是為了反爬蟲,防止AI廠商使用爬蟲抓取其高質(zhì)量內(nèi)容來訓(xùn)練AI模型。然而僅僅過去了半年時間,知乎就放開限制,用戶無需登錄即可直接瀏覽完整內(nèi)容。

    其實知乎“認(rèn)慫”的原因也不難猜測,畢竟他們的商業(yè)模式就是基于更多的人類用戶使用,非登錄用戶不可查看全文會極大影響獲客,進而讓知乎的商業(yè)價值受損。用戶體驗與反AI爬蟲不可兼得,這也是當(dāng)下全球所有內(nèi)容平臺共同面對的難題。

    如今,非營利性的維基媒體基金會選擇逃避,要賺錢的美國新聞媒體,則是在嘗試讓AI廠商為他們的內(nèi)容付費。

    舉報

    • 相關(guān)推薦
    • 特朗普認(rèn)慫了?對華關(guān)稅將“大幅下降”,但不會為0

      特朗普聲稱,對于最終的關(guān)稅稅率“中國會非常滿意”,并表達了“希望中國在美進行貿(mào)易”的立場。

    • 為了反爬蟲 GitHub部署新規(guī)則:使用中文可能被限制訪問

      據(jù)報道,GitHub部署了新的風(fēng)控規(guī)則,會檢查用戶瀏覽器請求頭的語言部分,如果檢測到用戶使用的是中文(僅限zh_CN),則可能會觸發(fā)訪問限制。不過GitHub并非全面封禁中文用戶,而是將多個條件整合觸發(fā)限制,首先會檢查常規(guī)規(guī)則(如黑名單IP和UA),再檢測IP地址質(zhì)量。只有當(dāng)這兩個條件全部通過后,才會檢查語言部分是否包含zh_CN,如果用戶IP質(zhì)量沒問題,通常不會觸發(fā)語?

    • 為什么說廣告是AI大模型公司最現(xiàn)實的商業(yè)化選擇?

      從ChatGPT開啟訂閱模式開始,業(yè)界似乎默認(rèn)大模型公司的C端商業(yè)化道路就是一條——訂閱制。原因似乎也說得通——推理是有成本的。在經(jīng)過谷歌、Perplexity等公司的實踐,OpenAI、騰訊的躍躍欲試之后,廣告大概率會成為更多大模型公司商業(yè)化的現(xiàn)實選擇。

    • OpenAI,Google和阿里們都“認(rèn)”了的MCP,究竟給開發(fā)者帶來啥實惠了

      AI領(lǐng)域的互操作性標(biāo)準(zhǔn)之爭正變得異常熱鬧。GoogleDeepMindCEODemisHassabis宣布,將為其Gemini模型添加對Anthropic主導(dǎo)的模型上下文協(xié)議MCP的支持,稱其為“一個優(yōu)秀的協(xié)議,正迅速成為AIAgent時代的開放標(biāo)準(zhǔn)”。MCP有潛力成為提升AI在具體業(yè)務(wù)場景中實用性的關(guān)鍵基礎(chǔ)設(shè)施,促進AI與現(xiàn)有軟件和工作流程更緊密的融合。

    • 山石網(wǎng)攜8大方案亮相2025 RSAC,斬獲AI領(lǐng)域創(chuàng)新者殊榮

      2025年RSA網(wǎng)絡(luò)安全大會在舊金山開幕,匯聚全球650多家廠商和600多位演講者。山石網(wǎng)科憑借AI安全創(chuàng)新獲國際權(quán)威獎項,展示八大安全解決方案:1)Open XDR方案實現(xiàn)安全異構(gòu)聯(lián)動;2)零信任訪問方案動態(tài)授權(quán);3)安全SD-WAN覆蓋多云場景;4)全流量威脅檢測系統(tǒng);5)終端安全管理平臺;6)云主機防護平臺;7)云防火墻;8)云內(nèi)微隔離平臺。其產(chǎn)品以"開放融合、AI賦能"理念,助力企業(yè)構(gòu)建智能安全體系,已在金融、醫(yī)療等多行業(yè)落地應(yīng)用。

    • 1對1 AI全科家教!酷開AI學(xué)習(xí)機Y41 Air發(fā)布:1999元起

      快科技4月23日消息,酷開AI學(xué)習(xí)機Y41 Air已經(jīng)發(fā)布,官方號稱1對1 AI全科家教,定價1999元,5月17日開售。據(jù)介紹,酷開AI學(xué)習(xí)機Y41 Air內(nèi)置了酷開教育智能體,深度融合酷開靈耳、Deepseek、通義千問、豆包等大模型,設(shè)有從學(xué)齡前到K12的全階段教育服務(wù),語音、拍照都可解題真人式啟發(fā)教學(xué),孩子多維知識提升快??梢宰寣W(xué)齡前兒童通過AI互動百科視頻邊看、邊問、邊學(xué),還可以幫助青少年享受AI家教1V1個性化互動講題、AI英語口語陪練。支持隨問隨答,并且能夠在解題或陪練的過程中隨時進行答疑互動及延伸對話,幫助孩子養(yǎng)成主動思考、敢于表?

    • 云解析安全智能再升級,助力千行業(yè)加速數(shù)字化轉(zhuǎn)型

      北京國科云公司發(fā)布新一代云解析產(chǎn)品,實現(xiàn)DNS服務(wù)的全面升級。新產(chǎn)品在智能解析、安全防護和性能優(yōu)化方面取得突破,支持可視化管理和API對接,集成智能調(diào)度與秒級故障切換機制。采用彈性帶寬、DDoS防火墻等多重安全防護,新增多維分析報表功能。收費模式改為一次性全包價,避免隱性成本。提供專屬人工客服和秒級響應(yīng)服務(wù),顯著提升用戶體驗。此次升級重新定義了DNS服務(wù)行業(yè)標(biāo)準(zhǔn),為數(shù)字化轉(zhuǎn)型提供更智能、安全的域名解析解決方案。

    • 度優(yōu)選MCP,AI電商新解法

      AI技術(shù)正在重塑全球電商行業(yè)格局,百度推出MCP開放平臺,為開發(fā)者提供AI電商解決方案。文章指出,AI已實現(xiàn)24小時智能直播、精準(zhǔn)選品匹配、自動化營銷等功能,幫助商家降本增效。數(shù)據(jù)顯示,49%美國消費者會使用AI工具輔助購物決策。百度MCP平臺整合搜索、交易等能力,開發(fā)者可快速調(diào)用電商工具,同時獲得百度流量支持。目前已有上千開發(fā)者加入該平臺。專家認(rèn)為,未來電商競爭將轉(zhuǎn)向AI應(yīng)用深度和生態(tài)開放度,中國企業(yè)出海需構(gòu)建AI技術(shù)壁壘。

    • 從英語到全,愛貝助力成長每一步

      文章討論了人工智能(AI)在未來2025年的發(fā)展,提出了“智能AI在中國的未來”概念,構(gòu)建“互聯(lián)網(wǎng)+全智能”的OMO學(xué)習(xí)生活模式,實現(xiàn)大規(guī)模個性化學(xué)習(xí),最終目標(biāo)是“任何知識,全智能可及”。文章分為四部分:一是增強理解力,通過AI智能識別和分析圖像,構(gòu)建“人工智能+全智能”系統(tǒng),實現(xiàn)“一圖勝千言”的效果;二是人機交互,實現(xiàn)3D虛擬現(xiàn)實,通過虛擬現(xiàn)實場景模擬體驗;三是智能決策,AI自我學(xué)習(xí)優(yōu)化,提供最佳解決方案;四是全面影響,AI技術(shù)在教育、醫(yī)療、生活等領(lǐng)域的應(yīng)用,實現(xiàn)“一切知識,全智能可達”。文章還指出,AI將引領(lǐng)未來,AI教育成為主流趨勢,通過虛擬現(xiàn)實設(shè)備實現(xiàn)沉浸式學(xué)習(xí)體驗;AI決策,30分鐘內(nèi)完成高難度任務(wù);AI決策的挑戰(zhàn),數(shù)學(xué)、物理、跨學(xué)科應(yīng)用,難以預(yù)測未來;全智能生活,互聯(lián)網(wǎng)+全智能的融合,推動社會變革;AI普及,24小時在線學(xué)習(xí),自我優(yōu)化提升;AI影響人類,AI輔助決策成為常態(tài),AI在中國的普及將超過50%。

    • 度宣布3年開放2.1萬個校招實習(xí)崗:還要培養(yǎng)AI技術(shù)大佬

      百度招聘官宣,未來三年,百度將開放21000個實習(xí)崗位給優(yōu)秀校園人才,并持續(xù)加強對實習(xí)生的培養(yǎng),進一步提升實習(xí)轉(zhuǎn)正率。據(jù)介紹,今年3月,百度已面向在校學(xué)生開放3000暑期實習(xí)崗位,87%與AI相關(guān),覆蓋大模型、機器學(xué)習(xí)、無人駕駛等領(lǐng)域。此外,百度今年也將啟動管理培訓(xùn)生計劃、AIDU計劃,面向AI領(lǐng)域招募頂尖校園人才,致力于培養(yǎng)AI時代核心