聲明:本文來自微信公眾號“三易生活”(ID:IT-3eLife),作者:三易菌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
本月初,代表全美2200多家新聞機構(gòu)的新聞/媒體聯(lián)盟(News/Media Alliance)發(fā)起“支持負(fù)責(zé)任AI”運動,呼吁監(jiān)管機構(gòu)強制科技巨頭為AI產(chǎn)品使用的內(nèi)容付費。但就在美國媒體抱團保衛(wèi)自己的知識產(chǎn)權(quán)時,單打獨斗的維基百科則宣布向AI廠商“投降”。
運營維基百科的維基媒體基金會(Wikimedia)近日宣布,將通過與谷歌旗下的數(shù)據(jù)科學(xué)社區(qū)平臺Kaggle合作,發(fā)布一份專門優(yōu)化用于人工智能模型訓(xùn)練的數(shù)據(jù)集。這份公開的數(shù)據(jù)集截止至2025年4月15日,內(nèi)容包括研究摘要、簡短描述、圖像連接、信息框數(shù)據(jù)和文章章節(jié),但不包含參考文件或音頻文件等非書面元素,首次發(fā)布的數(shù)據(jù)集將提供英語和法語版本。
好端端的維基百科為什么要在谷歌的Kaggle上,公開一個規(guī)模如此龐大的數(shù)據(jù)集呢?答案其實很簡單,因為維基媒體基金會無法忍受AI廠商的爬蟲。
本月初,維基媒體基金會發(fā)布官方博客文章透露,自2024年1月以來,維基共享資源(Wikimedia Commons)上所存放的1.44億個圖像、視頻或其他文件帶寬增長50%,但這些流量并非來自人類用戶,而是來自AI廠商的爬蟲。
為了管理超過4500萬個媒體文件,維基媒體基金會采取的是分布式存儲,也就是數(shù)據(jù)被切割成多個碎片,然后根據(jù)一定的策略分配到不同的存儲節(jié)點上,使得數(shù)據(jù)可以就近存儲,從而提高訪問速度和效率。
根據(jù)維基媒體基金會的介紹,當(dāng)某個內(nèi)容被多次請求時,他們就會將內(nèi)容緩存到離用戶最近的數(shù)據(jù)中心,倘若某個內(nèi)容很久都未被請求,那么就會存儲在核心數(shù)據(jù)中心。如此一來,在請求冷門內(nèi)容時,相關(guān)請求必須遍歷從靠近用戶的數(shù)據(jù)中心到核心數(shù)據(jù)中心的所有路徑,再將其存儲在區(qū)域數(shù)據(jù)中心,所以就會帶來更大的帶寬消耗。
可問題在于,維基媒體基金會設(shè)計的分布式存儲是為人類用戶服務(wù),而不是為了應(yīng)對AI廠商的爬蟲,這就導(dǎo)致了他們面臨越來越高的成本壓力。畢竟人類用戶往往會訪問特定或相似主題的內(nèi)容,而AI廠商的爬蟲為了獲取更多數(shù)據(jù),通常會囫圇吞棗式地抓取每一個內(nèi)容,所以就意味著維基媒體基金會認(rèn)為的冷門內(nèi)容也會被頻繁訪問。
維基媒體基金會方面發(fā)現(xiàn),爬蟲瀏覽的網(wǎng)頁數(shù)量僅占全體訪客的35%,但訪問其核心數(shù)據(jù)中心的流量卻高達65%。作為一個非營利性機構(gòu),維基媒體基金會的收入主要來源于捐贈,所以他們也不可能用有限的資金去購買更多帶寬。
與谷歌Kaggle合作發(fā)布模型訓(xùn)練的數(shù)據(jù)集,這就是維基媒體基金會為降低30%的爬蟲使用帶寬的方式。該機構(gòu)表示,Kaggle托管的數(shù)據(jù)集“在設(shè)計時充分考慮了機器學(xué)習(xí)的工作流程”,使得AI開發(fā)者能夠更輕松地訪問機器可讀的數(shù)據(jù),以進行建模、微調(diào)、基準(zhǔn)測試、對齊和分析。
由于維基媒體基金會的非營利屬性,就意味著他們不能將自己擁有的數(shù)據(jù)出售,所以在AI廠商使用爬蟲抓取非授權(quán)內(nèi)容尚處于灰色地帶時,能做的就只有將數(shù)據(jù)這個“燙手的山芋”扔出去,從而節(jié)省平臺的帶寬和服務(wù)器資源。為了讓AI廠商的爬蟲去抓取Kaggle上的數(shù)據(jù),維基媒體基金會設(shè)計的數(shù)據(jù)集甚至是JSON格式的。
據(jù)悉,JSON格式是一種輕量化的數(shù)據(jù)交換格式,也是目前各種應(yīng)用程序之間數(shù)據(jù)交換和通信的主流格式,其一大特點就是易于機器解析。相比txt、jpg、mp4等為人類服務(wù)的格式,JSON格式主要是為機器服務(wù)。這樣一來,相比抓取或解析維基百科上的原始文本、圖像,Kaggle上結(jié)構(gòu)良好的JSON格式的維基百科相關(guān)內(nèi)容顯然就更具吸引力。
從某種意義上來說,這次維基媒體基金會被迫與谷歌Kaggle合作,凸顯了內(nèi)容平臺的反爬蟲策略在AI時代已經(jīng)落伍。因為在AI廠商高速迭代的爬蟲技術(shù)面前,內(nèi)容平臺的反爬蟲策略還做不到完美區(qū)隔人類與機器。
君不見在去年5月末,知乎網(wǎng)頁端出現(xiàn)了非登錄用戶無法查看全文的情況。彼時外界普遍認(rèn)為,知乎采取這一限制措施是為了反爬蟲,防止AI廠商使用爬蟲抓取其高質(zhì)量內(nèi)容來訓(xùn)練AI模型。然而僅僅過去了半年時間,知乎就放開限制,用戶無需登錄即可直接瀏覽完整內(nèi)容。
其實知乎“認(rèn)慫”的原因也不難猜測,畢竟他們的商業(yè)模式就是基于更多的人類用戶使用,非登錄用戶不可查看全文會極大影響獲客,進而讓知乎的商業(yè)價值受損。用戶體驗與反AI爬蟲不可兼得,這也是當(dāng)下全球所有內(nèi)容平臺共同面對的難題。
如今,非營利性的維基媒體基金會選擇逃避,要賺錢的美國新聞媒體,則是在嘗試讓AI廠商為他們的內(nèi)容付費。
(舉報)