如今在全球範圍內，AI大模型之間的“戰爭”正如火如荼，而決定AI大模型性能的除了基於人類反饋的強化學習（RLHF）、AI反饋強化學習（RLAIF）等方法論，語料同樣也是核心要素之一。以ChatGPT為代表的AI大模型之所以比早前的Siri、Alexa更“聰明”，語料規模的量變產生質變是關鍵，因此對於語料資源的爭奪就成為了當下AI大模型賽道的主題，更直接導致了擁有語料資源的內容平臺開始待價而沽。

130143106925161206905977165054809779174041279490162720779533nEO_IMG_timg (1).jpg

日前據《華盛頓郵報》的相關報道顯示，“美國貼吧”Reddit已經與一系列AI巨頭會面，商討付費使用數據的事宜，如果雙方無法達成協議、談判破裂的話，Reddit將考慮禁止谷歌、必應等搜索引擎，以及其他廠商的爬蟲從該平臺獲取內容。其實Reddit向AI廠商收費這件事，此前在今年夏季曾經鬧出過一場風波，用戶也通過關閉子版塊的方式向官方發起抗議，導致Reddit癱瘓了數天之久。

但當時在Reddit方面的“拖字訣”下，用戶們缺乏組織性的抗議偃旗息鼓。即使平臺被迫停擺，Reddit都不曾向用戶妥協，這一點已經證明了Reddit是鐵了心想要把這些數據賣個好價錢。就像數據之於算法一樣，語料無疑是ChatGPT這類生成式AI更智慧的基礎所在。

130148361845193751596124w700d1q75cms (5).jpg

其實生成式AI的原理，大概可以總結為通過大量的語料庫進行訓練、以建立相應的模型，從而使得AI能夠對人類的問題作出相應的回答和決策，其核心邏輯就是“猜謎遊戲”。根據Google和Deepmind聯合發佈的相關論文顯示，模型在沒有達到一定規模前，得到的表現較為隨機，但在突破規模的臨界點後，表現則會大幅度提升。

毫無疑問，這一事實是Reddit方面敢於向OpenAI、谷歌、亞馬遜等企業收費的核心，畢竟即便拋開語料質量，作為一個內容平臺，擁有5000萬日活的Reddit有自信持續產出內容。誠然，Reddit上的內容與出版的書籍或報刊雜誌在質量上有著高下之分，但畢竟高質量語料的產能有限，此前也已有研究團隊預測，按照現在的速度，AI不出5年就會把人類所有的高質量語料用光。

130155723209164826365046125542208478nEO_IMG_1697517719359.jpg

事實上，效仿Reddit的例子在歐美市場幾乎比比皆是，且不提X（原推特），《紐約時報》、《華盛頓郵報》、路透社等530家歐美媒體已經上線了應對生成式AI的“攔截工具”，直接對ChatGPT等產品關上了大門。甚至喬治·馬丁等17位作家還向美國法院提起訴訟，指控公司OpenAI“大規模、系統性盜竊”，非法使用知名作家受版權保護的作品訓練ChatGPT。

那麼問題就來了，為什麼關於AI大模型的語料產出在海外市場已經可謂是沸反盈天，在國內卻風平浪靜呢？誠然，中文和英文兩種語言本身具有非常不一樣的特性，其中中文是表意文字、而英文是表音文字，並且文化差異導致各自語料庫質量的不同也會影響訓練結果，但目前國內市場的AI大模型的方法論與海外ChatGPT、Bard、LLaMA 2等沒有本質的區別，Copy To China的現象為何沒有發生？

130201691170165251599934QQ截圖20230414123053.jpg

其實最直接的原因，是有一部分國內內容平臺不像Reddit、X一樣“躺平”，Reddit敢於收費是因為它並不在局中。比如說，一直被看作是“ChatGPT概念股”的知乎在“2023知乎發現大會”上，就公佈了與面壁智能共建的大模型產品“知海圖AI”，短視頻巨頭快手也有“快意”和“可圖”兩個自研大模型，抖音背後的字節跳動更是全面進軍大模型賽道，推出了大模型服務平臺“火山方舟”、AI大模型“豆包”。

所以既然已經介入了大模型賽道，知乎、快手、抖音自然也就失去了向AI廠商收費的理由。因為AI大模型的訓練不可能僅靠知乎、抖音、快手自己平臺上的內容，必然還需要獲取來自第三方的語料，所以一旦效仿Reddit就會瞬間打破平衡，各大內容平臺會迅速開啟互相收費的爭鬥，結果就是各家的大模型訓練進度陷入停滯。

130218440891172128877144QQ瀏覽器截圖20230925132748.jpg

另一個讓國內內容平臺不必與AI廠商對壘的因素，是國內互聯網廠商不約而同地將Web端進行了閹割。過去數年間已有諸如閒魚等一大批產品“主動淘汰”了網頁版，即便沒有這樣做的廠商也大多選擇了劣化網頁版，比如“打開XX，閱讀全文”、“打開XX看更多”，千方百計引導用戶使用APP、而不是停留在網頁上，此外諸如小紅書等廠商更是直接採取了用戶不登錄根本無法使用任何功能的策略。

如此種種就導致了一個結果，網頁端功能的殘缺使得爬蟲工具根本無法獲得有效的數據，而擁有完整數據的App又是一個個孤島般的存在。App的特質導致了高度封閉的生態，使得AI廠商獲取數據存在不小的困難。儘管絕大部分App走的都是webservice通訊協議，有心人可以通過截獲數據傳輸包的方式來採集數據，但App通常都有防抓包檢測，更重要的是爬取App數據還存在違法的風險。

雖然許多互聯網廠商乃至法律工作者可能會認為爬取公開的數據不違法，但在全球範圍內關於數據保護不斷加強的背景下，爬取公開數據的風險係數並非恆定的，爬取有防抓包設計的App數據就更有風險了，很容易就會構成不正當競爭，相關案例在互聯網行業可謂是比比皆是。

當部分國內內容平臺已經變成了AI大模型賽道的一份子，另一部分平臺靠著弱化Web端讓AI廠商不敢抓取數據的情況下，自然就是一團和氣，所以也就不會有類似Reddit一般與OpenAI等AI廠商撕破臉的情況發生。

【本文圖片來自網絡】

推薦閱讀：

消費電子產品的技術退步，竟然是用戶選擇的結果

除了部分技術因素外，更直接的原因在於消費者選擇了妥協的產品。

谷歌為安卓開發維修模式，修手機不用擔心數據安全了

雖然谷歌這個想法很好，但在國內市場普及仍有障礙。

消費電子產品的技術退步，竟然是用戶選擇的結果

谷歌為安卓開發維修模式，修手機不用擔心數據安全了

相關文章