進入2023年後,或許已經鮮少有網友還沒聽過ChatGPT這個大名。這一繼元宇宙之後出現的“新浪潮”,儼然已經成為了今年科技圈的風口,包括海外市場的微軟、谷歌、亞馬遜,以及國內的百度、阿里、騰訊、字節跳動在內,幾乎但凡有一定技術實力的科技廠商也悉數下場,即便是技術力不夠的廠商也是八仙過海各顯神通,有諸如知乎這樣聯手合作伙伴的,也有像“美國貼吧”Reddit這樣“賣資源”的。
日前Reddit方面宣佈,將開始對使用其應用程序編程接口(API)的企業收費,該接口則提供了下載和處理人與人之間對話的相關數據。事實上,Reddit的API自2008年以來就一直是以免費的方式開放給第三方,對於突然轉向收費,Reddit方面的解釋,是此舉為了限制其API被用於訓練人工智能工具,其中包括OpenAI的ChatGPT、谷歌的Bard,以及微軟的Bing AI等。
儘管Reddit暫時還沒有公佈其API的具體收費標準,但官方已經透露,將為“需要額外功能、更高使用限制和更廣泛使用權的第三方,引入一個新的高級接入點”。而為了避免被外界指責“吃相難看”,Reddit方面還表示將會對一些訪問API的用戶免費,而這類用戶則主要包括科研機構的研究人員,或是從事非商業目的的研究員。
Reddit為何敢於去收這筆錢呢?其實成立於2005年的Reddit,已經是全球互聯網中歷史最悠久、同時也最有活力的社區之一。截止2021年10月,也就是Reddit官方最後一次披露的用戶數據表明,其擁有5300萬DAU和超過4.3億MAU。而來自Statista的數據顯示,Reddit是全美訪問量第六大的社交媒體,月活水平與Instagram、Twitter幾乎持平。
如此海量的用戶也造就了Reddit的活躍社區總數超過了14萬個,帖子總量超過3.66億,評論總數為23億,這也代表著沉澱在Reddit的內容已然成為了一個極為驚人的語料庫。而在AI領域,語料(Corpus)通常是一定數量和規模的文本資源集合,作為一個以論壇為形式展開業務的平臺,Reddit顯然是當下英語互聯網中最潮流、最日新月異的語料庫。例如OpenAI開發的ChatGPT以及最新的GPT-4,就有很多訓練數據被證實是來源於Reddit。
就像數據之於算法一樣,語料則是ChatGPT這類生成式AI更加智慧的基礎所在。生成式AI的原理,大概可以總結為通過大量的語料庫進行訓練,以建立相應的模型,從而使得AI能夠對人類的問題作出相應的回答和決策,其核心邏輯就是“猜謎遊戲”。經過大量的訓練後,AI預測出問題的答案,並不等於擁有智慧,而只是在玩文字遊戲,進行一次又一次的概率解謎,本質上與人類玩數獨或填字遊戲是一樣的。
那麼ChatGPT為什麼會表現得比以往的人工智能產品、比如Siri更聰明呢?其實單純是因為語料規模更大。例如GPT-3就擁有的1750億的參數量、45TB的訓練數據,以及高達1200萬美元的訓練費用,這也是OpenAI打造ChatGPT的基礎。而ChatGPT聰明的關鍵就在於湧現能力(Emergent ability)上,指的是在不進行參數更新的情況下,只在輸入中加入幾個示例,就能讓模型進行學習。
湧現能力從何而來呢,根據Google&Deepmind聯合發佈的相關論文顯示,模型在沒有達到一定規模前,得到的表現較為隨機,但在突破規模的臨界點後,表現則會大幅度提升。
例如在BIG-Bench上,GPT-3和LaMDA在未達到臨界點時,模型的表現都是接近於零。而在GPT-3的規模突破2 · 10^22 training FLOPs (13B參數),LaMDA的規模突破10^23 training FLOPs (68B參數)後,表現就開始快速上升。
“力大磚飛”就是當下大語言模型的底層邏輯,在這種情況下,語料基本決定了大語言模型的上限。語料雖然是越多越好,但問題是已經沒有更多高質量的數據供模型進行訓練了。
AI研究團隊Epoch在今年年初發表的論文表明,AI不出5年就會把人類所有的高質量語料用光。而且這一結果,則是Epoch將人類語言數據增長率,即全體人類未來5年內出版的書籍、撰稿的論文、編寫的代碼,都考慮在內預測出的結果。
Epoch團隊將語料分為了高質量和低質量兩種,其中高質量的語料指的是包括維基百科、新聞網站、GitHub上的代碼、出版書籍等,低質量語料則來源於Twitter、Facebook,以及Reddit上的內容。
正常情況下,AI廠商自然更願意使用高質量的語料,畢竟這能夠在最大限度上避免被偏見和歧視性言論“汙染”。但問題是,據統計,高質量語料數據的存量只剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數據集大了不到一個數量級。
所以當高質量語料不夠用的情況下,低質量語料即便再不好用也得用,不然大語言模型要如何成長。而對於低質量語料,充其量也只是在數據標註和清洗上投入更多成本,所以OpenAI、谷歌、亞馬遜等公司相當於就沒得選。所以Reddit如今就正是挾語料自重,料定了AI廠商只能硬著頭皮買。
釘釘為何不怕被打低分?因為這並不重要
消費者與用戶的分離,才是釘釘並不懼怕“低分”的最重要因素。