就在不久前,微軟方面突然宣佈全面開放Bing Chat,因此也意味著所有擁有微軟賬戶的用戶均已能夠免費使用這一功能,而不在需要進入waiting list候補名單等待獲得測試資格。然而大量湧入的用戶卻讓微軟的算力不堪重負,Bing Chat已經開始出現了響應等待時間過長的問題。
為此,微軟廣告和網絡服務負責人米哈伊爾・帕拉欣在社交平臺公開向用戶道歉。他表示,“由於使用量不斷增長,我們添加GPU的速度還不夠快,但會竭盡所能地修復這個問題”。但為了解決Bing Chat由於全面開放導致用戶激增,而產生的算力不足問題,微軟方面不僅僅是在添加GPU。
近日有消息顯示,甲骨文(Oracle)和微軟(Microsoft)近期討論了一項不同尋常的協議,那就是如果任何一家公司為使用大規模AI的雲客戶所提供的計算能力不足,那麼雙方就將相互租用對方服務器。而這筆交易也被外界認為,將幫助這兩家雲服務提供商滿足市場對可運行AI所需的服務器資源日益增長的需求。
沒錯,即使兩者都是全球雲計算領域的巨頭,並且也是互為競爭對手關係,但是面對生成式AI所需要的海量算力,雙方也只能放下冰人。其實從本質上來說,ChatGPT這類大型語言模型就是要“大力出奇跡”,畢竟神經網絡的層數多了、參數規模大了、語料豐富了,“智能”也就湧現出來了。
根據市場調查機構TrendForce在今年3月初的推算顯示,如果以半精度浮點算力為311.88 TFLOPS的英偉達Ampere A100來計算,運行算力消耗高達3640PF-days(即假如每秒計算一千萬億次,需要計算3640天)的ChatGPT,需要至少3萬片A100 GPU才能讓這個模型運轉起來。而且這還沒完,並非將上萬片GPU堆疊在一起就能獲得算力,還必須要用專用網絡把它們聚集在一起。
那麼問題就來了,即使生成式AI對算力的需求是龐大的,作為市值驚人的科技巨頭,微軟和甲骨文難道是沒錢買算力嗎?
其實正如百度創始人李彥宏在不久前的內部演講中所言,“算力是可以買來的,但創新的能力是買不來的”,就能夠代表一種極為普遍的認知。那就是算力本身雖然是資源、但它不是非賣品,只要有錢就能買到。然而,事實真的是這樣的嗎?
答案或許是否定的,最起碼現階段有錢還真就不一定能買到算力。
此前在2022年劍橋AI發佈的工智能狀況全景報告中,就對當時全球各企業和機構擁有的英偉達A100和H100 GPU數量進行了統計。其中排名前三位的分別是Meta(21400)、歐洲超算Leonardo(13824)和特斯拉(7360),只不過彼時這三家公司/機構都沒有將算力應用在生成式AI領域。例如Meta將算力給到了元宇宙業務上,歐洲超算Leonardo主要瞄準的是氣候、航空航天和生物醫藥,特斯拉則是將算力用在了訓練Autopilot與自動駕駛的深度神經網絡。
沒錯,即便是一手打造了A100和H100的英偉達,也沒有預料到生成式AI會從2022年秋季開始如同超新星爆炸般席捲全球,以至於他們在今年3月為了滿足激增的用戶需求,向臺積電增加了A100、H100、A800 GPU的訂單。換而言之,即便微軟、甲骨文想要挖掘生成式AI這個金礦,現在可能也沒有足夠的鏟子。這時候為了緩解燃眉之急,兩者暫時握手言和也不是不能理解的。
看到這裡,或許有許多玩家可能會有這樣一個疑問,那就是以ChatGPT為代表的生成式AI的走紅,會像當初加密貨幣的礦潮一般造成顯卡大幅度溢價嗎?
顯然,玩家們的擔憂不無道理,因為“挖掘"加密貨幣需要計算,所以擁有算力的顯卡也就成為了礦工的生產力工具。而後者洶湧澎湃的購買需求更是曾直接導致了前幾年顯卡價格的一飛沖天,並且一卡難求的景象更是歷歷在目。同理AI也需要算力,英偉達的GeForce顯卡同樣能提供出色的算力。
然而事實並非如此,人工智能訓練需要的更多是半精度浮點運算性能(FP16),英偉達的A100和H100這類產品就都對此進行了專門的優化,而作為遊戲顯卡的GeForce系列則更注重單精度(FP32)和雙精度(FP64)浮點算力。
比如說都是基於安培架構,A100的FP16大概是311.9TFLOPS,而作為RTX 30系列中高端產品的RTX 3070就只有81.2TFLOPS。甚至於到了RTX 40系列,作為旗艦產品的RTX 4090由於被取消了NVLink橋接設計,使得多卡協同至此變成了過去式。但不同於挖礦是一張顯卡“單打獨鬥”,訓練大語言模型則是需要GPU集群的。
所以儘管AI算力緊缺已成為事實,但也無法像曾經的“挖礦”一樣影響到消費級市場,因此玩家朋友們也大可放寬心。
讓手機的快充“慢下來”,其實也是一種技術進步
當快充機型學會“慢充”,其實同樣也是一種技術進步。