微軟密謀小尺寸AI模型,撇開OpenAI搞起了“B計劃”

微軟密謀小尺寸AI模型,撇開OpenAI搞起了“B計劃”

AI大模型無疑是2023年的關鍵詞,更是各大科技廠商競逐的熱門賽道。然而象徵著未來的AI大模型實在太費錢,以至於財大氣粗如微軟都開始考慮“Plan B”了。近日有爆料信息顯示,在微軟內部由Peter Lee領導的1500人研究團隊中,有一部分人轉向研發全新的LLM,它的體積更小、運營成本也低得多。

關於微軟的小尺寸AI模型,實際上在3個月前就已經初見端倪。此前在今年6月,微軟方面發佈了一篇題為《Textbooks Are All You Need》的論文,用規模僅為70億token的“教科書級別”數據訓練了一個13億參數的模型phi-1,證明高質量的小規模數據一樣能夠讓模型具備良好的性能。並且在phi-1的基礎上,此前微軟研究院還發布了名為phi-1.5的全新預訓練語言模型,可適用於QA問答、聊天格式和代碼等場景。

根據微軟方面的說法,在測試常識、語言理解和邏輯推理的基準下,phi-1.5的表現超出了相當一部分大模型。phi-1.5在帶LM-Eval Harness的GPT4AL跑分套件中,可以媲美Meta旗下擁有70億參數的開源大模型llama-2,在AGIEval得分上甚至超過了llama-2。

為什麼微軟要突然做小尺寸的AI模型呢?首要因素被外界認為可能是與OpenAI之間的糾葛。作為OpenAI的“金主”,微軟能夠在旗下產品中永久使用OpenAI現有知識產權的獨家權利,但這也並不代表他們就能控制OpenAI。所以對於微軟這樣的巨頭而言,無論是出於自身戰略安全的考量,還是為了在後續與OpenAI的合作關係中佔據更有利的地位,開發高質量的LLM都是一個必選項。

當然,目前AI大模型實在太耗能也是關鍵因素之一。在今年年初的設計自動化大會上,AMD首席技術官Mark Papermaster就展示了一張幻燈片,顯示機器學習系統的能耗與全球發電情況的對比。根據國際能源署估計,訓練大模型的數據中心變得越來越耗電,其用電量佔全球電力消耗的1.5%至2%,大致相當於整個英國的用電量,預計2030年這個比例將上升到4%。

根據Digital Information World發佈的相關報告顯示,數據中心為訓練AI模型產生的能耗將為常規雲服務的三倍,到2028年數據中心功耗將接近4250兆瓦、比2023年增加212倍。而OpenAI訓練GPT-3的耗電量為1.287吉瓦時,大約相當於120個美國家庭1年的用電量。但這還僅僅只是訓練AI模型的前期電耗,僅佔模型實際使用時所消耗電力的40%。

事實上,訓練AI大模型不僅耗能、還費水。在谷歌方面發佈的2023年環境報告中就顯示,他們2022年消耗了56億加侖(約212億升)的水,相當於37個高爾夫球場,其中52億加侖用於該公司的數據中心、比2021年增加了20%。

但AI大模型的高能耗是非常正常的,用ARM高級技術總監Ian Bratt的話來說,就是“AI計算需求是沒法滿足的。網絡規模越大、結果就越好,可以解決的問題也越多,電力使用與網絡規模成正比。”

有AI從業者表示,在此次疫情前,訓練一個Transformer模型所需的能耗在27千瓦時的範圍內,但現在Transformer模型的參數從5000萬增加到了2億,能耗也已經超過了50萬千瓦時。也就是說,參數的數量增加了四倍,可能耗卻增加了超過18000倍。從某種意義上來說,AI大模型帶來的種種創新功能,其實都是以處理性能和功耗方面的高昂成本為代價。

更多的電力驅動更多的GPU進行AI訓練,又要大量消耗水資源來冷卻GPU,這就是問題所在。以至於微軟被曝光正在制定一個路線圖,希望用小型核反應堆產生的電能來運營數據中心。更何況即便不提ESG(“環境、社會及管治”),單純從成本層面出發,研究小尺寸模型也是有價值的。

眾所周知,搭建了CUDA生態的英偉達是這一輪AI熱潮中的最大受益者,更是已經佔據了AI芯片市場的70%,如今H100、A100等計算卡更可謂是一卡難求。可現在的情況,是向英偉達購買算力已經成為了一個推高AI廠商成本的重要因素。所以小尺寸模型也就意味著需要的算力資源更少,只需購買更少的GPU就能解決問題。

雖然功能更強的大模型確實很好,但現在大模型的商業化還處於矇昧狀態,唯一賺得盆滿缽滿的是“買鏟子”的英偉達。所以在這樣的情況下,微軟自然也就有意來改變現狀了。

【本文圖片來自網絡】
推薦閱讀:

中國首個自主操作系統的生態之路,與它的轉型之痛

最初的Hopen OS,路可能走得有點偏。

多家頭部企業攜手,要為元宇宙插上翅膀

不久前成立的OpenUSD聯盟,或將為元宇宙插上翅膀。

Scroll to Top