OpenAI的聊天機器人ChatGPT在過去數月間,用近乎於人類的表現在科技圈掀起了一陣人工智能浪潮,大洋兩岸的無數人更是為之傾倒。然而就在大家沉迷於ChatGPT時,北京時間3月15日凌晨,OpenAI方面在預熱許久後帶來了新一代的多模態大模型GPT-4,為ChatGPT的熱潮又添了一把火。
在OpenAI官網公佈的GPT-4技術文檔中,前言部分是這樣形容它的,“我們已經創建了GPT-4,這是OpenAI擴大深度學習努力的最新里程碑。GPT-4是一個多模態大模型(接受圖像和文本輸入,文本輸出),雖然它在許多現實世界的場景中不如人類,但在各種專業和學術基準上表現出人類水平的性能。”
咋一看,GPT-4似乎並沒有那麼強大。相比於上一代的GPT-3,GPT-4的升級主要在於識圖能力,文字輸入的限制則提升至 2.5萬字,回答準確性也顯著提高,能夠生成歌詞、創意文本,並實現風格的變化。只不過在技術文檔中,OpenAI展示了一個無限接近人類的AI系統。
GPT-4到底有多麼智能,OpenAI為了向外界解釋了這個問題,並沒有扯太多的專業術語、也沒有“不服跑個分”,而是用了絕大多數人都親身經歷過的考試。在被稱為“美國高考”的SAT考試中,GPT-4在滿分1600分的測試中拿到了1410分,而在美國律師資格考試Uniform Bar Exam和法學院入學考試LSAT中,得分則更是高於88%的應試者。
GPT-4的做題能力到底有多強呢?在面對一道巴黎綜合理工學院的物理題時,GPT-4按照非常標準的分步解題步驟,拆解了整個問題,最終一步步推導出結果。如果拋開速度的差異,GPT-4真的就像大學生一樣在做試題,實現了類似人類的視覺感知到語義理解,再到邏輯推理的一整套流程。
如果說OpenAI舉例的這一系列考試對於國內用戶太遠,那麼GPT-4相比於基於GPT-3.5的ChatGPT還有一個質的飛躍,那就是可以處理圖像了,也就是說它能夠理解圖片的內容。比如說在OpenAI方面公佈的DEMO中,GPT-4不僅可以解釋圖片中的笑話、能寫出符合格律的詩作,更可以根據草稿紙上的一張草圖,僅10秒就將草圖變成與之相對應的網站。
不僅如此,GPT-4還能完成複雜的報稅工作,並附帶完整的計算過程和條款解釋,還有網友用GPT-4針對騷擾電話寫律師函,甚至用GPT-4直接生成一個簡單的遊戲。
其中從這裡就不難看出OpenAI的野心,那就是GPT-4不僅僅是一個簡單的聊天機器人,而是能在真正的生產力場景中用AI為人類賦能。
用英偉達AI科學家Jim Fan的說法,“GPT-4可以全靠自己考進斯坦福了”。圖靈獎得主、“深度學習之父”Geoffrey Hinton也對GPT-4讚歎不已,並表示,“毛蟲吸取了營養之後,就會化繭為蝶。而人類提取了數十億個理解的寶藏,GPT-4就是人類的蝴蝶。”
儘管GPT-4的表現足夠驚豔,但它依然沒能擺脫“滿嘴跑火車”這一現象。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比ChatGPT此前使用的GPT-3.5高出40%,但GPT-4一樣也會出現編造事實的情況,也就是會一本正經的胡說八道,比如給出完全不存在的網址。
OpenAI方面對此也毫不避諱,“GPT-4仍有許多已知的侷限性,我們正在努力解決,比如社會偏見、幻覺和對抗性提示。”
並且值得一提的是,在可控性方面,GPT-4則有了長足的進步。此前在應用了ChatGPT相關技術的新版Bing上,出現了在部分情況下會侮辱用戶、撒謊等行為,甚至還會故意撒謊、侮辱用戶或是情緒化操縱人類,以至於微軟方面不得不限制用戶每天的對話次數。按照OpenAI方面的說法,GPT-4的訓練在去年8月、也就是ChatGPT上線之前就已經完成,這半年的時間都用來對AI模型多個方面特徵的控制。
OpenAI在技術文檔中解釋到,GPT-4在RLHF(基於人類反饋的強化學習)訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求,來減少有害的輸出。並透露,“與GPT-3.5相比,它對不允許內容的請求做出回應的可能性低了82%。”
至於說GPT-4是否會衝擊到現有的人類工作,答案是未來或許確實有這種可能性,但現在還不至於會讓一部分人失業。畢竟,成本制約了GPT-4的發揮。來自OpenAI的價目表顯示,GPT-4的API價格為0.02美元/1000token(約750英文單詞或500漢字),而已經被用戶吐槽很貴的ChatGPT-turbo則還要便宜十倍。
當然,相信絕大多數吃瓜群眾最關心的話題,是我們現在能用上GPT-4嗎?答案是可以的、但有代價,現在OpenAI僅向花費20美元訂閱了ChatGPT Plus版本的用戶提供GPT-4。但除了直接給OpenAI付錢外,有能力的用戶還可以選擇打工的方式去GitHub – openai/evals參與測試,提交高質量反饋來獲得訪問權限。
但如果既不想花錢、又不願花時間,那麼使用微軟的新版Bing就是最簡單的方式了。沒錯,微軟已經發布新版Bing就已經就用上了GPT-4,要不當時微軟的說法為什麼是“基於類ChatGPT技術”。
一臺兩年前的三星手機,用跑分給我們上了一課
這款老旗艦如今的表現,也代表著旗艦機或許更值得買。