半個月前,在人工智能發展歷史中具有里程碑意義的GPT-4震撼發佈,它比GPT-3.5獲得了一項新的強大技能——圖像理解。簡單來說,它能和人類一樣“看圖說話”。
在這次升級前,一位杭州電子科技大學計算機專業的研究生已通過一個小型模型,讓原本只能理解語言文本的ChatGPT和GPT-3有了一雙“眼睛”。這項技術在評測數據集上的準確率超越了谷歌旗下的DeepMind,也就是推出AlpahGO那家公司研發的大型模型,同時所需的計算資源也大大減少。
目前,他的論文已被全球計算機頂級視覺會議CVPR2023收錄。
這種讓ChatGPT和GPT-3學會看圖的方法被稱為Prophet,由杭州電子科技大學和合肥工業大學的團隊共同開發。1998年出生的邵鎮煒是論文的第一作者,目前正在杭州電子科技大學計算機系攻讀碩士研究生。
使用Prophet後,GPT的圖像識別能力大幅提高。訓練後的GPT-3可以根據輸入的一張音樂現場圖片,準確回答現場舉辦的活動是音樂會。
再例如,向GPT-3輸入一張臥室圖片,其中有紅色的帷縵和白色的簾子,然後詢問簾子的材質,GPT-3給出的答案是:蕾絲。
OK-VQA數據集上的測試結果顯示,Prophet的準確率達到了61.1%,超越了DeepMind提出的同類模型Flamingo(57.8%)。在所需的算力資源上,Prophet也遠低於Flamingo。
Flamingo需要在1536塊谷歌自研的TPUv4高性能計算卡上訓練15天,而Prophet僅需一塊消費級顯卡訓練4天。憑藉這一研發,邵鎮煒發表了第一篇論文併成功入選世界頂級學術會議CVPR。作為三大頂會中唯一的年度學術會議,CVPR收錄的論文代表了計算機視覺領域的最新發展方向和最高研究水平。
對邵鎮煒來說,這個成績有著更特殊的意義。1歲時,他被確診為“進行性脊肌萎縮症”,肢體一級殘疾,沒有生活自理能力。但他從未放棄,在2017年高考中以第一名的成績被杭州電子科技大學計算機專業錄取,並在學校期間獲得多項榮譽,如2018年中國大學生自強之星、2020年度國家獎學金和2021年度浙江省優秀畢業生等。
邵鎮煒
在本科期間,邵鎮煒就開始跟隨導師餘宙教授進行科研活動,研究方向是跨模態學習。他的人生偶像包括圖靈、香農、Geoffrey Hinton(深度學習之父)等計算機領域的巨匠。邵鎮煒表示,他和小夥伴們一直在關注GPT系列方法的發展,早在ChatGPT發佈之前,就已注意到了GPT-3所蘊藏的巨大潛力和可能性。
餘宙教授(左)
由於身體原因,邵鎮煒的很多研究在家中完成。四五個月的時間,他逐行編寫了實驗代碼。身體狀況也是他選擇計算機專業的一個重要原因:“學計算機,只要一臺電腦就可以隨時隨地學習和研究。”
Prophet背後的高校團隊來自杭電媒體智能實驗室(MIL)。
該實驗室由國家傑出青年俞俊教授負責,實驗室近年來圍繞多模態學習方向發表了一系列高水平期刊會議論文(TPAMI、IJCV、CVPR等),並多次獲得IEEE期刊會議的最佳論文獎。
杭州電子科技大學計算機學院的餘宙教授是教育部“複雜系統建模與仿真”實驗室副主任,也是邵鎮煒那篇論文的第二作者以及通訊作者。“拍一張照片,問機器圖像相關的問題,在計算機領域叫視覺問答。比如問機器,一張圖片裡有幾個杯子,這種基於圖像的視覺信息的問答用以往的方法已經能完成得很好。”餘宙教授進一步解釋說,“但是如果問杯子的材質或者品牌,則是一個更加困難的問題,需要機器具備類似人類的生活常識和知識。Prophet方法就是聚焦於這樣的視覺問答任務。”
2020年,ChatGPT的前身GPT-3問世,展現出了強大的推理和決策能力。經過與人類思維方式的對齊,GPT-3的能力在接下來的兩年內取得了質的提升。
餘宙說:“GPT-3所具備的推理能力和豐富的知識,使我們開始思考能否將其作為一個知識庫,用於解決需要知識的視覺問答任務。在我們已有的技術積累的背景下,Prophet是我們對於在大模型時代如何開展跨模態領域的學術研究的一次積極思考和嘗試。”
在工業界,人工智能研究往往投入大量的計算資源,而Prophet方法則提供了一個用巧勁在高校做大模型研究的思路。通過Prophet方法的實踐,邵鎮煒和他的團隊證明了在有限的資源條件下,也能取得突破性成果。
AI如何幫助我們提升工作效率,解決現實中的痛點?如果你也有好的案例,歡迎來“杭州1024”分享。
橙柿互動·都市快報 記者 沈積慧
通訊員 程振偉