11月28日,中國教育和(he)科(ke)研計算(suan)機網CERNET第二十八/二十九屆學(xue)術年會在福州開幕。會上,清華大(da)(da)學(xue)計算(suan)機系教授(shou)唐杰(jie)作(zuo)了(le)(le)題為《生成式人工智(zhi)能大(da)(da)模型(xing)的現狀和(he)未來》的特邀報告(gao),總結(jie)了(le)(le)人工智(zhi)能大(da)(da)模型(xing)的發展歷程,并對(dui)大(da)(da)模型(xing)的未來進(jin)行了(le)(le)展望。

唐(tang)杰 清華(hua)大學計算機系教(jiao)授
2020年:大模型元年
唐杰表(biao)示,預訓練(lian)大(da)模(mo)型(xing)是(shi)新一代(dai)人(ren)工智能應用(yong)的基礎設施(shi)。大(da)模(mo)型(xing)通(tong)用(yong)能力強,可完成多場(chang)景任務。從2018年(nian)到(dao)現在,其趨勢是(shi)由單模(mo)態向多模(mo)態發展,從文本逐步發展到(dao)視覺。
據唐(tang)杰介紹,Open AI引領了AGI(人(ren)工通用(yong)智能)的(de)研究。2020年(nian),GPT-3推(tui)出。GPT-3是跨時代意義(yi)的(de)語言大模(mo)(mo)型(xing),標志(zhi)AI文本生成進入下一個階段(duan)。因此(ci),2020年(nian)可以稱之為大模(mo)(mo)型(xing)元年(nian)。
今年,GPT-4發(fa)布。與GPT-3.5相比,GPT-4的數學能(neng)(neng)力(li)、微積分(fen)能(neng)(neng)力(li)大大增強(qiang),開(kai)始具備邏(luo)輯推理能(neng)(neng)力(li)、求解能(neng)(neng)力(li),并且(qie)走(zou)向了多模態(tai),實現圖(tu)像和文(wen)本輸入。而GPT-4.5(AII Tools)具有很強(qiang)的Agent(智能(neng)(neng)體)能(neng)(neng)力(li),融合(he)多種工具的Agent形(xing)態(tai),通過網(wang)頁瀏覽、代(dai)碼解釋、文(wen)件解析、圖(tu)片生成(cheng)、圖(tu)片理解,以(yi)及多工具結合(he),無需手動指定工具,能(neng)(neng)夠自動觸發(fa)。
唐杰表(biao)示(shi),GPT-4/4.5的(de)出現表(biao)明(ming),我國在大(da)(da)模型(xing)上的(de)研(yan)究還有空間,也需要繼續努力(li)。此外,目前來看,亟需建立以中文為核心(xin)的(de)自研(yan)大(da)(da)模型(xing)。
大模型發展歷程
唐杰認(ren)為(wei),可以把GPT(生成式預訓練Transformer模(mo)(mo)型)的(de)發展分為(wei)三個(ge)階(jie)段(duan)。第一(yi)階(jie)段(duan)是(shi)(shi)“千億基座(zuo)模(mo)(mo)型”,相當于(yu)機器把世界(jie)上所有(you)的(de)書(shu)讀了個(ge)遍,把知識都學會(hui),但(dan)“飽(bao)讀詩書(shu)”的(de)大模(mo)(mo)型卻未必會(hui)“考試”;第二階(jie)段(duan)是(shi)(shi)“有(you)監督指令微調”,相當于(yu)“教”大模(mo)(mo)型怎么(me)“考試”,怎么(me)回應痛點,怎樣跟(gen)人類(lei)的(de)思維方式對齊;第三階(jie)段(duan)是(shi)(shi)“人類(lei)反(fan)饋強化(hua)學習(xi)”,將強化(hua)學習(xi)與(yu)人類(lei)反(fan)饋相結合,利用(yong)人類(lei)提供的(de)反(fan)饋來指導大模(mo)(mo)型的(de)行為(wei)。
為什么AGI會(hui)迎(ying)來(lai)爆發?唐杰進一步(bu)回顧(gu)了人工智(zhi)能(neng)的發展歷程。
他表示,人(ren)工智(zhi)能(neng)的(de)(de)(de)發展可以(yi)(yi)分為(wei)三(san)(san)個(ge)(ge)時期。第(di)(di)一個(ge)(ge)時期是(shi)“符號AI”,實(shi)現(xian)(xian)了(le)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)的(de)(de)(de)可搜索性,讓計(ji)算(suan)(suan)(suan)機(ji)用(yong)描述語言把人(ren)類知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)描述出(chu)來(lai),這一階(jie)段以(yi)(yi)各種“專家系統(tong)(tong)”為(wei)代表。第(di)(di)二個(ge)(ge)時期是(shi)“感知(zhi)(zhi)(zhi)(zhi)(zhi)智(zhi)能(neng)”,實(shi)現(xian)(xian)了(le)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)的(de)(de)(de)可計(ji)算(suan)(suan)(suan)性,大(da)數(shu)據驅動的(de)(de)(de)統(tong)(tong)計(ji)學(xue)習方(fang)法初步實(shi)現(xian)(xian)了(le)針對文本、圖像(xiang)、語音等的(de)(de)(de)感知(zhi)(zhi)(zhi)(zhi)(zhi)與(yu)識(shi)別。第(di)(di)三(san)(san)個(ge)(ge)時期是(shi)“認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)智(zhi)能(neng)”,實(shi)現(xian)(xian)了(le)認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)的(de)(de)(de)可計(ji)算(suan)(suan)(suan)性。中科院院士、清華(hua)大(da)學(xue)教授張(zhang)鈸在(zai)(zai)2016年提出(chu)第(di)(di)三(san)(san)代人(ren)工智(zhi)能(neng)雛(chu)形(xing),DARPA(美國國防高(gao)(gao)級(ji)研究計(ji)劃(hua)(hua)局)在(zai)(zai)2018年發布(bu)“AI Next”計(ji)劃(hua)(hua)。核(he)心(xin)思路是(shi)推(tui)(tui)進數(shu)據統(tong)(tong)計(ji)與(yu)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)推(tui)(tui)理融合的(de)(de)(de)計(ji)算(suan)(suan)(suan),與(yu)腦認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)機(ji)理融合的(de)(de)(de)計(ji)算(suan)(suan)(suan)。在(zai)(zai)此(ci)階(jie)段,機(ji)器“認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)”實(shi)現(xian)(xian)了(le)元學(xue)習:自動學(xue)習認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)目標。而目前急需的(de)(de)(de)是(shi)高(gao)(gao)質量超(chao)大(da)規(gui)模知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)圖譜(AI的(de)(de)(de)基(ji)礎設施)以(yi)(yi)及對超(chao)大(da)規(gui)模數(shu)據的(de)(de)(de)深度理解能(neng)力(面(mian)向(xiang)認(ren)(ren)知(zhi)(zhi)(zhi)(zhi)(zhi)的(de)(de)(de)深度學(xue)習)。
解密大模型
2017~2018年,隨著(zhu)Transformer的誕生,語言模(mo)(mo)(mo)型(xing)規(gui)模(mo)(mo)(mo)迅速擴(kuo)大(da)。大(da)模(mo)(mo)(mo)型(xing)的出現(xian)(xian)還(huan)帶來了in-context能(neng)(neng)(neng)力(隱含模(mo)(mo)(mo)式遷移(yi))。一方面,大(da)規(gui)模(mo)(mo)(mo)模(mo)(mo)(mo)型(xing)算(suan)力需求迅速增長(chang),單模(mo)(mo)(mo)型(xing)計(ji)算(suan)量每年增長(chang)10倍,形成新(xin)的“摩爾定律”;另一方面,機(ji)器智能(neng)(neng)(neng)的規(gui)模(mo)(mo)(mo)效應,擁有(you)量變到質變的能(neng)(neng)(neng)力,在(zai)千億(yi)稠密參數(shu)(~100B,或 1023FLOPS訓(xun)練量)時(shi)模(mo)(mo)(mo)型(xing)能(neng)(neng)(neng)力開(kai)始出現(xian)(xian)“涌現(xian)(xian)”。
唐杰總結道(dao),總的來說,大模型理論研究還明(ming)顯落后于工程進展。我們(men)在工程上(shang)看到(dao)了很(hen)多現象,但(dan)在理論上(shang)卻解釋得不(bu)夠清楚。
為解密大模型(xing)(xing),對(dui)標(biao)GPT系(xi)列模型(xing)(xing),唐杰及團(tuan)隊推出(chu)了GLM系(xi)列模型(xing)(xing)。據唐杰介紹,GLM系(xi)列把千億基座模型(xing)(xing)、有監督指令(ling)微調、人(ren)類反饋強化(hua)學習這(zhe)三個(ge)階段相對(dui)壓縮了時間,并在算法(fa)方(fang)面進(jin)行了創新,提出(chu)“自回(hui)歸填空”。2022年,在斯坦福大學大模型(xing)(xing)中(zhong)(zhong)心(xin)報(bao)告(gao)的世(shi)界主流大模型(xing)(xing)評測中(zhong)(zhong),GLM-130B是亞洲(zhou)唯一入選模型(xing)(xing),其(qi)準確性、惡意性與GPT-3持平,魯棒性和校準誤差(cha)在所有模型(xing)(xing)中(zhong)(zhong)表(biao)現最佳。
2024年:AGI元年?
唐杰表示(shi),對于(yu)(yu)未來(lai)AGI的走勢,我們還(huan)面臨很(hen)多挑戰。首先(xian),從工程(cheng)角度看,Scaling(規(gui)模(mo)化(hua))的盡頭(tou)是(shi)AGI嗎?一方(fang)面,真(zhen)正的Scaling規(gui)模(mo)遠超學術界想象(xiang)。擴(kuo)大規(gui)模(mo)不僅僅基于(yu)(yu)參數(shu)量(liang),更多的是(shi)基于(yu)(yu)計算(suan)量(liang)。另一方(fang)面,Scaling仍有空(kong)間,單卡摩爾定律(lv)放緩,但系統(tong)角度仍在延(yan)續。
唐杰進(jin)一步表示,Scaling的(de)(de)(de)(de)真(zhen)正極限,也(ye)許是(shi)AGI的(de)(de)(de)(de)一點曙光。未來(lai)更(geng)大的(de)(de)(de)(de)挑戰(zhan)是(shi),人(ren)(ren)類的(de)(de)(de)(de)認知到底是(shi)怎樣的(de)(de)(de)(de)?從(cong)(cong)人(ren)(ren)類大腦進(jin)化的(de)(de)(de)(de)歷程(cheng)來(lai)看(kan),腦容量逐漸擴張,在此過程(cheng)中人(ren)(ren)類實(shi)現(xian)了工具能(neng)力、語言能(neng)力等等,那么大模型的(de)(de)(de)(de)發展是(shi)否也(ye)可以遵循人(ren)(ren)腦進(jin)化的(de)(de)(de)(de)道路,慢(man)慢(man)發展出工具能(neng)力、語言能(neng)力和其他能(neng)力?從(cong)(cong)這一點看(kan),AGI之路還(huan)很長。
據了解,日前,Open AI提出超(chao)級對齊(Superalignment)的概念(nian)。唐杰表示,Superalignment本(ben)質(zhi)上就是超(chao)級智能(neng)與(yu)超(chao)級安全,是讓AGI跟人類(lei)的價值觀意識觀對其,并且實現(xian)超(chao)過(guo)人類(lei)智能(neng)的智能(neng)。從這一點看,也許2024年將是AGI的元(yuan)年。
本文(wen)根據清華大(da)學(xue)計算機系教授唐杰在(zai)CERNET第二(er)(er)十(shi)(shi)八/二(er)(er)十(shi)(shi)九(jiu)屆學(xue)術(shu)年(nian)(nian)會上的(de)報(bao)告整理,點(dian)文(wen)末(mo)“閱讀原文(wen)”可(ke)進入CERNET第二(er)(er)十(shi)(shi)八/二(er)(er)十(shi)(shi)九(jiu)屆學(xue)術(shu)年(nian)(nian)會專題(ti)
① 凡本(ben)站(zhan)注(zhu)明(ming)(ming)“稿(gao)件(jian)來源(yuan):中(zhong)(zhong)國教(jiao)育在線”的(de)所有文字、圖片和音(yin)視頻稿(gao)件(jian),版權(quan)(quan)均屬(shu)本(ben)網(wang)(wang)(wang)所有,任何媒(mei)體、網(wang)(wang)(wang)站(zhan)或(huo)個(ge)人未經本(ben)網(wang)(wang)(wang)協議授權(quan)(quan)不得轉載(zai)、鏈接、轉貼或(huo)以其他方(fang)式復制發(fa)表。已(yi)經本(ben)站(zhan)協議授權(quan)(quan)的(de)媒(mei)體、網(wang)(wang)(wang)站(zhan),在下載(zai)使用時必須注(zhu)明(ming)(ming)“稿(gao)件(jian)來源(yuan):中(zhong)(zhong)國教(jiao)育在線”,違者本(ben)站(zhan)將(jiang)依法追究責任。
② 本站注明(ming)稿(gao)件來源為(wei)其(qi)他媒體的文/圖(tu)等稿(gao)件均為(wei)轉載稿(gao),本站轉載出于非商業性(xing)(xing)的教育和科研之目的,并(bing)不意味著贊同其(qi)觀(guan)點或(huo)(huo)證實其(qi)內容的真實性(xing)(xing)。如(ru)轉載稿(gao)涉及版(ban)權等問題,請作者在兩周內速來電(dian)或(huo)(huo)來函聯系(xi)。




中國教育在線
