解決AI“高分低能” 需要升級的是考核機製
目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。
◎本報記者 華 淩
近jin日ri,有you媒mei體ti報bao道dao,目mu前qian部bu分fen人ren工gong智zhi能neng沉chen迷mi刷shua榜bang,在zai基ji準zhun測ce試shi時shi高gao分fen通tong過guo,表biao現xian優you異yi,但dan實shi際ji應ying用yong中zhong卻que還hai會hui犯fan一yi些xie非fei常chang基ji礎chu的de錯cuo誤wu。這zhe種zhong沉chen迷mi刷shua榜bang,忽hu略lve實shi用yong性xing質zhi的de行xing為wei造zao成cheng了le部bu分fenAI模型“高分低能”的現象。那麼,對於AI發展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?
AI模型哪家好,基準測試來說話
AI模型應該如何衡量其性能?
“目前AI模型能力的高低取決於數據,因為AI的本質是學習數據,輸出算法模型。為了公平衡量AI能力,很多機構、企業甚至科學家會收集、設計不同的數據集,其中一部分喂給AI訓練,得到AI模型,另外一部分數據用於考核AI模型的能力,這就是基準測試。”近日,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。
吳家驥介紹說,機器學習越來越多地用於各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫(yi)學(xue)診(zhen)斷(duan)等(deng)。因(yin)此(ci),了(le)解(jie)其(qi)在(zai)實(shi)踐(jian)中(zhong)的(de)行(xing)為(wei)和(he)性(xing)能(neng)變(bian)得(de)非(fei)常(chang)重(zhong)要(yao)。其(qi)魯(lu)棒(bang)性(xing)和(he)不(bu)確(que)定(ding)性(xing)的(de)高(gao)質(zhi)量(liang)估(gu)計(ji)對(dui)於(yu)許(xu)多(duo)功(gong)能(neng)至(zhi)關(guan)重(zhong)要(yao),尤(you)其(qi)是(shi)在(zai)深(shen)度(du)學(xue)習(xi)領(ling)域(yu)。為(wei)掌(zhang)握(wo)模(mo)型(xing)的(de)行(xing)為(wei),研(yan)究(jiu)人(ren)員(yuan)要(yao)根(gen)據(ju)目(mu)標(biao)任(ren)務(wu)的(de)基(ji)線(xian)來(lai)衡(heng)量(liang)其(qi)性(xing)能(neng)。
2010年,基於ImageNet數據集的計算機視覺競賽的推出,激發了深度學習領域一場算法與數據的革命。從此,基準測試成為衡量AI模型性能的一個重要手段。微軟公司的計算機科學家馬塞洛·裏貝羅表示,基準測試應該是從業者工具箱中的一個工具,人們用基準來代替對於模型的理解,通過基準數據集來測試“模型的行為”。
例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練,並在9個任務上進行測試,來判斷一個句子是否符合語法,並分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨後,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落後回答閱讀理解問題。僅經過1年的發展,AI模型的性能從不到70分輕鬆達到90分,超越了人類。
吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行性、有效性。因此,基準測試很有必要,這樣才可以公平驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自誇’。”
算法最終服務實踐,而非刷榜
有人說,高分是AI模型的興奮劑。於是,有的人工智能為了取得好成績而頻頻刷榜。
微軟公司2020年發布報告指出,包括微軟、穀歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子裏的“what's”改成“what is”,模(mo)型(xing)的(de)輸(shu)出(chu)結(jie)果(guo)就(jiu)會(hui)截(jie)然(ran)不(bu)同(tong),而(er)在(zai)此(ci)前(qian),從(cong)沒(mei)有(you)人(ren)意(yi)識(shi)到(dao)這(zhe)些(xie)曾(zeng)被(bei)評(ping)價(jia)還(hai)不(bu)錯(cuo)的(de)商(shang)業(ye)模(mo)型(xing)竟(jing)會(hui)在(zai)應(ying)用(yong)中(zhong)如(ru)此(ci)糟(zao)糕(gao)。顯(xian)然(ran),這(zhe)樣(yang)訓(xun)練(lian)出(chu)的(de)AI模型就像一個隻會考試、成績優異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什麼。
“為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現出色,但這些性能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。
在(zai)智(zhi)能(neng)手(shou)機(ji)領(ling)域(yu),我(wo)們(men)談(tan)及(ji)手(shou)機(ji)的(de)使(shi)用(yong)體(ti)驗(yan)時(shi)一(yi)般(ban)都(dou)不(bu)免(mian)會(hui)涉(she)及(ji)手(shou)機(ji)的(de)性(xing)能(neng)表(biao)現(xian),這(zhe)些(xie)性(xing)能(neng)通(tong)常(chang)會(hui)用(yong)跑(pao)分(fen)成(cheng)績(ji)來(lai)表(biao)現(xian)。然(ran)而(er),我(wo)們(men)常(chang)常(chang)會(hui)遇(yu)到(dao)一(yi)款(kuan)手(shou)機(ji)的(de)跑(pao)分(fen)成(cheng)績(ji)處(chu)於(yu)排(pai)行(xing)榜(bang)領(ling)先(xian)水(shui)平(ping),但(dan)是(shi)在(zai)實(shi)際(ji)使(shi)用(yong)過(guo)程(cheng)中(zhong)卻(que)出(chu)現(xian)動(dong)畫(hua)掉(diao)幀(zhen)、頁麵滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑,指出某品牌手機跑分時啟動了“性能模式”,而在平時的使用中“性能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。
尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數據集,讓基準變得更難。用沒有見過的數據測試,這樣才能判斷AImoxingshifounenggoubimianguonihe。yanjiurenyuankechuangjianyigedongtaishujushoujihejizhunceshipingtai,zhenduimeigerenwu,tongguozhongbaodefangshi,tijiaotamenrenweirengongzhinengmoxinghuicuowufenleideshuju,chenggongqipiandaomoxingdeyanglibeijiarujizhunceshizhong。ruguodongtaidishoujishujuzengjiabiaozhu,tongshidiedaishidexunlianmoxing,erbushishiyongchuantongdejingtaifangshi,AI模型應該可以實現更實質性的進化。
shangkunshuo,lingyizhongshisuoxiaoshiyanshineishujuhexianshichangjingzhijiandechaju。jixianceshiwulunfenshuduogao,haishiyaoyongshijichangjingxiadeshujulaijianyan,suoyitongguoduishujujijinxinggengtiejinzhenshichangjingdezengqianghekuorongshidejizhunceshigengjiajiejinzhenshichangjing。ruImageNet-C數據集,可根據16種不同的實際破壞程度對原有的數據集進行擴充,可以更好模擬實際數據處理場景。
應用廣泛,需盡快建立國家標準
美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數據集中,有超過3%的標注是錯誤的,基於這些基準跑分的結果則無參考意義。
“如果說,基準測試堪稱人工智能領域的‘科舉製’,那麼,‘唯分數論’輸shu贏ying,是shi不bu可ke能neng訓xun練lian出chu真zhen正zheng的de好hao模mo型xing。要yao打da破po此ci種zhong現xian象xiang,一yi方fang麵mian需xu要yao采cai用yong更geng全quan麵mian的de評ping估gu方fang法fa,另ling一yi方fang麵mian可ke以yi考kao慮lv把ba問wen題ti分fen而er治zhi之zhi,比bi如ru用yong多duo個geAI模型解決複雜問題,把複雜問題轉化為簡單確定的問題。簡單且經過優化的基線模型往往優於更複雜的方法。穀歌的研究人員為常見的AI任務引入了不確定性基線庫,來更好評估AI應用的穩健性和處理複雜不確定性的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。
雖然行業正在改變對於基準的態度,但目前基準測試研究仍然是一個小眾研究。穀歌在一份研究中采訪了工業界和學術界的53位AI從業者,其中許多人指出,改進數據集不如設計模型更有成就感。
譚茗洲表示,AI應用基準研究是構建國內統一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全麵有效的評估,片麵追求和采用高分AI模型,可能會讓模型在複雜極端場景下出現“智障”行為,並且可能由於訓練和推理性能的低效,造成不良社會影響、經濟損失和環境破壞。
譚茗洲強調,AI應用基準研究關乎國家戰略。針對重要領域,建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。
據了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻性研究,特別是針對AI應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題,正在開發可在線協作的數據標注與AI模型研發托管項目,並計劃今年陸續開源,正在為構建國家AI基準評估標準體係進行積極探索。
- 21-12-30科研人員研發出水麵智能保潔無人子母船係統 搭載動態避
- 21-12-31迄今最輕鎂同位素誕生
- 21-12-31我國瞄準智慧育種4.0時代進發
- 21-12-30研究人員開發出可自修複鈣鈦礦太陽能電池 運行500小
- 21-12-30韋布發射升空 五大天文任務可期
- 21-12-30氣候變暖影響下,這種動物或將麵臨“性別失調”
- 21-12-31控製調節性T細胞發育的生化“開關”找到
- 21-12-30“一不小心”活到200歲 太平洋岩魚的長壽秘訣人類可
- 21-12-31埃及法老木乃伊首次“數字化解封”
- 22-04-20超聲波為水下儀器和人體植入設備充電


