黃仁勛認為,我們距離一個可以“高度信任”的AI系統(tǒng)仍有“數(shù)年之遙”。整個行業(yè)也在重新思考如何在有限數(shù)據(jù)和資源下更有效地訓(xùn)練模型。
盡管人工智能正在迅速發(fā)展,但離一個可以高度信任的AI系統(tǒng)仍有距離。黃仁勛強調(diào),在未來數(shù)年內(nèi),持續(xù)提升計算能力和探索新的方法將是關(guān)鍵任務(wù)。同時,行業(yè)正重新思考如何在有限數(shù)據(jù)和資源下更有效地訓(xùn)練模型,以實現(xiàn)更可靠、更強大的人工智能應(yīng)用。
英偉達(NVDA.O)首席執(zhí)行官黃仁勛近日表示,目前的人工智能并不能提供最優(yōu)解答,我們距離一個可以“高度信任”的AI系統(tǒng)仍有“數(shù)年之遙”。
“目前我們得到的答案還遠非最佳答案,”黃仁勛在香港科技大學(xué)的采訪中說道。他指出,人們應(yīng)該不需要對AI的回答心存疑慮,比如它是否“幻覺化”或是否“合理”。
“我們必須達到這樣一個階段——你大體上可以信任AI的回答……而要實現(xiàn)這一點,我認為我們還有數(shù)年的路要走。在此期間,我們需要不斷提升計算能力。”
大語言模型的局限性:幻覺和數(shù)據(jù)瓶頸
像ChatGPT這樣的語言模型在過去幾年中取得了指數(shù)級的進步,能夠回答復(fù)雜問題,但依然存在諸多限制。其中,“幻覺”,即生成虛假或不存在的答案,是AI聊天機器人的持續(xù)問題。
例如,去年一位廣播主持人就因ChatGPT編造了一份虛假的法律指控文件而起訴OpenAI,而后者未對此作出回應(yīng)。
此外,一些AI公司正面臨如何在有限數(shù)據(jù)資源下推進大語言模型(LLM)發(fā)展的困境。黃仁勛表示,僅依靠預(yù)訓(xùn)練,即在大規(guī)模、多樣化的數(shù)據(jù)集上對模型進行訓(xùn)練,并不足以開發(fā)出功能強大的AI。
“預(yù)訓(xùn)練——自動從世界上的所有數(shù)據(jù)中發(fā)現(xiàn)知識——是不夠的……就像大學(xué)畢業(yè)是一個重要的里程碑,但它并不是終點。”
過去幾年,科技公司如OpenAI、Meta和谷歌專注于收集海量數(shù)據(jù)(維權(quán)),假設(shè)更多的訓(xùn)練數(shù)據(jù)會造就更智能、更強大的模型。然而,這種傳統(tǒng)方法如今正受到質(zhì)疑。
轉(zhuǎn)變思路:超越“盲目擴展”
研究表明,基于Transformer的神經(jīng)網(wǎng)絡(luò)(LLM的核心技術(shù))在數(shù)據(jù)量和計算能力增加時性能呈線性增長。然而,業(yè)界領(lǐng)導(dǎo)者開始擔(dān)憂這一策略的局限性,并嘗試探索替代方法。
Scale AI首席執(zhí)行官Alexandr Wang表示,AI投資主要基于這種“擴展定律”的假設(shè),但現(xiàn)在它已成為“整個行業(yè)的最大問題”。
Cohere公司首席執(zhí)行官Aidan Gomez認為,雖然增加計算能力和模型規(guī)模確實能提升性能,但這種方法有些“機械化”。“這種方法雖可靠,卻顯得有些愚蠢,”他在播客中說道。Gomez提倡開發(fā)更小、更高效的模型,這種方法因其成本效益受到支持。
其他人則擔(dān)心,這種方法可能無法實現(xiàn)“通用人工智能”(AGI,即匹配或超越人類智能的理論AI形態(tài))。
前Salesforce高管、AI搜索引擎You.com首席執(zhí)行官Richard Socher表示,大語言模型的訓(xùn)練方式過于簡單化,僅僅是“基于已知的token預(yù)測下一個token”。他認為,更有效的訓(xùn)練方式是強迫模型將問題轉(zhuǎn)化為計算機代碼,并基于代碼的輸出生成答案。這種方法能減少在定量問題上的幻覺,并增強AI能力。
行業(yè)觀點分化:規(guī)模擴展是否見頂?
然而,并非所有行業(yè)領(lǐng)導(dǎo)者都認為人工智能已經(jīng)遇到了規(guī)模擴張的障礙。
微軟首席技術(shù)官Kevin Scott持不同觀點。他在7月的采訪中表示:“與其他人的看法不同,我們尚未達到擴展規(guī)模的邊際收益遞減階段。”
OpenAI也在努力改進現(xiàn)有的大語言模型。例如,9月發(fā)布的o1模型仍基于Socher提到的token預(yù)測機制,但其在處理定量問題(如編程和數(shù)學(xué))方面更加出色,與更通用的ChatGPT有所不同。
前Uber工程師Waleed Kadous將兩者進行了類比:“如果將GPT-4擬人化,它更像是一個知道一切的朋友,在回答問題時會滔滔不絕,讓你從中篩選有價值的信息。而o1更像是那個仔細傾聽后沉思片刻,再給出一兩句切中要害答案的朋友。”
然而,o1模型需要更多計算資源,導(dǎo)致運行速度更慢、成本更高。
來源:金十?dāng)?shù)據(jù)