來源:華爾街見聞
據(jù)報道,Q*可能具備GPT-4所不具備的基礎(chǔ)數(shù)學(xué)能力,或意味著與人類智能相媲美的推理能力,網(wǎng)友推測,這可能代表OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。
隨著OpenAI CEO奧特曼回歸,宮斗大戲告一段落,但仍留下了許多未接的謎題。其中最為關(guān)鍵的,就是當(dāng)初奧特曼為何會被董事會解雇。
昨日,有媒體透露,就在奧特曼被開除四天前,幾名研究人員向董事會發(fā)出了一封信,警告一項強大的AI發(fā)現(xiàn)(Q*)可能威脅全人類。此外,OpenAI CTO Mira Murati此前在致員工的內(nèi)部信件中提到了一個代號為“Q*”的項目。據(jù)她稱,該項目為“董事會對奧特曼的一系列不滿中的因素之一”。
據(jù)多家媒體猜測,Q*讓OpenAI實現(xiàn)AGI的步伐大大提速,但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大,這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。
就在被解雇之前,奧特曼還在公開活動中表示:
“在OpenAI的歷史上,我們已經(jīng)取得了4次突破,最近一次是在過去的幾周里。當(dāng)我們把無知的面紗撕下,把發(fā)現(xiàn)的前沿向前推進時,我就在房間里。”
所謂的第四次突破,指的可能就是Q*項目。
什么是 Q*?
什么是Q*?
Q*讀作Q star,目前OpenAI內(nèi)部沒有任何關(guān)于Q*的詳細信息流出。
據(jù)一些業(yè)內(nèi)人士猜測,它可能是是機器學(xué)習(xí)算法Q-Learning(Q學(xué)習(xí))的同義詞,也許是OpenAI借助Q學(xué)習(xí)算法打造的新模型的代號,也許是一個相關(guān)的項目名稱。
科技博客PC Guide指出,OpenAI使用的Q*指的大概是貝爾曼方程中的最優(yōu)值函數(shù), Q*可能代表OpenAI找到或接近了效率優(yōu)化算法的最優(yōu)解。
根據(jù)天風(fēng)證券 分析師孔蓉的說法:
Q學(xué)習(xí)是一種基于強化學(xué)習(xí)的算法,用來在馬爾科夫決策過程中求解最優(yōu)控制問題。它的目標(biāo)是通過學(xué)習(xí)最優(yōu)策略,使智能體在未知環(huán)境中做出最佳選擇。
Q學(xué)習(xí)依據(jù)貝爾曼方程更新狀態(tài)-動作對應(yīng)的Q值,逼近最優(yōu)值函數(shù)。智能體通過與環(huán)境交互,觀察到新的狀態(tài)和獎勵,來更新執(zhí)行各個動作的Q值。
所謂貝爾曼方程,也被稱為動態(tài)規(guī)劃方程,是指數(shù)學(xué)家理查德·貝爾曼提出的用于解決復(fù)雜多階段問題的公式,通過求解該方程可以找到最優(yōu)值函數(shù)和最優(yōu)策略。
運行算法的人(或計算機)可以輸入一個目標(biāo)函數(shù),例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然后,算法將決定采取何種最佳行動來實現(xiàn)預(yù)期結(jié)果。
簡單來說,Q學(xué)習(xí)可以通過探索所有可能的路徑,學(xué)習(xí)到通往預(yù)期獎勵的最短路徑(最短路線),通過試錯找到更優(yōu)化的路徑,并隨著時間的推移達到優(yōu)化狀態(tài),每次都做出更好的決策。
據(jù)媒體報道,在奧特曼被解雇之前,OpenAI在內(nèi)部對Q*進行了演示,顯示Q*能夠解決小學(xué)程度的數(shù)學(xué)問題。
雖然完成小學(xué)數(shù)學(xué)題聽起來沒什么出色之處,但需要強調(diào)的是,包括GPT-4在內(nèi),世界上最先進的大語言模型通常都更擅長基于語言的任務(wù),即使面對加減乘除這樣的基礎(chǔ)數(shù)學(xué)都會犯錯誤。
如果真如報道所說,Q*有能力處理數(shù)學(xué)問題并給出明確答案,即使只是小學(xué)數(shù)學(xué),那也意味著巨大的飛躍。基礎(chǔ)數(shù)學(xué)能力或意味著與人類智能相媲美的推理能力,也意味著OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。
另外據(jù)一些網(wǎng)友猜測,Q*背后的模型模型可能已經(jīng)具備自主學(xué)習(xí)和自我改進的能力,或者能夠通過評估其行為的長期后果,在廣泛的場景中做出復(fù)雜的決策,可能已具備輕微自我意識。
最樂觀、或者最可怕的假設(shè)就是,OpenAI已經(jīng)完成了打造AGI的基礎(chǔ)工作。
聽起來很離譜,但確實有可能是真的。
共2 頁 [1] [2] 下一頁 第1頁 第2頁