您所在的位置:紅商網(wǎng) >> 天下匯頻道 >> 正文
內(nèi)部人擔(dān)憂“威脅人類生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

  來源:華爾街見聞

  據(jù)報道,Q*可能具備GPT-4所不具備的基礎(chǔ)數(shù)學(xué)能力,或意味著與人類智能相媲美的推理能力,網(wǎng)友推測,這可能代表OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。

  隨著OpenAI CEO奧特曼回歸,宮斗大戲告一段落,但仍留下了許多未接的謎題。其中最為關(guān)鍵的,就是當(dāng)初奧特曼為何會被董事會解雇。

  昨日,有媒體透露,就在奧特曼被開除四天前,幾名研究人員向董事會發(fā)出了一封信,警告一項強大的AI發(fā)現(xiàn)(Q*)可能威脅全人類。此外,OpenAI CTO Mira Murati此前在致員工的內(nèi)部信件中提到了一個代號為“Q*”的項目。據(jù)她稱,該項目為“董事會對奧特曼的一系列不滿中的因素之一”。

  據(jù)多家媒體猜測,Q*讓OpenAI實現(xiàn)AGI的步伐大大提速,但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大,這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。

  就在被解雇之前,奧特曼還在公開活動中表示:

  “在OpenAI的歷史上,我們已經(jīng)取得了4次突破,最近一次是在過去的幾周里。當(dāng)我們把無知的面紗撕下,把發(fā)現(xiàn)的前沿向前推進時,我就在房間里。”

  所謂的第四次突破,指的可能就是Q*項目。

  什么是 Q*?

  什么是Q*?

  Q*讀作Q star,目前OpenAI內(nèi)部沒有任何關(guān)于Q*的詳細信息流出。

  據(jù)一些業(yè)內(nèi)人士猜測,它可能是是機器學(xué)習(xí)算法Q-Learning(Q學(xué)習(xí))的同義詞,也許是OpenAI借助Q學(xué)習(xí)算法打造的新模型的代號,也許是一個相關(guān)的項目名稱。

  科技博客PC Guide指出,OpenAI使用的Q*指的大概是貝爾曼方程中的最優(yōu)值函數(shù),Q*可能代表OpenAI找到或接近了效率優(yōu)化算法的最優(yōu)解。

  根據(jù)天風(fēng)證券分析師孔蓉的說法:

  Q學(xué)習(xí)是一種基于強化學(xué)習(xí)的算法,用來在馬爾科夫決策過程中求解最優(yōu)控制問題。它的目標(biāo)是通過學(xué)習(xí)最優(yōu)策略,使智能體在未知環(huán)境中做出最佳選擇。

  Q學(xué)習(xí)依據(jù)貝爾曼方程更新狀態(tài)-動作對應(yīng)的Q值,逼近最優(yōu)值函數(shù)。智能體通過與環(huán)境交互,觀察到新的狀態(tài)和獎勵,來更新執(zhí)行各個動作的Q值。

  所謂貝爾曼方程,也被稱為動態(tài)規(guī)劃方程,是指數(shù)學(xué)家理查德·貝爾曼提出的用于解決復(fù)雜多階段問題的公式,通過求解該方程可以找到最優(yōu)值函數(shù)和最優(yōu)策略。

  運行算法的人(或計算機)可以輸入一個目標(biāo)函數(shù),例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然后,算法將決定采取何種最佳行動來實現(xiàn)預(yù)期結(jié)果。

  簡單來說,Q學(xué)習(xí)可以通過探索所有可能的路徑,學(xué)習(xí)到通往預(yù)期獎勵的最短路徑(最短路線),通過試錯找到更優(yōu)化的路徑,并隨著時間的推移達到優(yōu)化狀態(tài),每次都做出更好的決策。

  據(jù)媒體報道,在奧特曼被解雇之前,OpenAI在內(nèi)部對Q*進行了演示,顯示Q*能夠解決小學(xué)程度的數(shù)學(xué)問題。

  雖然完成小學(xué)數(shù)學(xué)題聽起來沒什么出色之處,但需要強調(diào)的是,包括GPT-4在內(nèi),世界上最先進的大語言模型通常都更擅長基于語言的任務(wù),即使面對加減乘除這樣的基礎(chǔ)數(shù)學(xué)都會犯錯誤。

  如果真如報道所說,Q*有能力處理數(shù)學(xué)問題并給出明確答案,即使只是小學(xué)數(shù)學(xué),那也意味著巨大的飛躍。基礎(chǔ)數(shù)學(xué)能力或意味著與人類智能相媲美的推理能力,也意味著OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。

  另外據(jù)一些網(wǎng)友猜測,Q*背后的模型模型可能已經(jīng)具備自主學(xué)習(xí)和自我改進的能力,或者能夠通過評估其行為的長期后果,在廣泛的場景中做出復(fù)雜的決策,可能已具備輕微自我意識。

  最樂觀、或者最可怕的假設(shè)就是,OpenAI已經(jīng)完成了打造AGI的基礎(chǔ)工作。

  聽起來很離譜,但確實有可能是真的。

2頁 [1] [2] 下一頁 

    東治書院2024級易學(xué)文士班(第二屆)報名者必讀
    『獨賈參考』:獨特視角,洞悉商業(yè)世相。
    【耕菑草堂】巴山雜花土蜂蜜,愛家人,送親友,助養(yǎng)生
    解惑 | “格物致知”的“格”到底是什么意思?
    ❤❤❤【拙話】儒學(xué)之流變❤❤❤
    易經(jīng) | 艮卦究竟在講什么?兼斥《翦商》之荒謬
    大風(fēng)水,小風(fēng)水,風(fēng)水人
    ❤❤❤人的一生拜一位好老師太重要了❤❤❤
    如何成為一個受人尊敬的易學(xué)家?
    成功一定有道,跟著成功的人,學(xué)習(xí)成功之道。
    關(guān)注『書仙笙』:結(jié)茅深山讀仙經(jīng),擅闖人間迷煙火。
    研究報告、榜單收錄、高管收錄、品牌收錄、企業(yè)通稿、行業(yè)會務(wù)
    ★★★你有買點,我有流量,勢必點石成金!★★★