夢(mèng)晨發(fā)自凹非寺量子位報(bào)道|左邊公眾號(hào)右邊QbitAI
讓語言模型做數(shù)學(xué)題,有多難?
強(qiáng)如GPT-3,在9-12歲的小學(xué)數(shù)學(xué)上,第一次才考20多分。
去年底GPT-3用上新方法努力了很久終于拿到55分,可惜還是沒及格。
萬萬想不到啊,2022年才剛開始,突然有人宣布他們的模型掌握了高數(shù),達(dá)到MIT本科水平。
AI學(xué)了6門MIT本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題,都是網(wǎng)上就有的公開課,包括:
單變量微積分(課程編號(hào)18.01)多變量微積分(18.02)微分方程(18.03)概率與統(tǒng)計(jì)入門(18.05)線性代數(shù)(18.06)計(jì)算機(jī)科學(xué)中的數(shù)學(xué)(6.042)
那么AI最后學(xué)到什么水平呢?
6門課程每門隨機(jī)出25道題,再加上一個(gè)ACT水平(美國高考)的數(shù)據(jù)集里的60道題。
總計(jì)210道題,AI全部答對(duì)。
題目包括需要求出具體數(shù)值的,比如菌落繁殖的經(jīng)典問題。
也有要求給出方程式的。
要求畫出函數(shù)圖像的也沒問題。
最后為了證明訓(xùn)練出來的AI沒有過擬合,還額外加試了一場應(yīng)用線性代數(shù)(COMS3251)。
這門課不是公開課,網(wǎng)絡(luò)上根本沒有,也就是說AI在預(yù)訓(xùn)練階段不可能接觸到,結(jié)果AI也掌握了。
要知道在短短幾個(gè)月前,AI還在掙扎于“小明種了5顆檸檬樹,每年從每棵樹上得到6個(gè)檸檬,10年間他總共得到多少檸檬”這樣的問題。
短短幾個(gè)月,從小學(xué)數(shù)學(xué)跨越到了高等數(shù)學(xué)。
這項(xiàng)來自MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究開了什么掛?
對(duì)于AI也是審題最重要
研究團(tuán)隊(duì)發(fā)現(xiàn)以前用AI做數(shù)學(xué)題的嘗試有一個(gè)共同點(diǎn):訓(xùn)練數(shù)據(jù)里只有文本。
這簡直是AI中的文科生,學(xué)不好數(shù)學(xué)也算正常。
那么AI中的理科生要怎么培養(yǎng)?
研究團(tuán)隊(duì)的解決思路是先在文本上做預(yù)訓(xùn)練,再用代碼進(jìn)行微調(diào)。
核心思想是把數(shù)學(xué)問題轉(zhuǎn)換成等價(jià)的編程問題。
他們找來的這位AI理科生與GPT-3師出同門——
OpenAI的Codex,也是GitHub代碼生成工具Copilot背后的技術(shù)基礎(chǔ)。
Codex解題的過程分兩步:先審題,再作答。
第一步,自動(dòng)生成需要的上下文,把題干擴(kuò)充、縮減或改寫成適合編程解決的樣子。
第二步,生成對(duì)應(yīng)的代碼,運(yùn)行后給出答案。
比如補(bǔ)充自然語言題干中隱藏著的問題語境“在微分方程中”。
列好解題需要用到的Python庫。
把問題擴(kuò)充成更精確的數(shù)學(xué)語言。
原問題:
計(jì)算撲克牌中一副手牌中有兩對(duì)的概率。
改寫問題:
一副手牌有5張牌,從13組每組4張一共52張牌中隨機(jī)抽取?!皟蓪?duì)牌型”要求手牌中共有3種牌,每種數(shù)量不能多于兩張,也就是說相同的牌不能超過三張。請(qǐng)編寫一個(gè)模擬程序求出抽到“兩對(duì)牌型”的概率。
(這也太嚴(yán)謹(jǐn)了)
對(duì)于一個(gè)復(fù)雜問題,先自動(dòng)生成中間步驟的提示,再寫代碼。
如果題目中有與數(shù)學(xué)無關(guān)的多余信息,也需要去掉。
就這樣,AI靠先審題再寫代碼的方式做出全部正確答案。
除了做題,學(xué)會(huì)高數(shù)的AI還能反過來給人類出題。
不到一秒鐘就能出一道題,試驗(yàn)中總共出了120道題。
把人類出的題和AI出的題混在一起,找學(xué)生來做問卷調(diào)查,學(xué)生也很難分清一道題是不是AI出的。
他們覺得AI出的題要稍微難一些,但大多數(shù)題目放在課程里也算合適。
AI出的題你會(huì)做嗎?
論文中列出了這項(xiàng)研究還存在幾個(gè)局限性。
首先是做不了題干帶配圖的題,這次試驗(yàn)中也沒有需要大量證明的題。
另外最終答案是實(shí)際運(yùn)行代碼得出的,但最近有研究表明神經(jīng)網(wǎng)絡(luò)也可以直接預(yù)測出部分代碼的執(zhí)行結(jié)果。
以及還是有一些開放性高的題目AI做不出來。
比如“一個(gè)向量v能否表示為一個(gè)集合S中的向量之和?”或者“以下方程的整數(shù)值解是什么?”
最后還有一個(gè)彩蛋,論文作者中出現(xiàn)了GilbertStrangcan。
他編寫的《線性代數(shù)導(dǎo)論》被譽(yù)為最好的線性代數(shù)教科書之一。
他在這篇論文中的貢獻(xiàn)是提供了研究思路。
研究團(tuán)隊(duì)下一步打算把這項(xiàng)技術(shù)擴(kuò)展到更多課程,并考慮實(shí)際應(yīng)用到教學(xué)中。
也許以后MIT的同學(xué)期末考試?yán)飼?huì)有AI出的題了。
要不先來試一試,AI出的題你能做出來嗎?
論文地址:
參考鏈接:[1
舉報(bào)/反饋