地表最強大模型,來了!
新模型o1有多強?!
沒有任何預兆,OpenAI扔出了王炸新模型OpenAI o1!
目前,o1開放了兩個版本:預覽版o1-preview和迷你版o1-mini。
o1-preview官方介紹:
o1-mini官方介紹:
新模型最大的兩個特點,一是會花更多的時間思考,二是在數學、編程、科學等復雜推理問題上的效果強的逆天!
在一段演示視頻中,用戶輸入問題后,o1模型進行了長達39秒的思考,隨后給出了高質量的正確答案。
在數學競賽中,gpt4o的準確率僅為13.4,o1-preview達到了56.7,而尚未公開的o1模型正式版取得了83.3的水準!是gpt4o效果的6倍!(AIME為美國高中數學競賽,旨在選拔最聰明的學生,o1模型的水平可躋身全國前500名學生的水平,成績超過了美國數學奧林匹克的分數線。)
在編程競賽中,gpt4o的采納率僅為11%,o1-preview為62%,o1正式版為89%!是gpt-4o效果的8倍!
在博士水平的科學問題上,o1-preview與o1正式版的準確率均為78左右,超越了人類專家的水平(69.7),更是大幅超越了gpt4o(56.1)。
在其他大模型常規(guī)測試中,o1模型的水平,也均大幅超越gpt4o。
如此強大的新模型,勢必會造成公眾對于其被濫用與犯罪等危險行為上的恐慌。對此,OpenAI表示:在安全性上,當用戶企圖繞過安全規(guī)則“越獄”時,gpt4o的阻攔得分僅為22,而o1-preview的得分高達84。
在價格上,o1-preview的輸入價格為$15/百萬tokens,輸出價格為$60/百萬tokens,o1-mini在價格上比o1-preview優(yōu)惠了80%,甚至比gpt4o還便宜一些。
人類在通往AGI的道路上,更近了一步!
在過去的6個月中,各家主流模型的能力愈加趨同,讓人不禁懷疑,這是否就是生成式AI的極限?懷疑的聲音、資本對泡沫的擔憂,此起彼伏。
o1的出現(xiàn),給了AI界一劑強心針!我已經預感到了新一輪AI軍備競賽的狂熱程度!
過去一年多的時間里,中國對AI新技術的追趕速度驚人。當時Sora發(fā)布,國內悲觀的聲音彌漫一時,而國內只用了4個月,就推出了快手可靈、智譜清影等一系列足以媲美Sora的AI視頻模型。
我很期待國內大模型能力追平OpenAI o1的時刻!
智譜、阿里、百度、MiniMax……加油!