OpenAI新模型GPT-4o有哪些突破,?

小宸
熬夜看完OpenAI發(fā)布會,準確地講這是一次偽裝成春季update的智能交互變革,,貌似一小步的一大步,。OpenAI再次制造了一波焦慮——
1.從之前讀文看圖以及遲滯感明顯的語音交互,到GPt-4o的實時多模態(tài)自然交互,知道的人知道這意味著什么,,大模型從此呆瓜變"真人”,,能看能說能思考的自然交互,讓智能瞬間變得人人隨時隨地唾手可得,。不能低估交互,,能力、場景,、用戶基數(shù)瞬間幾何級放大,;
2.百分百可以肯定不只是GPT4的后端能力+前端Chatbot聊天機器人,多模態(tài)自然交互這部分是GPT-5能力的選擇性釋放,,OpenAI在控制節(jié)奏,,不會也不愿一次性把GPT全都放出來,之前表達過這種觀點,;
3.沖擊就是:一批基于GPT做語音等多模態(tài)自然交互的,,一批基于家庭做情感陪伴的,包括一批基于機器人做具身智能交互界面的,,智能硬件底層邏輯需要進一步重構,,手機廠商自研模型還需努力,包括一批做情緒計算的,,助手,、教育、翻譯等更危了......想套殼GPT或OTT的,,基本都會被GPT反過來蓋帽,。
4.Siri呆若木雞,Claude相形失色,,Gemini反正不會......客觀而言,,其它閉源開源還沒這么能打的。不過就GPT4動不動卡殼掉鏈子的那副表現(xiàn),,GPT-4o的用戶體驗從流暢度來說好不到哪里去,,能到發(fā)布會演示水平的一丟丟就不錯了。
5.GPT-4o免費可限量用,,付費可多用,,和GPT3.5以及最近部分免費一樣,典型的敞口漏斗營銷策略,,不過還沒充分拉開梯度,,導致需求量較大的非開發(fā)者非企業(yè)用戶經(jīng)常受限的情況在GPT-4o估計會更嚴重。
6.重新理解攝像頭,,重新機器視覺,、聽覺。手機等移動終端和碎片場景下的應用爆發(fā)力,,將不輸AI PC等生產(chǎn)力場景,,甚至移動引爆會走在前面。這就不是幾億而是幾十億用戶的問題了,。
如果預估OpenAI手里還沒打出來的幾張牌,,直覺會認為競爭對手一時不好追,競品在一些基準測試成績接近GPT4是當下的競爭尺度和維度之一,,但接下來維度實際有好幾個(轉自胡延平朋友圈)

不再猶豫
幾點:
1、能解數(shù)學題,,這個沒有重點被展開,,但我一直覺得這是真正的底層邏輯能力,這涉及意義系統(tǒng)與形式系統(tǒng)的映射,,說白了就是有抽象能力了,,畢竟除了人之外的生命只有具象能力。
2,、情緒感知與共情,。人的情緒是內在生化反應與外界環(huán)境互動的結果,機器對情緒的處理應該還是模擬,,算感知不算共情,,但做到這個程度可以以假亂真。
3,、隨時打斷,。算力支撐與算法優(yōu)化沒的說。
4,、4o,。這個o,代表omni,,本意可能是多模態(tài),,支持聲音文本視頻多語言等等所具有的通用性。但總給人感覺暗示Omniscient, omnipresent, omnipotent的祂,。

獨步風云
這次OpenAI發(fā)布會的重點應該在多模態(tài)模型GPT-4o,,它有幾大特點:多模態(tài)、無延遲,、可在桌面運行,。最重要的是它能處理包括文字、音頻,、圖像在內的信息流,,而且能夠識別人類的情感,,作出情感上的回應。作為一個多模態(tài)模型,,OpenAI又開創(chuàng)了一個新紀元,,使人工智能從語言互動提升到了語音視頻互動,相信國內的大模型廠商也會跟上步伐,。
另外,,外界期待的OpenAI搜索引擎并未發(fā)布,此前奧特曼已經(jīng)宣布過,,這對谷歌而言是個大利好,。