日产精品久久久久婷婷,国产精品1区,超碰95资源站,乱码Av一区二区三区,懂色蜜偷拍,亚洲69精品,精品久久久污污,亚洲成人人体久久久,欧美色图五月天

報(bào)告服務(wù)熱線400-068-7188

GPT-4.5震撼發(fā)布!智商高情商高,價(jià)格更高

分享到:
20 直面派 ? 2025-02-28 15:00:54  來(lái)源:直面AI E10667G0

作者|畢安娣 來(lái)源|直面AI(ID:wujicaijing)

這才是OpenAI對(duì)抗DeepSeek壓力的一記還擊。

之前將推理模型下放給免費(fèi)用戶只是小打小鬧,北京時(shí)間2月28日凌晨4點(diǎn),OpenAI震撼發(fā)布GPT-4.5。

OpenAI CEO山姆·奧特曼(Sam Altman)在X上直呼坐不穩(wěn)了:“這是我第一次覺得,和AI對(duì)話就像是面對(duì)一個(gè)深思熟慮的人。有好幾次,我坐在椅子里感嘆從AI那里得到了真心實(shí)意的建議。”

1

一句話概括:這個(gè)模型很大、很聰明、很有“人味”。

如果過(guò)去的ChatGPT像是冷面學(xué)霸,聰明是聰明,就是愛炫技;那選擇GPT-4.5,你將喜提一個(gè)溫柔學(xué)霸,其實(shí)比冷面學(xué)霸更聰明,能為你更好地答疑解惑,與此同時(shí)還能提供情緒價(jià)值。

為了這個(gè)模型,OpenAI投入巨大,甚至由于需要的計(jì)算資源太大而跨數(shù)據(jù)中心同時(shí)預(yù)訓(xùn)練模型。奧特曼宣布GPU不夠用了,目前GPT-4.5只提供給ChatGPT Pro用戶,下周加幾萬(wàn)個(gè)GPU之后再逐步下放。而且其API價(jià)格比GPT-4o高出30倍。

OpenAI就是為了證明一件事:“大力出奇跡”的敘事沒(méi)有被打破,推理模型不代表一切。

這樣的態(tài)度,在奧特曼的官宣X信息中展露無(wú)遺:

“提醒一下:這不是一個(gè)推理模型,不能輕松打破基準(zhǔn)測(cè)試。它是一種不同類型的智能,里面有一種我以前從未感覺過(guò)的魔力。”

在GPT-4.5發(fā)布之后,奧特曼還懟了Meta。在“Meta計(jì)劃推出獨(dú)立AI應(yīng)用,以與OpenAI競(jìng)爭(zhēng)”的新聞下開麥:“好啊那我們會(huì)做一個(gè)社交應(yīng)用。”

1

這樣的直拳,并非以“城府”著稱的奧特曼的風(fēng)格??磥?lái)GPT-4.5真的點(diǎn)燃了奧特曼心里的斗志。

比起前代模型GPT-4o,GPT-4.5的“智商”更高了,而這靠的是無(wú)監(jiān)督學(xué)習(xí)。

在介紹文檔中,OpenAI表示,有兩個(gè)提升人工智能能力的互補(bǔ)范式。

一個(gè)是拓展推理,它能教會(huì)模型在反應(yīng)之前先進(jìn)行思考并產(chǎn)生思維鏈,從而解決復(fù)雜的STEM(Science科學(xué)、Technology技術(shù)、Engineering編程、Mathmatics數(shù)學(xué))問(wèn)題或邏輯問(wèn)題。

另一個(gè)是無(wú)監(jiān)督學(xué)習(xí),它能提高世界模型的準(zhǔn)確性和直覺性。

1

在OpenAI的模型中,o1和o3-mini等模型代表的就是推理范式,而GPT-4.5則是無(wú)監(jiān)督學(xué)習(xí)的例子。

無(wú)監(jiān)督學(xué)習(xí),簡(jiǎn)單來(lái)說(shuō)可以理解為讓模型自己去知識(shí)的海洋里徜徉,自己學(xué)習(xí)到更多,從而變得更聰明,而非依賴人工標(biāo)注。

在過(guò)去依賴人工標(biāo)注的做法中,模型會(huì)結(jié)合人類反饋來(lái)改善響應(yīng)與交互方式。彭博社援引知情人士稱,去年OpenAI推出的Orion模型并未達(dá)到公司期望,在嘗試回答未經(jīng)訓(xùn)練的編碼問(wèn)題時(shí)就表現(xiàn)不佳。

OpenAI介紹,通過(guò)監(jiān)督學(xué)習(xí),GPT-4.5提高了其識(shí)別、建立聯(lián)系和創(chuàng)造性洞察的能力,而無(wú)需推理。

具體來(lái)說(shuō),GPT-4.5有更廣泛的知識(shí)和對(duì)世界的更深理解,回答更準(zhǔn)確,幻覺也更少。

根據(jù)OpenAI官方文檔,GPT-4.5在SimpleQA中表現(xiàn)頗為亮眼。

SimpleQA是包含4000個(gè)事實(shí)性問(wèn)題的數(shù)據(jù)集,用于測(cè)量模型在回答問(wèn)題時(shí)的準(zhǔn)確率。其中包含準(zhǔn)確率(越高越好)和幻覺率(越低越好)兩個(gè)維度。

GPT-4.5的準(zhǔn)確率達(dá)到62.5%,是GPT-4o(38.2%)、o1(47%)、o3-mini(15%)中最高的;幻覺率降至37.1%,也是GPT-4o(61.8%)、o1(44%)、o3-mini(80.3%)中最低的。

1

此外,在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,GPT-4.5也獲得了高分。

如在 SWE-Lancer Diamond 數(shù)據(jù)集上,GPT-4.5獲得了32.6%的通過(guò)率,獲得了186125美元(前不久Anthropic發(fā)布的擅長(zhǎng)編程的Claude 3.5 Sonnet這個(gè)通過(guò)率為26.2%),比GPT-4o和o3-mini-high都高。

1

此外,GPT-4.5明顯強(qiáng)于GPT-4o和o3-mini-high的還有在MMMLU(多語(yǔ)言)測(cè)試中的表現(xiàn)。

而在科學(xué)領(lǐng)域GPQA、數(shù)學(xué)基準(zhǔn)AIME24、代碼生成評(píng)估基準(zhǔn)SWE-Bench Verified中,GPT-4.5的表現(xiàn)都顯著強(qiáng)于GPT-4o,弱于o3-mini-high。

 二

不僅“智商”更高,GPT-4.5還被注入了“情商”,而且這兩點(diǎn)相輔相成。

在官方介紹中,OpenAI表示,對(duì)于GPT-4.5,他們開發(fā)了新的、可擴(kuò)展的技術(shù),利用來(lái)自較小模型的數(shù)據(jù)來(lái)訓(xùn)練更強(qiáng)大的模型。

而這些技術(shù)提高了GPT-4.5的可控性、對(duì)細(xì)微差別的理解以及自然對(duì)話的能力。

翻譯一下就是:ChatGPT對(duì)話“更像人了”,更能洞察想法、體察情緒,并在回應(yīng)中體現(xiàn),而非一個(gè)無(wú)情的對(duì)話機(jī)器。

OpenAI也拿出了測(cè)試的結(jié)果證明GPT-4.5的使用感受會(huì)好很多:人類測(cè)試者的盲測(cè)中,GPT-4.5的偏好度遠(yuǎn)高于GPT-4o,不管是在日常問(wèn)題、專業(yè)問(wèn)題還是創(chuàng)意性問(wèn)題的互動(dòng)中都是如此。

1

關(guān)于這一點(diǎn),最生動(dòng)的例子出現(xiàn)在演示視頻中。

OpenAI的研究人員用很情緒化的措辭向ChatGPT求助:“啊啊啊?。∥遗笥延址盼银澴恿耍。?!寫一條短信告訴他們我恨他們!??!”

1

老模型GPT-4o二話不說(shuō)就返回了短信內(nèi)容:“知道嗎?我受夠了。你放我太多次鴿子了,我討厭你這么做——很明顯你就是這么對(duì)待我們的友情的。別再聯(lián)系了。”

但GPT-4.5“感受”到了用戶此時(shí)正在氣頭上,非常情緒化:“聽起來(lái)你很沮喪。”并且建議說(shuō)興許可以試試清晰且平和地表達(dá)出感受,隨機(jī)給了兩條短信內(nèi)容:“嗨,計(jì)劃又泡湯了讓我很沮喪,我原本真的很期待今天的。能聊聊到底怎么回事嗎?”

1

這是一種自發(fā)的、感覺很自然的反饋,更像“人”而不是只會(huì)執(zhí)行任務(wù)的工具。演示人員也補(bǔ)充道,當(dāng)然,你如果繼續(xù)要求要表達(dá)憤怒的短信,它也不會(huì)再堅(jiān)持,而是會(huì)乖乖聽話。

實(shí)際上,OpenAI專門提到了“EQ(情商)”這個(gè)詞,負(fù)責(zé)演示的研究員甚至調(diào)侃稱,過(guò)去的ChatGPT聰明是聰明,但總有種“讓我來(lái)給你開開眼我有多聰明”的炫技感。

這種“情商”也不僅僅體現(xiàn)在“會(huì)安慰人”這種淺表的層面,實(shí)際上,這種能力和“高智商”相結(jié)合,可以讓同樣在嚴(yán)肅回答某個(gè)問(wèn)題時(shí),GPT-4.5更能切中要害、給出用戶需要的答案。

比如“海水為什么是咸的”這個(gè)問(wèn)題,GPT-1完全是胡言亂語(yǔ)、傾倒一些八竿子打不著的詞語(yǔ);GPT-2說(shuō)了完整的句子了,而且回答切題,但只說(shuō)因?yàn)楹K镉宣},不算回答了問(wèn)題;GPT-3.5 Turbo進(jìn)一步說(shuō)了鹽是氯化鈉,但是這也無(wú)助于解決這個(gè)問(wèn)題。

而GPT-4 Turbo就厲害了,不僅給出了答案,而且就像我們熟悉的“ChatGPT風(fēng)格”一樣,還詳細(xì)列舉了過(guò)程。但是用戶拿到這個(gè)答案,仍然需要仔細(xì)閱讀、努力理解。

但GPT-4.5的回答和GPT-4T類似的詳細(xì),但非常好理解,而且很易于記憶,基本上掃一眼就能明白它在說(shuō)什么。

OpenAI還給出了三個(gè)示例,我們讓ChatGPT翻譯成了中文:

1

還是那句話,智商和情商俱在,更像“人”了。

“大力出奇跡”的敘事并沒(méi)有被打破,OpenAI想要證明的就是這一點(diǎn)。

換句話說(shuō),推理模型固然好,但這不意味著投入巨大資源造模型就沒(méi)有意義。

“每一次計(jì)算能力的增長(zhǎng)都伴隨著新能力的誕生。GPT-4.5 是無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域中最前沿的模型之一。”

OpenAI介紹,GPT-4.5在回應(yīng)時(shí)并不會(huì)先進(jìn)行推理,這使得它的優(yōu)勢(shì)與推理模型有很大不同。

與OpenAI o1和OpenAI o3-mini相比,GPT-4.5 是一個(gè)更為通用、天生更聰明的模型。OpenAI相信推理將是未來(lái)模型的核心能力,且擴(kuò)展的兩種方法——預(yù)訓(xùn)練和推理——將互為補(bǔ)充。

隨著像 GPT-4.5 這樣的模型通過(guò)預(yù)訓(xùn)練變得更加聰明和知識(shí)更豐富,它們將成為推理和工具型代理的更強(qiáng)基礎(chǔ)。

雖然具體的資源投入具體有多大尚未透露,但在官宣視頻中,OpenAI的研究人員透露,為了最大化地利用資源,他們?cè)陬A(yù)訓(xùn)練模型時(shí)同時(shí)啟用了多個(gè)數(shù)據(jù)中心,因?yàn)樗麄冃枰挠?jì)算資源超過(guò)了單一高帶寬網(wǎng)絡(luò)架構(gòu)所能提供的上限。

此外,OpenAI也不是沒(méi)有省著用,表示使用了低精度訓(xùn)練(Low Precision Training)充分利用GPU性能。團(tuán)隊(duì)還開發(fā)出了新的訓(xùn)練機(jī)制,能夠在后訓(xùn)練過(guò)程中使用更小的計(jì)算資源來(lái)微調(diào)如此大型的模型,最終才開發(fā)出了可以部署的模型。

在GPT-4.5發(fā)布之前,OpenAI首席研究官馬克·陳(Mark Chen)在采訪中談及與推理模型相比,GPT-4.5可以做什么:

“我認(rèn)為這是根本不同的權(quán)衡。你有一個(gè)模型,它會(huì)立即給你回復(fù),不需要做太多思考且會(huì)給出更好的答案,而另一個(gè)模型會(huì)思考一段時(shí)間然后給出答案。我們發(fā)現(xiàn),在創(chuàng)意寫作等領(lǐng)域,這種模型(前者)比推理模型更出色。”

更重要的是,他談到了“縮放定律(Scaling Law)是否失效”的問(wèn)題。OpenAI是否發(fā)現(xiàn)了所謂的“擴(kuò)展瓶頸”?是否已經(jīng)看到擴(kuò)展帶來(lái)的收益遞減?

Chen稱,模型不能盲目地從頭開始學(xué)習(xí)推理,推理和擴(kuò)展的范式是互補(bǔ)的,相互之間存在反饋循環(huán)。

對(duì)于外界敏感的成本問(wèn)題,Chen也代表OpenAI表達(dá)降本的態(tài)度,稱贊DeepSeek做得非常好,OpenAI也關(guān)心以低廉的成本提供模型:“自從GPT-4首次推出以來(lái),成本已經(jīng)下降了幾個(gè)數(shù)量級(jí)。”

不過(guò),就目前來(lái)看,OpenAI用“大力”砸出的“奇跡”非常昂貴。

OpenAI話也說(shuō)得敞亮,稱GPT-4.5是一個(gè)非常龐大且計(jì)算稠密的模型,因此它比GPT-4o更昂貴,不是替代關(guān)系。

有多貴呢?GPT-4.5的API價(jià)格達(dá)到75美元/百萬(wàn)tokens輸入、150美元/tokens輸出,是GPT-4o的30倍。后者的API價(jià)格為2.5美元/百萬(wàn)tokens輸入、10美元/百萬(wàn)tokens輸出。

1

有意思的是,OpenAI的GPU又不夠用了。奧特曼在X上官宣GPT-4.5時(shí),專門說(shuō)了壞消息:“我們真的很想同時(shí)向Plus和Pro用戶推出它,但我們的用戶增長(zhǎng)非常迅速,現(xiàn)在GPU已經(jīng)不夠用了。”

繼而,奧特曼承諾,下周“會(huì)增加數(shù)萬(wàn)個(gè)GPU,然后將其(GPT-4.5)推廣到Plus用戶層”。

GPT-4.5很大、很強(qiáng)、很有“人味”,OpenAI無(wú)疑再一次證明了自己的實(shí)力,但其為此投入的成本也有點(diǎn)太高了。至于值不值——OpenAI能不能扛得住,以及客戶是否買賬——就得讓時(shí)間來(lái)驗(yàn)證了。

編者按:本文轉(zhuǎn)載自微信公眾號(hào):直面AI(ID:wujicaijing),作者:畢安娣 

本文來(lái)源直面AI,內(nèi)容僅代表作者本人觀點(diǎn),不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p17 q0 我要投稿

分享:
標(biāo)簽: GPT-4.5 智商高

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

相關(guān)閱讀RELEVANT

前瞻數(shù)據(jù)庫(kù)
企查貓
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J
文水县| 建始县| 昭通市| 丁青县| 临颍县| 锦州市| 富宁县| 江山市| 夏河县| 乐山市| 丰镇市| 资中县| 大同市| 邻水| 锡林浩特市| 新丰县| 大余县| 城固县| 高要市| 江华| 界首市| 稻城县| 北票市| 油尖旺区| 塔城市| 雅安市| 武邑县| 云南省| 铜山县| 马关县| 洪洞县| 禄丰县| 即墨市| 新和县| 辽宁省| 绿春县| 广丰县| 米易县| 图片| 喀喇沁旗| 丹东市|