日本三级韩国三级美三级91,亚洲综合一区二区,操伊人

新聞中心

News

聯(lián)系我們

電話：86-755-82910368

傳真：86-755-82910673

郵箱：[email protected]

郵編：518001

精彩視頻

Wonderful video
投訴與咨詢

Complaints and advice
人才招聘

Recruitment

首頁- 新聞中心- 熱點(diǎn)分析

外媒拆解DeepSeek制勝秘籍！OpenAI CEO終于認(rèn)錯(cuò)：我們站在了歷史錯(cuò)誤的一邊

時(shí)間：25-02-05 來源：摘自-智東西

外媒拆解DeepSeek制勝秘籍！OpenAI CEO終于認(rèn)錯(cuò)：我們站在了歷史錯(cuò)誤的一邊

大年初四，當(dāng)之無愧的春節(jié)頂流DeepSeek仍在持續(xù)刷屏霸榜，熱度不減。

前腳，DeepSeek面臨的巨頭企業(yè)官宣加入vs多國(guó)政府下場(chǎng)質(zhì)疑的冰火兩重天局勢(shì)尚未平靜（DeepSeek在美兩重天：五大巨頭接入，政府誠惶誠恐）；后腳，OpenAI被逼急，凌晨亮出全新推理模型o3-mini，并在ChatGPT首次向所有用戶免費(fèi)提供推理模型，不過o3-mini的API定價(jià)還是高于DeepSeek模型（重磅！OpenAI推o3-mini新模型，被DeepSeek逼急？定價(jià)仍打不過）。

o3-mini發(fā)布后，OpenAI CEO薩姆·阿爾特曼（Sam Altman）在Reddit上提到，要學(xué)習(xí)DeepSeek將推理模型的思考過程公開；OpenAI的閉源策略使他們站到了歷史錯(cuò)誤的一邊，將重新思考OpenAI的開源策略；并坦言他們的領(lǐng)先優(yōu)勢(shì)已經(jīng)不如之前大了。

繼美國(guó)兩大云巨頭后，華為云今日宣布與硅基流動(dòng)聯(lián)合推出并上線基于華為云昇騰云服務(wù)的DeepSeek R1/V3推理服務(wù)。

o3-mini的發(fā)布并沒有分散DeepSeek的討論度。昨天，半導(dǎo)體研究和咨詢公司SemiAnalysis的一項(xiàng)新報(bào)告揭秘了DeepSeek成功的關(guān)鍵因素及推測(cè)：

DeepSeek擁有至少大約5萬塊Hopper架構(gòu)的GPU，且GPU投資已超過5億美元；

600萬美元成本只包含其預(yù)訓(xùn)練運(yùn)行的GPU成本，不包括硬件本身的研發(fā)和總體擁有成本（TCO）等重要部分；

為了吸納人才給有前途的候選人提供超過130萬美元（折合約942萬人民幣）的年薪；

關(guān)鍵創(chuàng)新多頭潛注意力（MLA）將每個(gè)查詢KV量減少93.3%，顯著降低了推理價(jià)格。

DeepSeek的成功在硅谷掀起波瀾，今日上午，英偉達(dá)創(chuàng)始人兼CEO黃仁勛被緊急召進(jìn)美國(guó)白宮，與美國(guó)總統(tǒng)Donald Trump（唐納德·特朗普）討論了DeepSeek以及收緊AI芯片出口。

知情人士透露，特朗普認(rèn)為這家中國(guó)公司的出現(xiàn)意味著“美國(guó)公司不必花費(fèi)大量資金來構(gòu)建低成本AI替代品”。此外，其會(huì)議上還提到，美國(guó)政府將在今年春天進(jìn)一步限制AI芯片出口，以確保美國(guó)及其盟友繼續(xù)擁有先進(jìn)的計(jì)算能力。

昨晚，國(guó)內(nèi)AI產(chǎn)品分析平臺(tái)AI產(chǎn)品榜發(fā)布的數(shù)據(jù)顯示，上線18天的DeepSeek日活已經(jīng)達(dá)到1500萬，ChatGPT過1500萬花了244天，DeepSeek增速是ChatGPT的13倍。

截止當(dāng)前DeepSeek依然霸榜，位列蘋果應(yīng)用商店157個(gè)國(guó)家/地區(qū)的第一名。

這場(chǎng)關(guān)于DeepSeek的爭(zhēng)吵仍然沒有停下。Meta首席科學(xué)家楊立昆發(fā)文銳評(píng)，他認(rèn)為硅谷圈子中的“常見病”是：錯(cuò)位的優(yōu)越感。病癥的高級(jí)階段是，認(rèn)為自己的小圈子已經(jīng)壟斷了好的想法，病癥末期是，假設(shè)來自其他地方的創(chuàng)新都是通過作弊獲得的。

01.

OpenAI回應(yīng)定價(jià)、針對(duì)開源策略認(rèn)錯(cuò)

劇透GPT-5、坦言領(lǐng)先優(yōu)勢(shì)變小

阿爾特曼和OpenAI首席研究官Mark Chen、OpenAI首席產(chǎn)品官Kevin Weil等現(xiàn)身Reddit，在回復(fù)用戶問題時(shí)多次提到DeepSeek，并且劇透了OpenAI的新研究進(jìn)展。

OpenAI首次回應(yīng)了o3-mini價(jià)格沒有競(jìng)爭(zhēng)力，OpenAI API研究主管Michelle Pokrass稱，o3-mini相比于美國(guó)托管版本的DeepSeek具有競(jìng)爭(zhēng)力。

阿爾特曼還稱贊DeepSeek是一個(gè)非常好的模型，并且稱“我們將保持比往年更少的領(lǐng)先優(yōu)勢(shì)”。

看到開源的DeepSeek發(fā)布，阿爾特曼對(duì)OpenAI的閉源策略進(jìn)行了反思。他透露，OpenAI正在討論（發(fā)布一些模型權(quán)重等）。他說：“我個(gè)人認(rèn)為我們?cè)谶@里站在了歷史錯(cuò)誤的一邊，需要找出不同的開源策略，但并非OpenAI的每個(gè)人都同意這種觀點(diǎn)，這也不是我們目前的首要任務(wù)。”

DeepSeek的R1模型可以向用戶顯示模型中間的思考過程，阿爾特曼稱OpenAI將效仿DeepSeek的做法：“是的，我們很快會(huì)展示一個(gè)更有用、更詳細(xì)的版本。感謝R1讓我們有所更新。”OpenAI可能更多地揭示其推理模型（如o3-mini）的“思考過程”。

OpenAI首席產(chǎn)品官Kevin Weil還劇透了OpenAI的新進(jìn)展。

4o的圖像生成功能可能要幾個(gè)月后推出。

高級(jí)語音更新即將推出，GPT-5的發(fā)布還沒有時(shí)間表。

OpenAI計(jì)劃將文件附加功能添加到推理模型中。

完整的o3模型將在幾周、不到幾個(gè)月的時(shí)間內(nèi)完整亮相。

02.

DeepSeek的制勝秘籍：

手握6萬塊GPU，千萬年薪招人

半導(dǎo)體研究和咨詢公司SemiAnalysis的一項(xiàng)新報(bào)告揭秘了DeepSeek成功的關(guān)鍵因素及推測(cè)。

其研究顯示，DeepSeek不是外界所傳的“副業(yè)”，其GPU投資已經(jīng)超過5億美元。

DeepSeek擁有至少大約5萬塊Hopper架構(gòu)的GPU，其中可能大約有1萬塊H800、1萬塊H100、3萬塊H20、1萬塊A100。這些GPU在幻方量化和DeepSeek之間共享，用于交易、推理、訓(xùn)練和研究。

報(bào)告分析表明，DeepSeek的總服務(wù)器資本支出約為16億美元（折合約116億人民幣），運(yùn)營(yíng)此類集群的成本高達(dá)9.44億美元（折合約68億人民幣）。

DeepSeek的價(jià)格和效率在本周引起了業(yè)界的狂熱討論：DeepSeek用不到600萬美元的成本，干翻了硅谷巨頭們花費(fèi)數(shù)十億美金訓(xùn)練的AI模型。

但SemiAnalysis的報(bào)告提到，這個(gè)說法存在錯(cuò)誤，這類似于將產(chǎn)品物料清單的特定部分并將其歸因?yàn)槿砍杀荆A(yù)訓(xùn)練成本在總成本中只占很小的一部分。

這600萬美元只包含其預(yù)訓(xùn)練運(yùn)行的GPU成本，只是模型總成本的一部分，不包括硬件本身的研發(fā)和總體擁有成本（TCO）等重要部分。

作為參考，Claude 3.5 Sonnet的訓(xùn)練成本為數(shù)千萬美元，但這并不是Anthropic所需的總成本，他們還需要資金進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清理數(shù)據(jù)、支付員工工資等。

其報(bào)告還提到，DeepSeek在尋找人才方面也投入了大量資金。

目前，該公司的員工人數(shù)在150人左右，且公司崗位并沒有被預(yù)先定義，會(huì)根據(jù)招聘人員靈活定義。

DeepSeek選擇在國(guó)內(nèi)尋找人才，并且不考慮其此前的資歷，非常注重能力和好奇心。這家公司會(huì)定期在北京大學(xué)和浙江大學(xué)等頂尖大學(xué)舉辦招聘活動(dòng)，其許多員工都畢業(yè)于浙江大學(xué)。

報(bào)告提到，該公司此前還為有前途的候選人提供超過130萬美元（折合約942萬人民幣）的年薪，這一薪資水平遠(yuǎn)高于國(guó)內(nèi)大型科技公司以及大模型創(chuàng)企。

在第三方招聘軟件BOSS直聘中，DeepSeek公開的在招職位有37個(gè)，核心系統(tǒng)研發(fā)工程師、深度學(xué)習(xí)研究員薪資水平最高為50-80K、60-90K，除實(shí)習(xí)生其他崗位均為14薪。

大多數(shù)情況下，DeepSeek不依賴外部方或提供商，運(yùn)行自己的數(shù)據(jù)中心，不依賴外部方或提供商。這為實(shí)驗(yàn)開辟了更多領(lǐng)域，使他們能夠跨堆棧進(jìn)行創(chuàng)新。

03.

推理成本下降，

多token預(yù)測(cè)、多頭潛注意力兩大創(chuàng)新

推理成本驟降是AI進(jìn)步的一個(gè)顯著特征。

一個(gè)明顯的例子就是，筆記本電腦上運(yùn)行的小模型目前已經(jīng)與GPT-3性能相當(dāng)，而后者需要一臺(tái)超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練和多個(gè)GPU進(jìn)行推理。換句話說，算法改進(jìn)允許使用較少的計(jì)算量來訓(xùn)練和推理具有相同能力的模型，而且這種模式正一遍又一遍上演。

到目前為止，在這種模式下AI實(shí)驗(yàn)室的策略是花費(fèi)更多錢來獲得更多智能。據(jù)估計(jì)，算法的進(jìn)步是每年提升4倍，這意味著每過一年實(shí)現(xiàn)相同能力所需的計(jì)算量就會(huì)減少到1/4。Anthropic的首席執(zhí)行官達(dá)里奧·阿莫迪（Dario Amodei）認(rèn)為，算法的進(jìn)步甚至更快，可以產(chǎn)生10倍的改進(jìn)。就GPT-3質(zhì)量的推理定價(jià)而言，成本下降到1/1200。

該報(bào)告還調(diào)查了GPT-4的成本，在曲線早期也有類似的成本下降趨勢(shì)。雖然隨著時(shí)間的推移成本差異減少，但在這種情況下，我們看到算法改進(jìn)和優(yōu)化使成本降低到1/10，能力提高了。

需要明確的是，DeepSeek率先達(dá)到了這個(gè)級(jí)別的成本和能力，并且其獨(dú)特之處還在于發(fā)布了開放權(quán)重，SemiAnalysis認(rèn)為其成本甚至?xí)^續(xù)降低到1/5。

DeepSeek是如何如此迅速地趕上來的？

答案是，推理具有更快的迭代速度和更低成本唾手可得的成果，且與以前的范式相比，計(jì)算量更小。但以前的范式依賴于預(yù)訓(xùn)練，因價(jià)格昂貴難以實(shí)現(xiàn)穩(wěn)健的收益。

新范式側(cè)重于通過合成數(shù)據(jù)生成和現(xiàn)有模型后訓(xùn)練中的強(qiáng)化學(xué)習(xí)進(jìn)行推理能力，從而以更低的價(jià)格獲得更快的收益。較低的進(jìn)入門檻與簡(jiǎn)單的優(yōu)化相結(jié)合，意味著DeepSeek能夠比平時(shí)更快地復(fù)制o1方法。

未來，隨著研發(fā)人員弄清楚如何在這一新模式中實(shí)現(xiàn)更大規(guī)模的發(fā)展/應(yīng)用等，預(yù)計(jì)不同模型之間能力匹配的時(shí)間差距將會(huì)拉大。

DeepSeek的爆火在于其破解了架構(gòu)創(chuàng)新的密碼并解鎖了領(lǐng)先實(shí)驗(yàn)室尚未能夠?qū)崿F(xiàn)的創(chuàng)新，其中包括Training (Pre and Post) 模型預(yù)訓(xùn)練和后訓(xùn)練以及多頭潛在注意力（MLA）。

1、Training（Pre and Post）模型預(yù)訓(xùn)練和后訓(xùn)練

DeepSeek V3以前所未有的規(guī)模利用了多標(biāo)記預(yù)測(cè)（MTP），其添加的注意力模塊可以預(yù)測(cè)接下來的幾個(gè)Token，而不是單個(gè)Token。這提高了模型在訓(xùn)練期間的性能，并且可以在推理期間丟棄。這一方法以較低的計(jì)算能力提高了性能。還有一些額外的考慮因素，例如在訓(xùn)練中采用FP8精度。

此外，該模型也是混合專家模型，由許多其他專注于不同事物的較小專家模型組成。MoE模型面臨的一個(gè)難題是如何確定哪個(gè)Token屬于哪個(gè)子模型。

DeepSeek基于門控網(wǎng)絡(luò)（Gating Network），以不降低模型性能的平衡方式將Token路由到正確的子模型，這提升了訓(xùn)練效率并降低了推理成本。

盡管業(yè)界有人擔(dān)心混合專家模型使得效率提高可能會(huì)減少該領(lǐng)域的相關(guān)投資，但Dario指出，功能更強(qiáng)大的模型經(jīng)濟(jì)效益非常可觀，以至于任何節(jié)省的成本都會(huì)迅速重新投資于構(gòu)建更大的模型。MoE的效率提高不會(huì)減少整體投資，而是會(huì)加速AI擴(kuò)展工作。

R1的強(qiáng)大能力得益于基礎(chǔ)模型V3，強(qiáng)化學(xué)習(xí)提供了兩大能力，一是Formatting（確保它提供連貫輸出）二是有用性和無害性（確保模型有用）。推理能力是在合成數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào)期間出現(xiàn)的。

不過R1論文中沒有提到計(jì)算，這是因?yàn)樘岬绞褂昧硕嗌儆?jì)算會(huì)表明他們的GPU比他們的敘述所暗示的要多。這種規(guī)模的強(qiáng)化學(xué)習(xí)需要大量的計(jì)算，尤其是生成合成數(shù)據(jù)。

R1論文中還提到，能使用推理模型的輸出對(duì)其進(jìn)行微調(diào)，將非推理的較小模型轉(zhuǎn)換為推理模型。數(shù)據(jù)集管理總共包含800k個(gè)樣本，現(xiàn)在任何人都可以使用R1的思維鏈輸出來制作自己的數(shù)據(jù)集，并在這些輸出的幫助下制作推理模型。未來，我們可能會(huì)看到更多較小的模型展示推理能力，從而使得小型模型的性能提高。

2、Multi-head Latent Attention（MLA）多頭潛在注意力

另外一項(xiàng)關(guān)鍵創(chuàng)新是MLA，負(fù)責(zé)顯著降低DeepSeek的推理價(jià)格。

其原因是MLA將每個(gè)查詢所需的KV Cache（鍵-值緩存）數(shù)量減少了約93.3%。KV Cache是Transformer中的一種內(nèi)存機(jī)制，它存儲(chǔ)代表對(duì)話上下文的數(shù)據(jù)，從而減少不必要的計(jì)算。

KV Cache會(huì)隨著對(duì)話上下文的增長(zhǎng)而增長(zhǎng)，并產(chǎn)生相當(dāng)大的內(nèi)存限制，大幅減少每個(gè)查詢所需的 KV Cache 數(shù)量會(huì)減少每個(gè)查詢所需的硬件數(shù)量，從而降低成本。報(bào)告認(rèn)為，DeepSeek是在以成本價(jià)提供推理服務(wù)來獲取市場(chǎng)份額，實(shí)際上并沒有盈利。

04.

結(jié)語：DeepSeek發(fā)布

中美AI競(jìng)爭(zhēng)格局大洗牌

DeepSeek的發(fā)布對(duì)整個(gè)行業(yè)產(chǎn)生了全方位、深層次的影響。從OpenAI新發(fā)布的o3-mini也可以看出，中美之間的AI競(jìng)爭(zhēng)格局正在改變，中國(guó)企業(yè)在開源領(lǐng)域的積極作為，讓美國(guó)不得不重新審視其限制開源的策略。

從產(chǎn)業(yè)競(jìng)爭(zhēng)格局來看，DeepSeek的橫空出世重塑了全球AI產(chǎn)業(yè)的競(jìng)爭(zhēng)版圖，這或許也將促使各國(guó)重新審視AI發(fā)展戰(zhàn)略，加強(qiáng)在AI領(lǐng)域的投入和合作，共同推動(dòng)AI技術(shù)的進(jìn)步。

春節(jié)期間DeepSeek掀起的這場(chǎng)AI風(fēng)暴仍在中美乃至全球科技、政金界產(chǎn)生持續(xù)影響，并不斷發(fā)酵，已經(jīng)成為改變AI科技產(chǎn)業(yè)趨勢(shì)的風(fēng)向標(biāo)事件，智東西將持續(xù)跟進(jìn)相關(guān)進(jìn)展和報(bào)道，敬請(qǐng)關(guān)注。

摘自-智東西

上一篇	下一篇
投資的最高境界：等戴維斯來敲門	沒有上一篇

色噜噜五月综合激情久久爱-色噜噜视频-色噜噜色噜噜天天拍一拍-色噜噜人体337p人体-色噜噜噜噜噜在线观看网站-色噜噜狠狠在爱丁香