色噜噜五月综合激情久久爱-色噜噜视频-色噜噜色噜噜天天拍一拍-色噜噜人体337p人体-色噜噜噜噜噜在线观看网站-色噜噜狠狠在爱丁香

新聞中心
News
聯(lián)系我們
 

電 話:86-755-82910368

傳 真:86-755-82910673

郵 箱:[email protected]

郵 編:518001

外媒拆解DeepSeek制勝秘籍!OpenAI CEO終于認(rèn)錯(cuò):我們站在了歷史錯(cuò)誤的一邊

時(shí)間:25-02-05 來源:摘自-智東西

外媒拆解DeepSeek制勝秘籍!OpenAI CEO終于認(rèn)錯(cuò):我們站在了歷史錯(cuò)誤的一邊

大年初四,當(dāng)之無愧的春節(jié)頂流DeepSeek仍在持續(xù)刷屏霸榜,熱度不減。

前腳,DeepSeek面臨的巨頭企業(yè)官宣加入vs多國(guó)政府下場(chǎng)質(zhì)疑的冰火兩重天局勢(shì)尚未平靜(DeepSeek在美兩重天:五大巨頭接入,政府誠惶誠恐);后腳,OpenAI被逼急,凌晨亮出全新推理模型o3-mini,并在ChatGPT首次向所有用戶免費(fèi)提供推理模型,不過o3-miniAPI定價(jià)還是高于DeepSeek模型(重磅!OpenAIo3-mini新模型,被DeepSeek逼急?定價(jià)仍打不過)。

o3-mini發(fā)布后,OpenAI CEO薩姆·阿爾特曼(Sam Altman)在Reddit上提到,要學(xué)習(xí)DeepSeek將推理模型的思考過程公開;OpenAI的閉源策略使他們站到了歷史錯(cuò)誤的一邊,將重新思考OpenAI的開源策略;并坦言他們的領(lǐng)先優(yōu)勢(shì)已經(jīng)不如之前大了。

繼美國(guó)兩大云巨頭后,華為云今日宣布與硅基流動(dòng)聯(lián)合推出并上線基于華為云昇騰云服務(wù)的DeepSeek R1/V3推理服務(wù)。

         

o3-mini的發(fā)布并沒有分散DeepSeek的討論度。昨天,半導(dǎo)體研究和咨詢公司SemiAnalysis的一項(xiàng)新報(bào)告揭秘了DeepSeek成功的關(guān)鍵因素及推測(cè):

DeepSeek擁有至少大約5萬塊Hopper架構(gòu)的GPU,且GPU投資已超過5億美元;

600萬美元成本只包含其預(yù)訓(xùn)練運(yùn)行的GPU成本,不包括硬件本身的研發(fā)和總體擁有成本(TCO)等重要部分;

為了吸納人才給有前途的候選人提供超過130萬美元(折合約942萬人民幣)的年薪;

關(guān)鍵創(chuàng)新多頭潛注意力(MLA)將每個(gè)查詢KV量減少93.3%,顯著降低了推理價(jià)格。

DeepSeek的成功在硅谷掀起波瀾,今日上午,英偉達(dá)創(chuàng)始人兼CEO黃仁勛被緊急召進(jìn)美國(guó)白宮,與美國(guó)總統(tǒng)Donald Trump(唐納德·特朗普)討論了DeepSeek以及收緊AI芯片出口。

知情人士透露,特朗普認(rèn)為這家中國(guó)公司的出現(xiàn)意味著“美國(guó)公司不必花費(fèi)大量資金來構(gòu)建低成本AI替代品”。此外,其會(huì)議上還提到,美國(guó)政府將在今年春天進(jìn)一步限制AI芯片出口,以確保美國(guó)及其盟友繼續(xù)擁有先進(jìn)的計(jì)算能力。

昨晚,國(guó)內(nèi)AI產(chǎn)品分析平臺(tái)AI產(chǎn)品榜發(fā)布的數(shù)據(jù)顯示,上線18天的DeepSeek日活已經(jīng)達(dá)到1500萬,ChatGPT1500萬花了244天,DeepSeek增速是ChatGPT13倍。

    

截止當(dāng)前DeepSeek依然霸榜,位列蘋果應(yīng)用商店157個(gè)國(guó)家/地區(qū)的第一名。

這場(chǎng)關(guān)于DeepSeek的爭(zhēng)吵仍然沒有停下。Meta首席科學(xué)家楊立昆發(fā)文銳評(píng),他認(rèn)為硅谷圈子中的“常見病”是:錯(cuò)位的優(yōu)越感。病癥的高級(jí)階段是,認(rèn)為自己的小圈子已經(jīng)壟斷了好的想法,病癥末期是,假設(shè)來自其他地方的創(chuàng)新都是通過作弊獲得的。

          

01.

OpenAI回應(yīng)定價(jià)、針對(duì)開源策略認(rèn)錯(cuò)

劇透GPT-5、坦言領(lǐng)先優(yōu)勢(shì)變小

阿爾特曼和OpenAI首席研究官Mark ChenOpenAI首席產(chǎn)品官Kevin Weil等現(xiàn)身Reddit,在回復(fù)用戶問題時(shí)多次提到DeepSeek,并且劇透了OpenAI的新研究進(jìn)展。

OpenAI首次回應(yīng)了o3-mini價(jià)格沒有競(jìng)爭(zhēng)力,OpenAI API研究主管Michelle Pokrass稱,o3-mini相比于美國(guó)托管版本的DeepSeek具有競(jìng)爭(zhēng)力。

   

阿爾特曼還稱贊DeepSeek是一個(gè)非常好的模型,并且稱“我們將保持比往年更少的領(lǐng)先優(yōu)勢(shì)”。

     

看到開源的DeepSeek發(fā)布,阿爾特曼對(duì)OpenAI的閉源策略進(jìn)行了反思。他透露,OpenAI正在討論(發(fā)布一些模型權(quán)重等)。他說:“我個(gè)人認(rèn)為我們?cè)谶@里站在了歷史錯(cuò)誤的一邊,需要找出不同的開源策略,但并非OpenAI的每個(gè)人都同意這種觀點(diǎn),這也不是我們目前的首要任務(wù)。”

    

DeepSeekR1模型可以向用戶顯示模型中間的思考過程,阿爾特曼稱OpenAI將效仿DeepSeek的做法:“是的,我們很快會(huì)展示一個(gè)更有用、更詳細(xì)的版本。感謝R1讓我們有所更新。”OpenAI可能更多地揭示其推理模型(如o3-mini)的“思考過程”。

    

OpenAI首席產(chǎn)品官Kevin Weil還劇透了OpenAI的新進(jìn)展。

4o的圖像生成功能可能要幾個(gè)月后推出。

    

高級(jí)語音更新即將推出,GPT-5的發(fā)布還沒有時(shí)間表。

    

OpenAI計(jì)劃將文件附加功能添加到推理模型中。

    

完整的o3模型將在幾周、不到幾個(gè)月的時(shí)間內(nèi)完整亮相。

    

02.

DeepSeek的制勝秘籍:

手握6萬塊GPU,千萬年薪招人

半導(dǎo)體研究和咨詢公司SemiAnalysis的一項(xiàng)新報(bào)告揭秘了DeepSeek成功的關(guān)鍵因素及推測(cè)。

其研究顯示,DeepSeek不是外界所傳的“副業(yè)”,其GPU投資已經(jīng)超過5億美元。

DeepSeek擁有至少大約5萬塊Hopper架構(gòu)的GPU,其中可能大約有1萬塊H8001萬塊H1003萬塊H201萬塊A100。這些GPU在幻方量化和DeepSeek之間共享,用于交易、推理、訓(xùn)練和研究。

    

報(bào)告分析表明,DeepSeek的總服務(wù)器資本支出約為16億美元(折合約116億人民幣),運(yùn)營(yíng)此類集群的成本高達(dá)9.44億美元(折合約68億人民幣)。

DeepSeek的價(jià)格和效率在本周引起了業(yè)界的狂熱討論:DeepSeek用不到600萬美元的成本,干翻了硅谷巨頭們花費(fèi)數(shù)十億美金訓(xùn)練的AI模型。

SemiAnalysis的報(bào)告提到,這個(gè)說法存在錯(cuò)誤,這類似于將產(chǎn)品物料清單的特定部分并將其歸因?yàn)槿砍杀荆A(yù)訓(xùn)練成本在總成本中只占很小的一部分。

600萬美元只包含其預(yù)訓(xùn)練運(yùn)行的GPU成本,只是模型總成本的一部分,不包括硬件本身的研發(fā)和總體擁有成本(TCO)等重要部分。

作為參考,Claude 3.5 Sonnet的訓(xùn)練成本為數(shù)千萬美元,但這并不是Anthropic所需的總成本,他們還需要資金進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清理數(shù)據(jù)、支付員工工資等。

其報(bào)告還提到,DeepSeek在尋找人才方面也投入了大量資金。

目前,該公司的員工人數(shù)在150人左右,且公司崗位并沒有被預(yù)先定義,會(huì)根據(jù)招聘人員靈活定義。

DeepSeek選擇在國(guó)內(nèi)尋找人才,并且不考慮其此前的資歷,非常注重能力和好奇心。這家公司會(huì)定期在北京大學(xué)和浙江大學(xué)等頂尖大學(xué)舉辦招聘活動(dòng),其許多員工都畢業(yè)于浙江大學(xué)。

報(bào)告提到,該公司此前還為有前途的候選人提供超過130萬美元(折合約942萬人民幣)的年薪,這一薪資水平遠(yuǎn)高于國(guó)內(nèi)大型科技公司以及大模型創(chuàng)企。

在第三方招聘軟件BOSS直聘中,DeepSeek公開的在招職位有37個(gè),核心系統(tǒng)研發(fā)工程師、深度學(xué)習(xí)研究員薪資水平最高為50-80K60-90K,除實(shí)習(xí)生其他崗位均為14薪。

大多數(shù)情況下,DeepSeek不依賴外部方或提供商,運(yùn)行自己的數(shù)據(jù)中心,不依賴外部方或提供商。這為實(shí)驗(yàn)開辟了更多領(lǐng)域,使他們能夠跨堆棧進(jìn)行創(chuàng)新。

03.

推理成本下降,

token預(yù)測(cè)、多頭潛注意力兩大創(chuàng)新

推理成本驟降是AI進(jìn)步的一個(gè)顯著特征。

一個(gè)明顯的例子就是,筆記本電腦上運(yùn)行的小模型目前已經(jīng)與GPT-3性能相當(dāng),而后者需要一臺(tái)超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練和多個(gè)GPU進(jìn)行推理。換句話說,算法改進(jìn)允許使用較少的計(jì)算量來訓(xùn)練和推理具有相同能力的模型,而且這種模式正一遍又一遍上演。

    

到目前為止,在這種模式下AI實(shí)驗(yàn)室的策略是花費(fèi)更多錢來獲得更多智能。據(jù)估計(jì),算法的進(jìn)步是每年提升4倍,這意味著每過一年實(shí)現(xiàn)相同能力所需的計(jì)算量就會(huì)減少到1/4Anthropic的首席執(zhí)行官達(dá)里奧·阿莫迪(Dario Amodei)認(rèn)為,算法的進(jìn)步甚至更快,可以產(chǎn)生10倍的改進(jìn)。就GPT-3質(zhì)量的推理定價(jià)而言,成本下降到1/1200

該報(bào)告還調(diào)查了GPT-4的成本,在曲線早期也有類似的成本下降趨勢(shì)。雖然隨著時(shí)間的推移成本差異減少,但在這種情況下,我們看到算法改進(jìn)和優(yōu)化使成本降低到1/10,能力提高了。

    

需要明確的是,DeepSeek率先達(dá)到了這個(gè)級(jí)別的成本和能力,并且其獨(dú)特之處還在于發(fā)布了開放權(quán)重,SemiAnalysis認(rèn)為其成本甚至?xí)^續(xù)降低到1/5

DeepSeek是如何如此迅速地趕上來的?

答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且與以前的范式相比,計(jì)算量更小。但以前的范式依賴于預(yù)訓(xùn)練,因價(jià)格昂貴難以實(shí)現(xiàn)穩(wěn)健的收益。

新范式側(cè)重于通過合成數(shù)據(jù)生成和現(xiàn)有模型后訓(xùn)練中的強(qiáng)化學(xué)習(xí)進(jìn)行推理能力,從而以更低的價(jià)格獲得更快的收益。較低的進(jìn)入門檻與簡(jiǎn)單的優(yōu)化相結(jié)合,意味著DeepSeek能夠比平時(shí)更快地復(fù)制o1方法。

未來,隨著研發(fā)人員弄清楚如何在這一新模式中實(shí)現(xiàn)更大規(guī)模的發(fā)展/應(yīng)用等,預(yù)計(jì)不同模型之間能力匹配的時(shí)間差距將會(huì)拉大。

DeepSeek的爆火在于其破解了架構(gòu)創(chuàng)新的密碼并解鎖了領(lǐng)先實(shí)驗(yàn)室尚未能夠?qū)崿F(xiàn)的創(chuàng)新,其中包括Training (Pre and Post)  模型預(yù)訓(xùn)練和后訓(xùn)練以及多頭潛在注意力(MLA)。

1TrainingPre and Post)模型預(yù)訓(xùn)練和后訓(xùn)練

DeepSeek V3以前所未有的規(guī)模利用了多標(biāo)記預(yù)測(cè)(MTP),其添加的注意力模塊可以預(yù)測(cè)接下來的幾個(gè)Token,而不是單個(gè)Token。這提高了模型在訓(xùn)練期間的性能,并且可以在推理期間丟棄。這一方法以較低的計(jì)算能力提高了性能。還有一些額外的考慮因素,例如在訓(xùn)練中采用FP8精度。

此外,該模型也是混合專家模型,由許多其他專注于不同事物的較小專家模型組成。MoE模型面臨的一個(gè)難題是如何確定哪個(gè)Token屬于哪個(gè)子模型。

DeepSeek基于門控網(wǎng)絡(luò)(Gating Network),以不降低模型性能的平衡方式將Token路由到正確的子模型,這提升了訓(xùn)練效率并降低了推理成本。

盡管業(yè)界有人擔(dān)心混合專家模型使得效率提高可能會(huì)減少該領(lǐng)域的相關(guān)投資,但Dario指出,功能更強(qiáng)大的模型經(jīng)濟(jì)效益非常可觀,以至于任何節(jié)省的成本都會(huì)迅速重新投資于構(gòu)建更大的模型。MoE的效率提高不會(huì)減少整體投資,而是會(huì)加速AI擴(kuò)展工作。

R1的強(qiáng)大能力得益于基礎(chǔ)模型V3,強(qiáng)化學(xué)習(xí)提供了兩大能力,一是Formatting(確保它提供連貫輸出)二是有用性和無害性(確保模型有用)。推理能力是在合成數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào)期間出現(xiàn)的。

不過R1論文中沒有提到計(jì)算,這是因?yàn)樘岬绞褂昧硕嗌儆?jì)算會(huì)表明他們的GPU比他們的敘述所暗示的要多。這種規(guī)模的強(qiáng)化學(xué)習(xí)需要大量的計(jì)算,尤其是生成合成數(shù)據(jù)。

R1論文中還提到,能使用推理模型的輸出對(duì)其進(jìn)行微調(diào),將非推理的較小模型轉(zhuǎn)換為推理模型。數(shù)據(jù)集管理總共包含800k個(gè)樣本,現(xiàn)在任何人都可以使用R1的思維鏈輸出來制作自己的數(shù)據(jù)集,并在這些輸出的幫助下制作推理模型。未來,我們可能會(huì)看到更多較小的模型展示推理能力,從而使得小型模型的性能提高。

2Multi-head Latent AttentionMLA)多頭潛在注意力

另外一項(xiàng)關(guān)鍵創(chuàng)新是MLA,負(fù)責(zé)顯著降低DeepSeek的推理價(jià)格。

其原因是MLA將每個(gè)查詢所需的KV Cache(鍵-值緩存)數(shù)量減少了約93.3%KV CacheTransformer中的一種內(nèi)存機(jī)制,它存儲(chǔ)代表對(duì)話上下文的數(shù)據(jù),從而減少不必要的計(jì)算。

KV Cache會(huì)隨著對(duì)話上下文的增長(zhǎng)而增長(zhǎng),并產(chǎn)生相當(dāng)大的內(nèi)存限制,大幅減少每個(gè)查詢所需的 KV Cache 數(shù)量會(huì)減少每個(gè)查詢所需的硬件數(shù)量,從而降低成本。報(bào)告認(rèn)為,DeepSeek是在以成本價(jià)提供推理服務(wù)來獲取市場(chǎng)份額,實(shí)際上并沒有盈利。

04.

結(jié)語:DeepSeek發(fā)布

中美AI競(jìng)爭(zhēng)格局大洗牌

DeepSeek的發(fā)布對(duì)整個(gè)行業(yè)產(chǎn)生了全方位、深層次的影響。從OpenAI新發(fā)布的o3-mini也可以看出,中美之間的AI競(jìng)爭(zhēng)格局正在改變,中國(guó)企業(yè)在開源領(lǐng)域的積極作為,讓美國(guó)不得不重新審視其限制開源的策略。

從產(chǎn)業(yè)競(jìng)爭(zhēng)格局來看,DeepSeek的橫空出世重塑了全球AI產(chǎn)業(yè)的競(jìng)爭(zhēng)版圖,這或許也將促使各國(guó)重新審視AI發(fā)展戰(zhàn)略,加強(qiáng)在AI領(lǐng)域的投入和合作,共同推動(dòng)AI技術(shù)的進(jìn)步。

春節(jié)期間DeepSeek掀起的這場(chǎng)AI風(fēng)暴仍在中美乃至全球科技、政金界產(chǎn)生持續(xù)影響,并不斷發(fā)酵,已經(jīng)成為改變AI科技產(chǎn)業(yè)趨勢(shì)的風(fēng)向標(biāo)事件,智東西將持續(xù)跟進(jìn)相關(guān)進(jìn)展和報(bào)道,敬請(qǐng)關(guān)注。

摘自-智東西

   
上一篇 下一篇
投資的最高境界:等戴維斯來敲門沒有上一篇
主站蜘蛛池模板: 亚洲欧美日韩综合二区三区 | 亚洲综合在线网 | 国产aaa毛片| 福利盒子手机看片 | 成人精品视频 | 午夜免费视频欧美在线 | a级黄色片免费 | 日本免费色视频 | 老司机精品福利在线 | 在线 你懂| 亚洲视频在线精品 | 亚洲最大视频网 | 成人免费在线视频网 | 高清精品一区二区三区一区 | 黄页免费观看 | 你懂的在线视频观看 | 亚洲欧美视频在线观看 | 二性视频 | 国产精品视频久久久 | 亚洲视频1区 | a级人体片免费观看网站 | 日韩一区二区中文字幕 | 精品国产免费观看一区 | 中文字幕人成不卡一区 | 精品国内一区二区三区免费视频 | 国产精品国产三级国产普通 | 日韩不卡中文字幕 | 一区二区视频在线观看 | 亚洲高清一区二区三区久久 | 国产网站在线免费观看 | 国产成人精品久久一区二区三区 | 豆国产97在线 | 亚洲 | 午夜黄页网站在线播放 | 国产三级精品三级在专区 | 九一国产精品 | 日韩女人毛片在线播放 | 日本高清中文字幕视频在线 | 国产日产精品_国产精品毛片 | 亚洲欧美日韩高清在线看 | 中国xxxx真实自拍hd | 国产成人在线观看网站 |