
揭秘DeepSeek一個(gè)更極致的中國技術(shù) 理想主義故事
時(shí)間:24-12-31 來源:暗涌Waves
揭秘DeepSeek一個(gè)更極致的中國技術(shù)
理想主義故事
中國的7家大模型創(chuàng)業(yè)公司中,DeepSeek(深度求索)最不聲不響,但它又總能以出其不意的方式被人記住。
一年前,這種出其不意源自它背后的量化私募巨頭幻方,是大廠外唯一一家儲(chǔ)備萬張A100芯片的公司,一年后,則來自它才是引發(fā)中國大模型價(jià)格戰(zhàn)的源頭。
在被AI連續(xù)轟炸的5月,DeepSeek一躍成名。起因是他們發(fā)布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek被迅速冠以“AI界拼多多”之稱的同時(shí),字節(jié)、騰訊、百度、阿里等大廠也按耐不住,紛紛降價(jià)。中國大模型價(jià)格戰(zhàn)由此一觸即發(fā)。
彌漫的硝煙其實(shí)掩蓋了一個(gè)事實(shí):與很多大廠燒錢補(bǔ)貼不同,DeepSeek是有利潤的。
這背后,是DeepSeek對(duì)模型架構(gòu)進(jìn)行了全方位創(chuàng)新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),把顯存占用降到了過去最常用的MHA架構(gòu)的5%-13%,同時(shí),它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),也把計(jì)算量降到極致,所有這些最終促成了成本的下降。
在硅谷,DeepSeek被稱作“來自東方的神秘力量”。SemiAnalysis首席分析師認(rèn)為,DeepSeek V2論文“可能是今年最好的一篇”。OpenAI前員工Andrew Carr認(rèn)為論文“充滿驚人智慧”,并將其訓(xùn)練設(shè)置應(yīng)用于自己的模型。而OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為,DeepSeek“雇傭了一批高深莫測(cè)的奇才”,還認(rèn)為中國制造的大模型,“將和無人機(jī)、電動(dòng)汽車一樣,成為不容忽視的力量。”
在基本由硅谷牽動(dòng)故事進(jìn)展的AI浪潮里,這是罕有的情形。多位行業(yè)人士告訴我們,這種強(qiáng)烈的反響源自架構(gòu)層面的創(chuàng)新,是國產(chǎn)大模型公司乃至全球開源基座大模型都很罕見的嘗試。一位AI研究者表示,Attention架構(gòu)提出多年來,幾乎未被成功改過,更遑論大規(guī)模驗(yàn)證?!斑@甚至是一個(gè)做決策時(shí)就會(huì)被掐斷的念頭,因?yàn)榇蟛糠秩硕既狈π判??!?/span>
而另一方面,國產(chǎn)大模型之前很少涉足架構(gòu)層面的創(chuàng)新,也是因?yàn)楹苌儆腥酥鲃?dòng)去擊破那樣一種成見:美國更擅長從0-1的技術(shù)創(chuàng)新,而中國更擅長從1-10的應(yīng)用創(chuàng)新。何況這種行為非常不劃算——新一代模型,過幾個(gè)月自然有人做出來,中國公司只要跟隨、做好應(yīng)用即可。對(duì)模型結(jié)構(gòu)進(jìn)行創(chuàng)新,意味著沒有路徑可依,要經(jīng)歷很多失敗,時(shí)間、經(jīng)濟(jì)成本都耗費(fèi)巨大。
DeepSeek顯然是逆行者。在一片認(rèn)為大模型技術(shù)必然趨同,follow是更聰明捷徑的喧嘩聲中,DeepSeek看重“彎路”中積累的價(jià)值,并認(rèn)為中國的大模型創(chuàng)業(yè)者除應(yīng)用創(chuàng)新外,也可以加入到全球技術(shù)創(chuàng)新的洪流中。
DeepSeek的很多抉擇都與眾不同。截至目前,7家中國大模型創(chuàng)業(yè)公司中,它是唯一一家放棄“既要又要”路線,至今專注在研究和技術(shù),未做toC應(yīng)用的公司,也是唯一一家未全面考慮商業(yè)化,堅(jiān)定選擇開源路線甚至都沒融過資的公司。這些使得它經(jīng)常被遺忘在牌桌之外,但在另一端,它又經(jīng)常在社區(qū)被用戶“自來水”式傳播。
DeepSeek究竟是如何煉成的?我們?yōu)榇嗽L談了甚少露面的DeepSeek創(chuàng)始人梁文鋒。
這位從幻方時(shí)代,就在幕后潛心研究技術(shù)的80后創(chuàng)始人,在DeepSeek時(shí)代,依舊延續(xù)著他的低調(diào)作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。
和很多量化基金創(chuàng)始人都有過海外對(duì)沖基金履歷,多出身物理、數(shù)學(xué)等專業(yè)不同的是,梁文鋒一直是本土背景,早年就讀的也是浙江大學(xué)電子工程系人工智能方向。
多位行業(yè)人士和DeepSeek研究員告訴我們,梁文鋒是當(dāng)下中國AI界非常罕見的“兼具強(qiáng)大的infra工程能力和模型研究能力,又能調(diào)動(dòng)資源”、“既可以從高處做精準(zhǔn)判斷,又可以在細(xì)節(jié)上強(qiáng)過一線研究員”的人,他擁有“令人恐怖的學(xué)習(xí)能力”,同時(shí)又“完全不像一個(gè)老板,而更像一個(gè)極客”。
這是一次尤為難得的訪談。訪談里,這位技術(shù)理想主義者,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把“是非觀”置于“利害觀”之前,并提醒我們看到時(shí)代慣性,把“原創(chuàng)式創(chuàng)新”提上日程的人。
一年前,DeepSeek剛下場(chǎng)時(shí),我們初次訪談了梁文鋒 :《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 。如果說當(dāng)時(shí)那句「務(wù)必要瘋狂地懷抱雄心,且還要瘋狂地真誠」還是一句美麗的口號(hào),一年過去,它已經(jīng)在成為一種行動(dòng)。
以下為對(duì)話部分
Part.1
價(jià)格戰(zhàn)第一槍是怎么打響的?
「暗涌」:DeepSeek V2模型發(fā)布后,迅速引發(fā)一場(chǎng)血雨腥風(fēng)的大模型價(jià)格戰(zhàn),有人說你們是行業(yè)的一條鯰魚。
梁文鋒:我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。
「暗涌」:這個(gè)結(jié)果讓你們意外嗎?
梁文鋒:非常意外。沒想到價(jià)格讓大家這么敏感。我們只是按照自己的步調(diào)來做事,然后核算成本定價(jià)。我們的原則是不貼錢,也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤。
「暗涌」:5天后智譜AI就跟進(jìn)了,之后是字節(jié)、阿里、百度、騰訊等大廠。
梁文鋒:智譜AI降的是一個(gè)入門級(jí)產(chǎn)品,和我們同級(jí)別的模型仍然收費(fèi)很貴。字節(jié)是真正第一個(gè)跟進(jìn)的。旗艦?zāi)P徒档胶臀覀円粯拥膬r(jià)格,然后觸發(fā)了其它大廠紛紛降價(jià)。因?yàn)榇髲S的模型成本比我們高很多,所以我們沒想到會(huì)有人虧錢做這件事,最后就變成了互聯(lián)網(wǎng)時(shí)代的燒錢補(bǔ)貼的邏輯。
「暗涌」:外部看來,降價(jià)很像在搶用戶,互聯(lián)網(wǎng)時(shí)代的價(jià)格戰(zhàn)通常如此。
梁文鋒:搶用戶并不是我們的主要目的。我們降價(jià)一方面是因?yàn)槲覀冊(cè)谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。
「暗涌」:在這之前,大部分中國公司都會(huì)直接copy這一代的 Llama結(jié)構(gòu)去做應(yīng)用,為什么你們會(huì)從模型結(jié)構(gòu)切入?
梁文鋒:如果目標(biāo)是做應(yīng)用,那沿用 Llama結(jié)構(gòu),短平快上產(chǎn)品也是合理選擇。但我們目的地是AGI,這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,實(shí)現(xiàn)更強(qiáng)的模型能力。這是scale up到更大模型所需要做的基礎(chǔ)研究之一。除了模型結(jié)構(gòu),我們還做了大量其他的研究,包括怎么構(gòu)造數(shù)據(jù),如何讓模型更像人類等,這都體現(xiàn)在我們發(fā)布的模型里。另外,Llama的結(jié)構(gòu),在訓(xùn)練效率和推理成本上,和國外先進(jìn)水平估計(jì)也已有兩代差距。
「暗涌」:這種代差主要來自哪里?
梁文鋒:首先訓(xùn)練效率有差距。我們估計(jì),國內(nèi)最好的水平和國外最好的相比,模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué)上可能有一倍的差距,光這一點(diǎn)我們要消耗兩倍的算力才能達(dá)到同樣效果。另外數(shù)據(jù)效率上可能也有一倍差距,也就是我們要消耗兩倍的訓(xùn)練數(shù)據(jù)和算力,才能達(dá)到同樣的效果。合起來就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距。
「暗涌」:大部分中國公司都選擇既要模型又要應(yīng)用,為什么DeepSeek目前選擇只做研究探索?
梁文鋒:因?yàn)槲覀冇X得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。
「暗涌」:互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代留給大部分人的慣性認(rèn)知是,美國擅長搞技術(shù)創(chuàng)新,中國更擅長做應(yīng)用。
梁文鋒:我們認(rèn)為隨著經(jīng)濟(jì)發(fā)展,中國也要逐步成為貢獻(xiàn)者,而不是一直搭便車。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個(gè)月就會(huì)出來更好的硬件和軟件。Scaling Law也在被如此對(duì)待。
但其實(shí),這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來的,只因?yàn)橹拔覀儧]有參與這個(gè)過程,以至于忽視了它的存在。
Part.2
真正的差距不是一年或兩年,而是原創(chuàng)和模仿之差
「暗涌」:為什么DeepSeek V2會(huì)讓硅谷的很多人驚訝?
梁文鋒:在美國每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個(gè)。他們之所以驚訝,是因?yàn)檫@是一個(gè)中國公司,在以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去。畢竟大部分中國公司習(xí)慣follow,而不是創(chuàng)新。
「暗涌」:但這種選擇放在中國語境里,也過于奢侈。大模型是一個(gè)重投入游戲,不是所有公司都有資本只去研究創(chuàng)新,而不是先考慮商業(yè)化。
梁文鋒:創(chuàng)新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關(guān)。但現(xiàn)在,你看無論中國的經(jīng)濟(jì)體量,還是字節(jié)、騰訊這些大廠的利潤,放在全球都不低。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實(shí)現(xiàn)有效的創(chuàng)新。
「暗涌」:為什么中國公司——包括不缺錢的大廠,這么容易把快速商業(yè)化當(dāng)?shù)谝灰x?
梁文鋒:過去三十年,我們都只強(qiáng)調(diào)賺錢,對(duì)創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅(qū)動(dòng)的,還需要好奇心和創(chuàng)造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。
「暗涌」:但你們究竟是一個(gè)商業(yè)組織,而非一個(gè)公益科研機(jī)構(gòu),選擇創(chuàng)新,又通過開源分享出去,那要在哪里形成護(hù)城河?像5月這次MLA架構(gòu)的創(chuàng)新,也會(huì)很快被其他家copy吧?
梁文鋒:在顛覆性的技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個(gè)過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化,就是我們的護(hù)城河。
開源,發(fā)論文,其實(shí)并沒有失去什么。對(duì)于技術(shù)人員來說,被follow是很有成就感的事。其實(shí),開源更像一個(gè)文化行為,而非商業(yè)行為。給予其實(shí)是一種額外的榮譽(yù)。一個(gè)公司這么做也會(huì)有文化的吸引力。
「暗涌」:你怎么看類似朱嘯虎的這種市場(chǎng)信仰派觀點(diǎn)?
梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國最賺錢的公司,都是厚積薄發(fā)的高科技公司。
「暗涌」:但做大模型,單純的技術(shù)領(lǐng)先也很難形成絕對(duì)優(yōu)勢(shì),你們賭的那個(gè)更大的東西是什么?
梁文鋒:我們看到的是中國AI不可能永遠(yuǎn)處在跟隨的位置。我們經(jīng)常說中國AI和美國有一兩年差距,但真實(shí)的gap是原創(chuàng)和模仿之差。如果這個(gè)不改變,中國永遠(yuǎn)只能是追隨者,所以有些探索也是逃不掉的。
英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。他們能看到下一代的技術(shù)趨勢(shì),手里有路線圖。中國AI的發(fā)展,同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來,也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿。
Part.3
更多的投入并不一定產(chǎn)生更多的創(chuàng)新
「暗涌」:現(xiàn)在的DeepSeek有一種OpenAI早期的理想主義氣質(zhì),也是開源的。后邊你們會(huì)選擇閉源嗎?OpenAI和Mistral都有過從開源到閉源的過程。
梁文鋒:我們不會(huì)閉源。我們認(rèn)為先有一個(gè)強(qiáng)大的技術(shù)生態(tài)更重要。
「暗涌」:你們有融資計(jì)劃嗎?看有媒體報(bào)道,幻方對(duì)DeepSeek有獨(dú)立拆分上市的計(jì)劃,硅谷的AI創(chuàng)業(yè)公司,最終也都難免要和大廠綁定。
梁文鋒:短期內(nèi)沒有融資計(jì)劃,我們面臨的問題從來不是錢,而是高端芯片被禁運(yùn)。
「暗涌」:很多人認(rèn)為,做AGI和做量化是完全不同的兩件事,量化可以悶聲去做,但AGI可能更需要高舉高打,需要結(jié)盟,這樣可以讓你的投入變大。
梁文鋒:更多的投入并不一定產(chǎn)生更多的創(chuàng)新。否則大廠可以把所有的創(chuàng)新包攬了。
「暗涌」:你們現(xiàn)在不做應(yīng)用,是因?yàn)槟銈儧]有運(yùn)營的基因嗎?
梁文鋒:我們認(rèn)為當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期。長遠(yuǎn)來說,我們希望形成一種生態(tài),就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,然后其它公司在DeepSeek 的基礎(chǔ)上構(gòu)建toB、toC的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,我們就沒必要自己做應(yīng)用。當(dāng)然,如果需要,我們做應(yīng)用也沒障礙,但研究和技術(shù)創(chuàng)新永遠(yuǎn)是我們第一優(yōu)先級(jí)。
「暗涌」:但選擇API的話,為什么選擇DeepSeek,而不是大廠?
梁文鋒:未來的世界很可能是專業(yè)化分工的,基礎(chǔ)大模型需要持續(xù)創(chuàng)新,大廠有它的能力邊界,并不一定適合。
「暗涌」:但技術(shù)真的可以拉開差距嗎?你也說過并不存在絕對(duì)的技術(shù)秘密。
梁文鋒:技術(shù)沒有秘密,但重置需要時(shí)間和成本。英偉達(dá)的顯卡,理論上沒有任何技術(shù)秘密,很容易復(fù)制,但重新組織團(tuán)隊(duì)以及追趕下一代技術(shù)都需要時(shí)間,所以實(shí)際的護(hù)城河還是很寬。
「暗涌」:你們降價(jià)后,字節(jié)率先跟進(jìn),說明他們還是感受到某種威脅。你怎么看創(chuàng)業(yè)公司與大廠競(jìng)爭(zhēng)的新解法?
梁文鋒:說實(shí)話我們不太care這件事,只是順便做了這件事。提供云服務(wù)不是我們的主要目標(biāo)。我們的目標(biāo)還是去實(shí)現(xiàn)AGI。
目前沒有看到什么新解法,但大廠也沒有明顯占優(yōu)。大廠有現(xiàn)成的用戶,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會(huì)讓它成為隨時(shí)被顛覆的對(duì)象。
「暗涌」:你怎么看DeepSeek之外的6家大模型創(chuàng)業(yè)公司的終局?
梁文鋒:可能活下來2到3家。現(xiàn)在都還處在燒錢階段,所以那些自我定位清晰、更能精細(xì)化運(yùn)營的,更有機(jī)會(huì)活下來。其它公司可能會(huì)脫胎換骨。有價(jià)值的東西不會(huì)煙消云散,但會(huì)換一種方式。
「暗涌」:幻方時(shí)代,面對(duì)競(jìng)爭(zhēng)的姿態(tài)就被評(píng)價(jià)為“我行我素”,很少在意橫向比較。關(guān)于競(jìng)爭(zhēng),你思考的原點(diǎn)是什么?
梁文鋒:我經(jīng)常思考的是,一個(gè)東西能不能讓社會(huì)的運(yùn)行效率變高,以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長的位置。只要終局是讓社會(huì)效率更高,就是成立的。中間很多都是階段性的,過度關(guān)注必然眼花繚亂。
Part.4
一群做“高深莫測(cè)”事的年輕人
「暗涌」:OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為DeepSeek雇傭了“一批高深莫測(cè)的奇才”,做出DeepSeek v2的是怎樣一群人?
梁文鋒:并沒有什么高深莫測(cè)的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。
「暗涌」:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個(gè)領(lǐng)域前50名的頂尖人才可能都不在中國的公司,你們的人都來自哪里?
梁文鋒:V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。
「暗涌」:這次MLA創(chuàng)新是如何發(fā)生的?聽說idea最早來自一個(gè)年輕研究員的個(gè)人興趣?
梁文鋒:在總結(jié)出Attention架構(gòu)的一些主流變遷規(guī)律后,他突發(fā)奇想去設(shè)計(jì)一個(gè)替代方案。不過從想法到落地,中間是一個(gè)漫長的過程。我們?yōu)榇私M了一個(gè)team,花了幾個(gè)月時(shí)間才跑通。
「暗涌」:這種發(fā)散性靈感的誕生和你們完全創(chuàng)新型組織的架構(gòu)很有關(guān)系?;梅綍r(shí)代,你們就很少自上而下地指派目標(biāo)或任務(wù)。但AGI這種充滿不確定性的前沿探索,是否多了管理動(dòng)作?
梁文鋒:DeepSeek也全是自下而上。而且我們一般不前置分工,而是自然分工。每個(gè)人有自己獨(dú)特的成長經(jīng)歷,都是自帶想法的,不需要push他。探索過程中,他遇到問題,自己就會(huì)拉人討論。不過當(dāng)一個(gè)idea顯示出潛力,我們也會(huì)自上而下地去調(diào)配資源。
「暗涌」:聽說DeepSeek對(duì)于卡和人的調(diào)集非常靈活。
梁文鋒:我們每個(gè)人對(duì)于卡和人的調(diào)動(dòng)是不設(shè)上限的。如果有想法,每個(gè)人隨時(shí)可以調(diào)用訓(xùn)練集群的卡無需審批。同時(shí)因?yàn)椴淮嬖趯蛹?jí)和跨部門,也可以靈活調(diào)用所有人,只要對(duì)方也有興趣。
「暗涌」:一種松散的管理方式也取決于你們篩選到了一批強(qiáng)熱愛驅(qū)動(dòng)的人。聽說你們很擅長從細(xì)節(jié)招人, 可以讓一些非傳統(tǒng)評(píng)價(jià)指標(biāo)里優(yōu)秀的人被選出來。
梁文鋒:我們選人的標(biāo)準(zhǔn)一直都是熱愛和好奇心,所以很多人會(huì)有一些奇特的經(jīng)歷,很有意思。很多人對(duì)做研究的渴望,遠(yuǎn)超對(duì)錢的在意。
「暗涌」: transformer誕生在谷歌的AI Lab,ChatGPT誕生在OpenAI,你覺得大公司的AILab 和一個(gè)創(chuàng)業(yè)公司對(duì)于創(chuàng)新產(chǎn)生的價(jià)值有什么不同?
梁文鋒:不管是Google實(shí)驗(yàn)室,還是OpenAI,甚至中國大廠的AI Lab,都很有價(jià)值的。最后是OpenAI做出來,也有歷史的偶然性。
「暗涌」:創(chuàng)新很大程度也是一種偶然嗎?我看你們辦公區(qū)中間那排會(huì)議室左右兩側(cè)都設(shè)置了可以隨意推開的門。你們同事說,這就是給偶然留出空隙。transfomer誕生中就發(fā)生過那種偶然經(jīng)過的人聽到后加入,最終把它變成一個(gè)通用框架的故事。
梁文鋒:我覺得創(chuàng)新首先是一個(gè)信念問題。為什么硅谷那么有創(chuàng)新精神?首先是敢。Chatgpt出來時(shí),整個(gè)國內(nèi)對(duì)做前沿創(chuàng)新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應(yīng)用吧。但創(chuàng)新首先需要自信。這種信心通常在年輕人身上更明顯。
「暗涌」:但你們不參與融資,很少對(duì)外發(fā)聲,社會(huì)聲量上肯定不如那些融資活躍的公司,怎么確保DeepSeek就是做大模型的人的首選?
梁文鋒:因?yàn)槲覀冊(cè)谧鲎铍y的事。對(duì)頂級(jí)人才吸引最大的,肯定是去解決世界上最難的問題。其實(shí),頂尖人才在中國是被低估的。因?yàn)檎麄€(gè)社會(huì)層面的硬核創(chuàng)新太少了,使得他們沒有機(jī)會(huì)被識(shí)別出來。我們?cè)谧鲎铍y的事,對(duì)他們就是有吸引力的。
「暗涌」:前一段OpenAI的發(fā)布并沒有等來GPT5,很多人覺得這是技術(shù)曲線明顯在放緩,也很多人開始質(zhì)疑Scaling Law,你們?cè)趺纯矗?/span>
梁文鋒:我們偏樂觀,整個(gè)行業(yè)看起來都符合預(yù)期。OpenAI也不是神,不可能一直沖在前面。
「暗涌」:你覺得AGI還要多久實(shí)現(xiàn),發(fā)布DeepSeek V2前,你們發(fā)布過代碼生成和數(shù)學(xué)的模型,也從dense模型切換到了MOE,所以你們的AGI路線圖有哪些坐標(biāo)?
梁文鋒:可能是2年、5年或者10年,總之會(huì)在我們有生之年實(shí)現(xiàn)。至于路線圖,即使在我們公司內(nèi)部,也沒有統(tǒng)一意見。但我們確實(shí)押注了三個(gè)方向。一是數(shù)學(xué)和代碼,二是多模態(tài),三是自然語言本身。數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場(chǎng),有點(diǎn)像圍棋,是一個(gè)封閉的、可驗(yàn)證的系統(tǒng),有可能通過自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能。另一方面,可能多模態(tài)、參與到人類的真實(shí)世界里學(xué)習(xí),對(duì)AGI也是必要的。我們對(duì)一切可能性都保持開放。
「暗涌」:你覺得大模型終局是什么樣態(tài)?
梁文鋒:會(huì)有專門公司提供基礎(chǔ)模型和基礎(chǔ)服務(wù),會(huì)有很長鏈條的專業(yè)分工。更多人在之上去滿足整個(gè)社會(huì)多樣化的需求。
Part.5
所有的套路都是上一代的產(chǎn)物
「暗涌」:過去這一年,中國的大模型創(chuàng)業(yè)還是有很多變化的,比如去年開頭還很活躍的王慧文中場(chǎng)退出了,后來加入的公司也開始呈現(xiàn)出差異化。
梁文鋒:王慧文自己承擔(dān)了所有的損失,讓其他人全身而退。他做了一個(gè)對(duì)自己最不利,但對(duì)大家都好的選擇,所以他做人是很厚道的,這點(diǎn)我很佩服。
「暗涌」:現(xiàn)在你的精力最多放在哪里?
梁文鋒:主要的精力在研究下一代的大模型。還有很多未解決的問題。
「暗涌」:其他幾家大模型創(chuàng)業(yè)公司都是堅(jiān)持既要又要,畢竟技術(shù)不會(huì)帶來永久領(lǐng)先,抓住時(shí)間窗口把技術(shù)優(yōu)勢(shì)落到產(chǎn)品也很重要,DeepSeek敢于專注在模型研究上是因?yàn)槟P湍芰€不夠嗎?
梁文鋒:所有的套路都是上一代的產(chǎn)物,未來不一定成立。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來AI的盈利模式,就像馬化騰創(chuàng)業(yè)時(shí),你去討論通用電氣和可口可樂一樣。很可能是一種刻舟求劍。
「暗涌」:過去幻方就有很強(qiáng)的技術(shù)和創(chuàng)新基因,成長也比較順利,這是你偏樂觀的原因嗎?
梁文鋒:幻方某種程度上增強(qiáng)了我們對(duì)技術(shù)驅(qū)動(dòng)型創(chuàng)新的信心,但也不都是坦途。我們經(jīng)歷了一個(gè)漫長的積累過程。外部看到的是幻方2015年后的部分,但其實(shí)我們做了16年。
「暗涌」:回到關(guān)于原創(chuàng)式創(chuàng)新的話題。現(xiàn)在經(jīng)濟(jì)開始進(jìn)入下行,資本也進(jìn)入冷周期,所以它對(duì)原創(chuàng)式創(chuàng)新是否會(huì)帶來更多抑制?
梁文鋒:我倒覺得未必。中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,會(huì)更依賴硬核技術(shù)的創(chuàng)新。當(dāng)很多人發(fā)現(xiàn)過去賺快錢很可能來自時(shí)代運(yùn)氣,就會(huì)更愿意俯身去做真正的創(chuàng)新。
「暗涌」:所以你對(duì)這件事也是樂觀的?
梁文鋒:我是八十年代在廣東一個(gè)五線城市長大的。我的父親是小學(xué)老師,九十年代,廣東賺錢機(jī)會(huì)很多,當(dāng)時(shí)有不少家長到我家里來,基本就是家長覺得讀書沒用。但現(xiàn)在回去看,觀念都變了。因?yàn)殄X不好賺了,連開出租車的機(jī)會(huì)可能都沒了。一代人的時(shí)間就變了。
以后硬核創(chuàng)新會(huì)越來越多?,F(xiàn)在可能還不容易被理解,是因?yàn)檎麄€(gè)社會(huì)群體需要被事實(shí)教育。當(dāng)這個(gè)社會(huì)讓硬核創(chuàng)新的人功成名就,群體性想法就會(huì)改變。我們只是還需要一堆事實(shí)和一個(gè)過程。
摘自-暗涌Waves
上一篇 | 下一篇 |
---|---|
巴菲特:如果一家公司需要密切跟蹤,那就 不... | 沒有上一篇 |