科技日?qǐng)?bào)記者 崔爽
一個(gè)來(lái)自中國(guó)的開源模型,在開年之際聚焦了人工智能(AI)行業(yè)的目光。
日前,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡(jiǎn)稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時(shí)公布長(zhǎng)達(dá)53頁(yè)的技術(shù)報(bào)告,介紹關(guān)鍵技術(shù)和訓(xùn)練細(xì)節(jié)。
和很多語(yǔ)焉不詳?shù)膱?bào)告相比,這份報(bào)告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級(jí),但訓(xùn)練僅僅花費(fèi)557.6萬(wàn)美元,僅用2048塊H800顯卡,耗時(shí)不到兩個(gè)月。
美國(guó)人工智能初創(chuàng)公司Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪曾透露,GPT-4o的模型訓(xùn)練成本約為1億美元。美國(guó)開放人工智能研究中心(OpenAI)創(chuàng)始成員之一安德烈·卡帕西點(diǎn)評(píng),DeepSeek-V3讓在有限算力預(yù)算內(nèi)進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。
深度求索如何實(shí)現(xiàn)“花小錢辦大事”?它是否走出了大模型發(fā)展的一條新路?
降低模型推理成本
深度求索一直是國(guó)內(nèi)AI版圖上位置相對(duì)獨(dú)特的一家——它是唯一沒有做2C(面向個(gè)人消費(fèi)者)應(yīng)用的公司,選擇開源路線,至今沒有融過(guò)資。
去年5月,深度求索發(fā)布DeepSeek-V2,以其創(chuàng)新的模型架構(gòu)和史無(wú)前例的性價(jià)比爆火。模型推理成本被降至每百萬(wàn)Tokens(大模型用來(lái)表示自然語(yǔ)言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引發(fā)字節(jié)、阿里、百度等企業(yè)的模型降價(jià)潮。
個(gè)中關(guān)節(jié)在于,DeepSeek提出的MLA(多頭潛在注意力機(jī)制)架構(gòu)和DeepSeekMoESparse(采用稀疏結(jié)構(gòu)的混合專家模型)結(jié)構(gòu),大幅降低了模型的計(jì)算量和顯存占用,實(shí)現(xiàn)了高效推理和經(jīng)濟(jì)高效的訓(xùn)練。
簡(jiǎn)單來(lái)說(shuō),模型壓縮、專家并行訓(xùn)練、FP8混合精度訓(xùn)練、數(shù)據(jù)蒸餾與算法優(yōu)化等一系列創(chuàng)新技術(shù)大幅降低了V3模型成本。作為新興的低精度訓(xùn)練方法,F(xiàn)P8技術(shù)通過(guò)減少數(shù)據(jù)表示所需的位數(shù),顯著降低了內(nèi)存占用和計(jì)算需求。據(jù)報(bào)道,目前,谷歌等已將這項(xiàng)技術(shù)引入模型訓(xùn)練與推理中。
深度科技研究院院長(zhǎng)張孝榮在接受媒體采訪時(shí)說(shuō),DeepSeek的“出圈”是對(duì)其在大模型技術(shù)上的突破和創(chuàng)新的認(rèn)可,其通過(guò)優(yōu)化算法和工程實(shí)踐,實(shí)現(xiàn)高性能與低成本的平衡。DeepSeek為整個(gè)行業(yè)的發(fā)展注入活力,也對(duì)大模型的技術(shù)路徑和工程實(shí)踐產(chǎn)生積極影響,推動(dòng)高效訓(xùn)練、模型輕量化和工程優(yōu)化。
有業(yè)內(nèi)人士分析,V3在架構(gòu)創(chuàng)新、訓(xùn)練效率和推理性能方面展現(xiàn)巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻(xiàn)。不過(guò),與此同時(shí),也仍有許多挑戰(zhàn)需要解決,如需進(jìn)一步擴(kuò)展上下文長(zhǎng)度、優(yōu)化多模態(tài)數(shù)據(jù)處理等。未來(lái)的研究方向包括提升模型的推理速度、完善更高效的硬件架構(gòu)設(shè)計(jì),以及增強(qiáng)多模態(tài)學(xué)習(xí)和生成能力。
不堆算力創(chuàng)新算法
大參數(shù)、大算力、大投入,這條已經(jīng)被驗(yàn)證行之有效的ChatGPT路徑,實(shí)則是絕大部分創(chuàng)業(yè)公司難以承受之重。
據(jù)報(bào)道,仍處于研發(fā)過(guò)程中的GPT-5,已進(jìn)行過(guò)至少兩輪訓(xùn)練,每輪訓(xùn)練耗時(shí)數(shù)月,一輪計(jì)算成本接近5億美元。一年半過(guò)去,GPT-5仍未問(wèn)世。這意味著,新一代通用大模型的訓(xùn)練成本已達(dá)到十多億美元甚至更高。未來(lái)這一數(shù)字可能持續(xù)攀升。
規(guī)模定律(Scaling law)是指在訓(xùn)練大模型時(shí),數(shù)據(jù)量、參數(shù)量和計(jì)算資源越多,訓(xùn)練出的模型能力和效果越好。然而,一段時(shí)間以來(lái),行業(yè)對(duì)規(guī)模定律可持續(xù)性的疑問(wèn)不絕于耳。
V3的出現(xiàn)提供了新的解法?!癝caling Law不只停留在預(yù)訓(xùn)練階段,而是往后訓(xùn)練,尤其是注重推理領(lǐng)域的后訓(xùn)練集、強(qiáng)化學(xué)習(xí)等領(lǐng)域擴(kuò)展?!敝窃囱芯吭焊痹洪L(zhǎng)兼總工程師林詠華接受科技日?qǐng)?bào)記者采訪時(shí)說(shuō),這一點(diǎn)在國(guó)外以O(shè)penAI o1發(fā)布為標(biāo)志,國(guó)內(nèi)則有DeepSeek使用強(qiáng)化學(xué)習(xí)訓(xùn)練發(fā)布DeepSeek R1這個(gè)具有很強(qiáng)挖掘和激活能力的模型。
在林詠華看來(lái),V3的發(fā)布,也印證了利用R1可以很好進(jìn)行能力提升。
行業(yè)相關(guān)探索還有很多,如Kimi將強(qiáng)化學(xué)習(xí)用到更多搜索場(chǎng)景,發(fā)布以邏輯思考和深度思考為核心功能的數(shù)學(xué)模型K0-math;螞蟻技術(shù)研究院建立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,圍繞如何在后訓(xùn)練及強(qiáng)化學(xué)習(xí)上進(jìn)行更多模型能力的探索。林詠華期待,未來(lái)不僅是靠堆砌更多算力、參數(shù)和數(shù)據(jù),而是靠真正的算法創(chuàng)新,持續(xù)在后訓(xùn)練階段幫助模型提升基礎(chǔ)能力。
值得注意的是,“省錢模式開啟”并不意味著算力式微。
V3發(fā)布后,360集團(tuán)創(chuàng)始人周鴻祎發(fā)文稱贊“DeepSeek的進(jìn)步對(duì)推動(dòng)中國(guó)AI產(chǎn)業(yè)發(fā)展是極大利好”,但他也認(rèn)為,這并非說(shuō)中國(guó)AI發(fā)展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因?yàn)槟壳邦A(yù)訓(xùn)練算力需求或許沒那么大,但像慢思考這類復(fù)雜推理模型對(duì)推理算力需求大,文生圖、文生視頻的應(yīng)用也需消耗大量算力資源。巨頭們提供AI云服務(wù),構(gòu)建龐大算力基礎(chǔ)必不可少,這與 DeepSeek 降低訓(xùn)練算力需求是兩回事,兩者并不矛盾。
一位行業(yè)專家在接受科技日?qǐng)?bào)記者采訪時(shí)認(rèn)為,2025年,大模型行業(yè)會(huì)進(jìn)一步收斂,這種收斂既包括技術(shù)層面,也包括廠商層面。進(jìn)入“百模大戰(zhàn)”后期,要進(jìn)一步提高模型計(jì)算效率,降低推理成本,對(duì)計(jì)算的架構(gòu)分布、利用效率等都提出更為精細(xì)化的要求。
“燒錢”不是唯一邏輯
深度求索創(chuàng)始人梁文鋒在金融行業(yè)征戰(zhàn)已久。他成立的幻方量化早在2019年就開始大手筆投入深度學(xué)習(xí)訓(xùn)練平臺(tái)。2023年7月,梁文鋒創(chuàng)立深度求索,專注AI大模型的研究和開發(fā)。
據(jù)報(bào)道,包括梁文鋒在內(nèi),深度求索僅有139名工程師和研究人員。在外界看來(lái),這是一支“神秘的東方力量”。
但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測(cè)的奇才,團(tuán)隊(duì)都是國(guó)內(nèi)頂尖高校的應(yīng)屆畢業(yè)生,沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。他特別提及,“V2模型沒有海外回來(lái)的人,都是本土的”。
他也曾在訪談中說(shuō),過(guò)去30多年的IT浪潮,中國(guó)基本上扮演的是追隨者角色,“隨著經(jīng)濟(jì)的發(fā)展,中國(guó)也應(yīng)該逐步成為技術(shù)創(chuàng)新的主要貢獻(xiàn)者”。如今,V3的橫空出世貢獻(xiàn)了一個(gè)更高效率、更低成本的大模型發(fā)展樣本,也讓AI行業(yè)看到一種可能:雖然訓(xùn)練大模型依然需要大規(guī)模顯卡集群,但“燒錢”不是行業(yè)唯一的邏輯,也并不是誰(shuí)燒錢多,誰(shuí)就注定贏得一切。
對(duì)此,周鴻祎評(píng)論道,V3用2000塊卡做到了萬(wàn)卡集群才能做到的事。用這種極致訓(xùn)練方法訓(xùn)練專業(yè)大模型,算力成本會(huì)進(jìn)一步降低,促使中國(guó)AI在專業(yè)、垂直、場(chǎng)景、行業(yè)大模型上更快普及。