爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑，未來(lái)算力還重要嗎？

2025-02-11 10:52:21來(lái)源：TechWeb.com.cn 關(guān)鍵詞：DeepSeek AI大模型閱讀量：25828

導(dǎo)讀：近期，DeepSeek在AI大模型領(lǐng)域引發(fā)熱議，憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式，迅速吸引了全球關(guān)注，且熱度一直不減。

　　近期，DeepSeek在AI大模型領(lǐng)域引發(fā)熱議，憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式，迅速吸引了全球關(guān)注，且熱度一直不減。但隨之而來(lái)的，對(duì)其成本、技術(shù)以及為未來(lái)作為大模型基礎(chǔ)設(shè)施的算力也引發(fā)了爭(zhēng)議。

　　DeepSeek陷成本誤區(qū)？

　　提及成本，DeepSeek發(fā)表的原始報(bào)告中有詳細(xì)解釋這筆成本的計(jì)算：“在預(yù)訓(xùn)練階段，每兆個(gè)token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時(shí)，也就是說(shuō)，在我們擁有2048個(gè)H800 GPU的叢集上需要3.7天。因此，我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成，耗費(fèi)2664K GPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)充所需的119K GPU小時(shí)和后制訓(xùn)練所需的5K GPU小時(shí)，DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元，我們的總訓(xùn)練成本僅為557.6萬(wàn)美元。”

　　對(duì)此，近日知名的SemiAnalysis公開發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報(bào)告中稱：DeepSeek論文中提到的600萬(wàn)美元成本僅指預(yù)訓(xùn)練運(yùn)行的GPU成本，這只是模型總成本的一小部分，他們?cè)谟布系幕ㄙM(fèi)遠(yuǎn)高于5億美元。例如為了開發(fā)新的架構(gòu)創(chuàng)新，在模型開發(fā)過(guò)程中，需要投入大量資金來(lái)測(cè)試新想法、新架構(gòu)思路，并進(jìn)行消融實(shí)驗(yàn)。開發(fā)和實(shí)現(xiàn)這些想法需要整個(gè)團(tuán)隊(duì)投入大量人力和GPU計(jì)算時(shí)間。例如深度求索的關(guān)鍵創(chuàng)新—多頭潛在注意力機(jī)制(Multi-Head Latent Attention)，就耗費(fèi)了數(shù)月時(shí)間。

　　無(wú)獨(dú)有偶，據(jù)外媒報(bào)道，李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用，使用了16張英偉達(dá)H100 GPU，耗時(shí)26分鐘就完成了訓(xùn)練，成功“打造”出了一個(gè)名為s1-32B的人工智能推理模型。

　　有業(yè)內(nèi)觀點(diǎn)認(rèn)為，DeepSeek模型低成本并不客觀。

　　武漢大學(xué)計(jì)算機(jī)學(xué)院教授、中國(guó)人工智能學(xué)會(huì)心智計(jì)算專委會(huì)副主任蔡恒進(jìn)對(duì)TechWeb表示，DeepSeek在生成模型的成本在報(bào)告中已經(jīng)寫的很清晰了，過(guò)于糾結(jié)前期的投入，有多少實(shí)際成本是不重要的，特別是對(duì)于國(guó)內(nèi)產(chǎn)業(yè)成本很低的情況下，前期做研究的成本也會(huì)比美國(guó)低很多。

　　蒸餾業(yè)內(nèi)通行做法，是非公婆各有理

　　除了上述的成本外，業(yè)內(nèi)對(duì)于DeepSeek爭(zhēng)議最大的還有就是其是否使用了蒸餾技術(shù)，如果使用，究竟使用了誰(shuí)家的？

　　最先提出質(zhì)疑的是，是在DeepSeek R1發(fā)布之初，OpenAI和微軟均向媒體證實(shí)，已掌握疑似DeepSeek通過(guò)“蒸餾”(distillation)技術(shù)，利用OpenAI專有模型來(lái)訓(xùn)練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務(wù)上達(dá)到類似的效果。OpenAI雖未進(jìn)一步提供證據(jù)的細(xì)節(jié)，但根據(jù)其服務(wù)條款，用戶不得“復(fù)制”任何OpenAI的服務(wù)，或“利用輸出結(jié)果開發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。

　　對(duì)于DeepSeek爆火之下，馬斯克一直罕見地并未發(fā)表評(píng)論，卻在最近點(diǎn)贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù)，需要借助ChatGPT-4o和o1才能完成訓(xùn)練。盡管模型蒸餾是一項(xiàng)常見的技術(shù)手段，能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用，但這種模式只能讓DeepSeek接近OpenAI，而難以真正超越OpenAI。

　　除了國(guó)外，國(guó)內(nèi)關(guān)于DeepSeek V3曾在測(cè)試中出現(xiàn)過(guò)異常：該模型自稱是OpenAI的ChatGPT，并能提供OpenAI的API使用說(shuō)明。專家認(rèn)為，這很可能是由于訓(xùn)練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù))，導(dǎo)致模型發(fā)生了“身份混淆”。

　　此外，由中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院、北京大學(xué)、01.AI、南方科技大學(xué)、Leibowitz AI等多個(gè)知名機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語(yǔ)言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過(guò)程可能主要來(lái)自GPT4o，且蒸餾程度較高。

　　該論文提出了一個(gè)系統(tǒng)化的框架，量化并評(píng)估大模型蒸餾的過(guò)程及其影響，采用了“響應(yīng)相似性評(píng)估(RSE)”和“身份一致性評(píng)估(ICE)”兩個(gè)量化指標(biāo)。RSE實(shí)驗(yàn)結(jié)果顯示，DeepSeek V3的蒸餾程度與GPT4o接近，評(píng)分為4.102，遠(yuǎn)高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實(shí)驗(yàn)中，DeepSeek V3也顯示出較高的蒸餾程度，屬于可疑響應(yīng)數(shù)量最多的模型之一。

　　對(duì)于蒸餾技術(shù)的爭(zhēng)議，蔡恒進(jìn)對(duì)TechWeb表示，DeepSeek完全蒸餾GPT的說(shuō)法是錯(cuò)誤的，ChatGPT的模型是閉源的，而DeepSeek展示了思考過(guò)程，這是抄不出來(lái)的。“DeepSeek技術(shù)上是有創(chuàng)新的，過(guò)于糾結(jié)蒸餾這方面完全沒(méi)有意義。”蔡恒進(jìn)說(shuō)道。

　　蔡恒進(jìn)認(rèn)為DeepSeek有著獨(dú)特的技術(shù)路徑優(yōu)勢(shì)，它可以從底層優(yōu)化，可以繞開英偉達(dá)CUDA生態(tài)，可以大幅提升國(guó)產(chǎn)芯片做預(yù)訓(xùn)練的性能。

　　打破算力魔咒，未來(lái)算力還重要嗎？

　　基于我們前述成本的優(yōu)勢(shì)，有業(yè)內(nèi)觀點(diǎn)認(rèn)為，DeepSeek的出現(xiàn)，打破了英偉達(dá)等科技巨頭“堆積算力”的路徑，也就是說(shuō)，美國(guó)AI巨頭們認(rèn)定的那個(gè)靠錢、靠更高算力芯片才能堆出來(lái)的更好的模型，不需要那么高昂的門檻了。

　　蔡恒進(jìn)對(duì)TechWeb表示，原來(lái)我們一直認(rèn)為不斷“堆積算力”才能提高AI模型能力，但Deepseek的出現(xiàn)走出了另一條路，即不一定要提升很高的參數(shù)規(guī)模就能實(shí)現(xiàn)很高的性能，可能對(duì)算力需求至少降到10倍以上。“堆算力”本身沒(méi)有錯(cuò)，但隨著Deepseek的出現(xiàn)我們會(huì)發(fā)現(xiàn)這條路的性價(jià)比不高。

　　DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降，但也有觀點(diǎn)認(rèn)為，DeepSeek表現(xiàn)固然優(yōu)秀，但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練，數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn)，合成數(shù)據(jù)的生成和清洗也需要消耗算力。

　　此外，在訓(xùn)練上做降本增效不代表算力需求會(huì)下降，只代表大廠可以用性價(jià)比更高的方式去做模型極限能力的探索。

　　業(yè)內(nèi)在討論算力時(shí)，常引用蒸汽時(shí)代的杰文斯悖論來(lái)類比。這一悖論由經(jīng)濟(jì)學(xué)家威廉•斯坦利•杰文斯提出，核心觀點(diǎn)是：當(dāng)某種資源的使用效率提高、獲取變得更容易時(shí)，其總體使用量往往不減反增。以蒸汽機(jī)為例，燃油效率的提升降低了單位工作量所需的煤炭成本，反而刺激了更多的工業(yè)活動(dòng)，導(dǎo)致煤炭的總體消耗量上升。蒸汽機(jī)效率的提升，不僅沒(méi)有減少對(duì)蒸汽機(jī)的需求，反而因?yàn)榧夹g(shù)的推廣和應(yīng)用場(chǎng)景的擴(kuò)大，進(jìn)一步增加了市場(chǎng)對(duì)蒸汽機(jī)的需求。DeepSeek 的發(fā)展也呈現(xiàn)出類似的趨勢(shì)：算力效率的提升并未減少對(duì)算力的需求，反而推動(dòng)了更多高算力應(yīng)用的落地，使得行業(yè)對(duì)算力的需求持續(xù)增長(zhǎng)。

　　對(duì)此，中信證券研報(bào)也指出，近日，DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注，其在保證了模型能力的前提下，訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠，助力AI應(yīng)用廣泛落地；同時(shí)訓(xùn)練效率大幅提升，亦將助力推理算力需求高增。

　　而Bloomberg Intelligence最近的一篇報(bào)告顯示，企業(yè)客戶可能會(huì)在2025年進(jìn)行更大規(guī)模的AI投資，而AI支出增長(zhǎng)將更側(cè)重于推理側(cè)，以實(shí)現(xiàn)投資變現(xiàn)或提升生產(chǎn)力。

　　那么上述存有爭(zhēng)議的事實(shí)究竟如何？俗話說(shuō)：讓子彈再飛一會(huì)吧！(文/卞海川)

上一篇：2024年我國(guó)規(guī)上電子信息制造業(yè)增加值同比增長(zhǎng)11.8%

下一篇：人工智能改變?nèi)粘９I(yè)運(yùn)營(yíng)的5種實(shí)際方式

相關(guān)話題

DeepSeek太香了！眾企蜂擁接入

我要評(píng)論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個(gè)字符)

表情

所有評(píng)論僅代表網(wǎng)友意見，與本站立場(chǎng)無(wú)關(guān)。

智能眼鏡銷量暴漲800%！2025年中國(guó)市場(chǎng)將躍居全球第一
IDC數(shù)據(jù)顯示，2025年全球智能眼鏡出貨量預(yù)計(jì)將達(dá)到1280萬(wàn)臺(tái)，同比增長(zhǎng)26%。其中，中國(guó)市場(chǎng)將突破275萬(wàn)臺(tái)，同比增長(zhǎng)高達(dá)107%，躍居全球第一。
智能眼鏡AI大模型
2025-06-12 13:52:43
傳統(tǒng)制鞋業(yè)的AI突圍！鞋企借智能制造重構(gòu)行業(yè)創(chuàng)新范式
2025年將投入1.2億元建設(shè)“AI智造基地“，計(jì)劃實(shí)現(xiàn)從智能設(shè)計(jì)到個(gè)性定制生產(chǎn)的全鏈路數(shù)字化，目標(biāo)將定制鞋履的交付周期壓縮至72小時(shí)以內(nèi)。
傳統(tǒng)制鞋智能制造AI大模型
2025-04-29 17:41:52
消息稱黃仁勛與DeepSeek創(chuàng)始人梁文鋒會(huì)面討論設(shè)計(jì)新一代芯片
英偉達(dá)公司首席執(zhí)行官黃仁勛在中國(guó)訪問(wèn)期間，與DeepSeek創(chuàng)始人梁文鋒會(huì)面。據(jù)報(bào)道，黃仁勛與梁文鋒討論了如何設(shè)計(jì)符合中美兩國(guó)監(jiān)管要求的新一代芯片，以滿足客戶需求。
黃仁勛DeepSeek梁文鋒
2025-04-20 10:35:20
早報(bào)|阿里通義千問(wèn)登頂全球開源模型榜首；2025年全球GenAI支出將達(dá)6440億美元
4月2日，全球最大的AI開源社區(qū)Hugging Face更新了大模型榜單，阿里通義千問(wèn)近期開源的端到端全模態(tài)大模型Qwen2.5-Omni登上總榜榜首；Gartner預(yù)測(cè)，2025年全球生成式人工智能(GenAI)支出將達(dá)到6440億美元，較2024年增長(zhǎng)76.4%......
AI大模型生成式人工智能
2025-04-03 09:33:40
擁抱DeepSeek的軟件企業(yè)收入激增3倍，行業(yè)迎來(lái)爆發(fā)拐點(diǎn)？
今年3月，部分SaaS企業(yè)收入同比增長(zhǎng)超過(guò)3倍，積極擁抱AI、擁抱DeepSeek的企業(yè)，如果能繼續(xù)保持這樣的增速，有望迎來(lái)真正的春天。
DeepSeekSaaS軟件服務(wù)
2025-04-02 16:56:12
DeepSeek+旅游文旅行業(yè)迎來(lái)發(fā)展新紀(jì)元
在數(shù)字技術(shù)深度重塑全球產(chǎn)業(yè)格局的當(dāng)下，DeepSeek作為一股創(chuàng)新力量，正深刻影響文旅行業(yè)。憑借強(qiáng)大的數(shù)據(jù)處理能力與智能分析系統(tǒng)，DeepSeek重新定義文旅服務(wù)模式與用戶體驗(yàn)，開啟文旅產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的全新征程。
DeepSeek文旅
2025-03-31 09:42:08

版權(quán)與免責(zé)聲明：

凡本站注明“來(lái)源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來(lái)源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí)，必須保留本站注明的作品第一來(lái)源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來(lái)源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來(lái)源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問(wèn)題，請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯(cuò)過(guò)行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來(lái)訂閱

信息更豐富

今日焦點(diǎn)/FOCUS 更多

熱門話題/TOPICS更多

人形機(jī)器人奏響“狂歡曲”

高難度！深圳眾擎實(shí)現(xiàn)全球首例人形機(jī)器人前空翻

宇樹科技王興興：預(yù)計(jì)年底H1機(jī)器人跑速達(dá)10米/秒超博爾特

“智能經(jīng)濟(jì)”駛?cè)氚l(fā)展“快車道”

AI智能體Manus橫空出世！中國(guó)AI實(shí)現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉(zhuǎn)智改，安全先行！“以模制?！弊o(hù)航企業(yè)數(shù)智升級(jí)

精彩直播/VIDEO更多

回放

【與智造同行】走進(jìn)華為AI＋制造行業(yè)峰會(huì)2025——如何讓智能制造走深走實(shí)？華為給你答案！

: 數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟(jì)分論壇

推薦產(chǎn)品/PRODUCT 更多

JDC-1250A安全滑觸線
滑觸線,單級(jí)滑觸線
品牌
領(lǐng)鵬
耐溫0L0Q04 0LP-FK0A對(duì)射光電開關(guān)
防爆光電開關(guān),光電開關(guān)接線圖,光電開關(guān)電氣符號(hào),光電開關(guān)圖片,光電開關(guān)原理圖
品牌
其他品牌
高低溫交替試驗(yàn)箱
高低溫箱,恒溫恒濕箱,高低溫交替箱,高低溫循環(huán)箱,高低溫測(cè)試設(shè)備
品牌
湖北高天
梁瑾EX系列高壓防爆風(fēng)機(jī)現(xiàn)貨
透浦防爆鼓風(fēng)機(jī),透浦防爆鼓風(fēng)機(jī),環(huán)形防爆鼓風(fēng)機(jī),漩渦防爆鼓風(fēng)機(jī),變頻防爆鼓風(fēng)機(jī)
品牌
其他品牌
HRZN-11000脈沖噴吹工業(yè)集塵器
磨床吸塵器,工業(yè)吸塵器,不銹鋼吸塵器,工業(yè)集塵機(jī),磨床集塵器
品牌
其他品牌
一體化凈水設(shè)備日常維護(hù)
一體化凈水設(shè)備,一體化凈水設(shè)備用途,自動(dòng)凈水設(shè)備,不銹鋼、碳鋼,凈水器
品牌
明基環(huán)保

免费看aⅴ,天天插天天干天天射,呦女网,入逼逼

爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑，未來(lái)算力還重要嗎？

熱門評(píng)論

全部評(píng)論

免费看aⅴ,天天插天天干天天射,呦女网,入逼逼

爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑，未來(lái)算力還重要嗎？

熱門評(píng)論

全部評(píng)論

爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑，未來(lái)算力還重要嗎？