近日 DeepSeek R2 的最新參數(shù)引發(fā)了行業(yè)內(nèi)外的廣泛關(guān)注,以下是爆料的關(guān)鍵信息:
?? 參數(shù)規(guī)模:1.2萬(wàn)億參數(shù),780億活躍參數(shù),采用混合專(zhuān)家模型(MoE)架構(gòu)。
?? 成本優(yōu)勢(shì):與GPT-4相比,成本大幅降低,輸入每百萬(wàn)次僅需0.07美元,輸出每百萬(wàn)次僅需0.27美元,成本降低97.3%。
?? 訓(xùn)練數(shù)據(jù):使用了5.2PB的訓(xùn)練數(shù)據(jù),在C-Eval 2.0測(cè)試中達(dá)到了89.7%的準(zhǔn)確率。
?? 視覺(jué)性能:在COCO(Common Objects in Context)圖像識(shí)別測(cè)試中,準(zhǔn)確率高達(dá)92.4%,視覺(jué)性能顯著提升。
?? 硬件適配:在華為昇騰910B芯片上的利用率高達(dá)82%,顯示出良好的硬件適配性。
此次泄露的信息顯示,DeepSeek R2正逐步擺脫對(duì)美國(guó)供應(yīng)鏈的依賴(lài),這一轉(zhuǎn)變可能對(duì)全球AI產(chǎn)業(yè)格局產(chǎn)生深遠(yuǎn)影響。有業(yè)內(nèi)人士指出,部分爆料內(nèi)容存在邏輯矛盾,甚至存在外網(wǎng)推文引用中文非正規(guī)渠道消息的情況。關(guān)于DeepSeek R2的發(fā)布時(shí)間及網(wǎng)傳參數(shù)真實(shí)性,仍需謹(jǐn)慎看待。
如果DeepSeekR2真的發(fā)布了,對(duì)此你有什么期待?