DeepSeek新模型專為下一代國產晶片設計 國產AI軟硬體將要聯手?

Date: Category:科技 Views:1 Comment:0


軟件+硬件的全鏈路國產 AI 體系來了?

這幾天,不論國內國外,人們都在關注DeepSeek發佈的V3.1新模型。

它採用了全新的混合推理架構,讓模型能在一個統一框架內支援「思考」與「非思考」兩種模式。V3.1 通過訓練後優化,在工具使用與編程、搜索等智能體任務上表現均獲得了較大提升。

Deepseek V3.1的很多基準測試結果已經陸續在SWE-bench等榜單上出現。此外,新模型在Aider多語言編程基準測試中得分超越了Anthropic的Claude 4 Opus,同時還有顯著的成本優勢。

與DeepSeek自己此前的模型相比,V3.1的性能提升顯著,它解決問題需要更多步驟,但經過了思維鏈壓縮訓練,在任務表現持平的情況下,token消耗量可以減少20-50%,因此有效成本與GPT-5 mini相當。

除了模型性能的提升之外,值得關注的是,DeepSeek在其微信公眾號文章介紹 DeepSeek V3.1的時候,特意回覆指出,UE8M0 FP8是針對即將發佈的下一代國產晶片設計的機制。

DeepSeek 在其微信公眾號文章介紹 DeepSeek V3.1 的時候,特意回覆指出,UE8M0 FP8 是針對即將發佈的下一代國產晶片設計的機制(DeepSeek)

這就引發了人們的很多猜想。

根據Hugging Face的介紹文檔,DeepSeek V3.1的模型參數量為685B,其在訓練過程中採用了UE8M0 FP8縮放浮點格式,以確保與微縮放浮點格式的兼容性。

DeepSeek V3.1 的模型參數量為 685B,其在訓練過程中採用了 UE8M0 FP8 縮放浮點格式,以確保與微縮放浮點格式的兼容性(huggingface)

其中,E和M分別代表指數(Exponent)和尾數(Mantissa)的位數,U表示無符號(Unsigned),可能針對激活值的非負特性優化。因此,UE8M0可能是指新模型應用的特殊量化策略。

所謂FP8,其全稱為8-bit floating point(8 位浮點數),是一種超低精度的數據表示格式,用於深度學習中的訓練與推理。相較於FP32(單精度)或FP16(半精度)等傳統浮點格式,FP8的主要優勢包括如下,因此可以在儘量保持數值穩定性和模型精度的前提下,進一步降低存儲和計算開銷:

1. 顯著節省顯存,比如FP32佔4字節,FP16佔2字節,而FP8僅佔1字節。當推理規模達到百億甚至千億參數時,節省極為可觀;

2. 提升計算效率,FP8 可以在硬件上實現更高的並行度,比如 NVIDIA Hopper GPU 的 FP8 Tensor Core 吞吐量是 FP16 的兩倍;

3. 保持模型精度,FP8 通過縮放因子以及混合精度訓練,在多數場景下能接近 FP16/FP32 的精度。

近年來,除了NVIDIA之外,Meta、Intel、AMD等也都開始研究FP8訓練與推理,有成為業界「新黃金標準」的趨勢,核心思路在於「兩個格式配合使用」。此次,DeepSeek V3.1此次採用UE8M0 FP8,意味着其開始在 FP8 技術棧上做自主創新。

從傳統浮點數的表示來看,UE8M0沒有符號位和尾數位,8bit全部用在了指數位。

根據很多人的猜測,UE8M0只能表示非負數,將覆蓋非常大的正數範圍或者零;8bit 全部用於指數,代表了極寬的範圍,尤其適合處理梯度、激活值等跨數量級變化極大的數據;沒有尾數,代表了數值精度極低(在某個指數範圍內無法表達中間值),誤差也可能非常大。

此外,根據前文提到的要兼容微縮放浮點格式,這種格式的思路是在小塊數據中引入外部縮放因子來補償精度。因此UE8M0也可能採用這種思路,從而在國產晶片中實現低比特寬度存儲和快速計算。

而在國內,包括華為、寒武紀在內多家廠商的新一代AI晶片都可以支援FP8格式,這也讓它們再次成為業界和資本圈關注的焦點。其中華為提出的HiFloat8(HiF8)方案通過「單一格式 + 錐形精度(tapered precision)」的思路,能夠兼顧精度和範圍,覆蓋正向和反向傳播。

最後,很多人可能依然好奇,DeepSeek V3.1是使用國產晶片訓練的嗎?

畢竟DeepSeek R2越來越近了,前幾天英國《金融時報》的報道剛剛「預熱」過一波:

上周四,《金融時報》說 DeepSeek R2 延遲是因為其使用了國產晶片進行訓練,DeepSeek 隨即否認(Financial Times)

目前看來,在DeepSeek V3.1上使用國產晶片訓練的概率還比較小,UME8 M0應該是為國產推理晶片優化所使用的機制。

不過既然DeepSeek這回已經明確指出了,我們可以期待未來國產開源大模型,針對華為升騰、寒武紀等AI晶片實現專門優化,並大規模應用。

延伸閲讀:微信AI助手元寶登場混元與DeepSeek雙引擎智能互動提升生活效率(點擊連結看全文)

+16

【本文轉自「機器之心」,微信公眾號:almosthuman2014】

Comments

I want to comment

◎Welcome to participate in the discussion, please express your views and exchange your opinions here.