首頁
LBank 新聞中心
谷歌縮減AI記憶體卻無準確度損失——但有隱憂
google-shrinks-ai-memory-no-accuracy-loss
谷歌縮減AI記憶體卻無準確度損失——但有隱憂
該技術減少了運行大型語言模型所需的記憶體,隨著上下文視窗擴大,這是人工智慧部署的一個關鍵限制。
2026-03-25 來源:decrypt.co

簡報

  • Google表示,其TurboQuant演算法可以在推論過程中,將AI記憶體的主要瓶頸至少降低六倍,且不損失準確度。
  • 包括美光、西部數據和希捷在內的記憶體類股,在該論文發布後下跌。
  • 此方法壓縮的是推論記憶體,而非模型權重,且僅在研究基準測試中進行過驗證。

Google Research於週三發布了TurboQuant,這是一種壓縮演算法,可將主要的推論記憶體瓶頸縮小至少6倍,同時保持零準確度損失。

該論文預計將在ICLR 2026上發表,而網路上的反應是即時的。

Cloudflare執行長Matthew Prince稱其為Google的DeepSeek時刻。包括美光、西部數據和希捷在內的記憶體類股,在同一天股價下跌。

所以這是真的嗎?

量化效率本身就是一項重大成就。但「零準確度損失」需要上下文。

TurboQuant的目標是KV快取——這是GPU記憶體中,語言模型在對話期間需要記住的所有內容所儲存的區塊。

隨著上下文視窗擴展到數百萬個詞元,這些快取會膨脹到每個會話數百GB。這才是真正的瓶頸,不是運算能力,而是原始記憶體。

傳統的壓縮方法試圖透過捨去數字來縮小這些快取——例如,從32位元浮點數到16、8、4位元整數。為了更好地理解它,想像一下將一張圖片從4K縮小到全高清,再到720p等等。很容易看出它仍然是同一張圖片,但4K解析度有更多細節。

問題在於:它們必須在壓縮數據旁儲存額外的「量化常數」,以防止模型變得遲鈍。這些常數為每個數值增加1到2位元,部分抵消了增益。

TurboQuant聲稱它完全消除了這種開銷。

它透過兩個子演算法來實現這一點。PolarQuant將向量中的大小與方向分開,而QJL(量化Johnson-Lindenstrauss)則將剩餘的微小殘餘誤差,減少為單一的正負號位元,且不儲存任何常數。

Google表示,其結果是一個用於驅動轉換器模型注意力計算的數學無偏估計器。

在使用Gemma和Mistral進行的基準測試中,TurboQuant在4倍壓縮下,匹配了全精度效能,包括在長達104,000個詞元的「大海撈針」任務中,實現了完美的檢索準確度。

關於這些基準測試為何重要,可以理解為:在不損失品質的情況下擴展模型可用上下文,一直是大型語言模型部署中最困難的問題之一。

現在,重點來了。

「零準確度損失」適用於推論過程中的KV快取壓縮——而非模型的權重。壓縮權重是一個完全不同且更困難的問題。TurboQuant並未涉及這些。

它所壓縮的是儲存會話中注意力計算的暫存記憶體,這更具彈性,因為這些數據理論上可以被重建。

此外,乾淨的基準測試與處理數十億請求的生產系統之間存在差距。TurboQuant是在開源模型(Gemma、Mistral、Llama)上進行測試的,而不是在Google自己的大規模Gemini技術堆疊上。

與DeepSeek的效率提升需要從一開始就深入的架構決策不同,TurboQuant無需重新訓練或微調,並且聲稱執行時間開銷可忽略不計。理論上,它可以直接應用於現有的推論管線。

這正是讓記憶體硬體產業感到不安的部分——因為如果它在實際生產中運作,每個主要的AI實驗室將在他們已經擁有的相同GPU上,以更精簡的方式運行。

該論文將提交ICLR 2026。在它投入實際生產之前,「零損失」的標題仍將停留在實驗室中。