Aegaeon方案的核心在于解決AI模型服務中普遍存在的GPU資源浪費問題,尤其針對那些需求突發(fā)或不可預測的大型語言模型。
它打破了傳統(tǒng)的“一個模型綁定一個GPU”的低效模式,而是在Token級別虛擬化GPU訪問,這意味著單個GPU可以被多個不同模型共享服務,實現(xiàn)精細化的資源調(diào)度。
阿里云Aegaeon系統(tǒng)作為一種推理時間調(diào)度器,它能在每次生成下一個token后,動態(tài)決定是否切換模型,從而將微小的工作片段安排到共享池中。
通過組件復用、顯存精細化管理和KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換開銷降低了97%,確保了token級調(diào)度的實時性,可支持亞秒級的模型切換響應。
在阿里云模型市場為期超三個月的Beta測試中,Aegaeon系統(tǒng)在服務數(shù)十個參數(shù)量高達720億的大模型時,所需的NVIDIA H20 GPU數(shù)量從1192個銳減至213個,削減比例高達82%。
GPU用量的大幅削減,對于硬件采購成本高昂的大型模型服務商而言,意味著成本將顯著降低。
目前,這項核心技術(shù)已成功應用在阿里云百煉平臺。



今日焦點
往期回顧




所有評論僅代表網(wǎng)友意見,與本站立場無關。