Aegaeon方案的核心在于解決AI模型服務(wù)中普遍存在的GPU資源浪費(fèi)問題,尤其針對那些需求突發(fā)或不可預(yù)測的大型語言模型。
它打破了傳統(tǒng)的“一個(gè)模型綁定一個(gè)GPU”的低效模式,而是在Token級(jí)別虛擬化GPU訪問,這意味著單個(gè)GPU可以被多個(gè)不同模型共享服務(wù),實(shí)現(xiàn)精細(xì)化的資源調(diào)度。
阿里云Aegaeon系統(tǒng)作為一種推理時(shí)間調(diào)度器,它能在每次生成下一個(gè)token后,動(dòng)態(tài)決定是否切換模型,從而將微小的工作片段安排到共享池中。
通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換開銷降低了97%,確保了token級(jí)調(diào)度的實(shí)時(shí)性,可支持亞秒級(jí)的模型切換響應(yīng)。
在阿里云模型市場為期超三個(gè)月的Beta測試中,Aegaeon系統(tǒng)在服務(wù)數(shù)十個(gè)參數(shù)量高達(dá)720億的大模型時(shí),所需的NVIDIA H20 GPU數(shù)量從1192個(gè)銳減至213個(gè),削減比例高達(dá)82%。
GPU用量的大幅削減,對于硬件采購成本高昂的大型模型服務(wù)商而言,意味著成本將顯著降低。
目前,這項(xiàng)核心技術(shù)已成功應(yīng)用在阿里云百煉平臺(tái)。



今日焦點(diǎn)
往期回顧




所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。