0已點(diǎn)贊

今日焦點(diǎn)更多+

快訊 | 馬扎克遼寧工廠第20000臺(tái)機(jī)床交付

往期回顧

推薦展會(huì)更多+

2026第四屆中國智電汽車科技與供應(yīng)鏈展覽會(huì)

MTM2026金屬世界博覽會(huì)?上海
2026-01-05
2026第二十二屆上海國際鑄造展覽會(huì)
2025-12-22
2026中國(寧波)五金機(jī)電進(jìn)出口博覽會(huì)
2026-01-15
CMES華機(jī)展|2026東莞國際機(jī)床展
2025-12-12

阿里云推出全新AI計(jì)算解決方案：大模型所需GPU狂降82%！

科技動(dòng)態(tài) 2025年10月23日 08:37:46來源：快科技 1941

摘要通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù)，Aegaeon將模型切換開銷降低了97%，確保了token級(jí)調(diào)度的實(shí)時(shí)性，可支持亞秒級(jí)的模型切換響應(yīng)。

　　【機(jī)床商務(wù)網(wǎng)欄目科技動(dòng)態(tài)】10月21日消息，在近日于韓國首爾舉辦的頂級(jí)學(xué)術(shù)會(huì)議SOSP 2025（操作系統(tǒng)原理研討會(huì)）上，阿里云發(fā)布了其“Aegaeon”計(jì)算池化解決方案。

　　Aegaeon方案的核心在于解決AI模型服務(wù)中普遍存在的GPU資源浪費(fèi)問題，尤其針對那些需求突發(fā)或不可預(yù)測的大型語言模型。

　　它打破了傳統(tǒng)的“一個(gè)模型綁定一個(gè)GPU”的低效模式，而是在Token級(jí)別虛擬化GPU訪問，這意味著單個(gè)GPU可以被多個(gè)不同模型共享服務(wù)，實(shí)現(xiàn)精細(xì)化的資源調(diào)度。

　　阿里云Aegaeon系統(tǒng)作為一種推理時(shí)間調(diào)度器，它能在每次生成下一個(gè)token后，動(dòng)態(tài)決定是否切換模型，從而將微小的工作片段安排到共享池中。

　　通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù)，Aegaeon將模型切換開銷降低了97%，確保了token級(jí)調(diào)度的實(shí)時(shí)性，可支持亞秒級(jí)的模型切換響應(yīng)。

　　在阿里云模型市場為期超三個(gè)月的Beta測試中，Aegaeon系統(tǒng)在服務(wù)數(shù)十個(gè)參數(shù)量高達(dá)720億的大模型時(shí)，所需的NVIDIA H20 GPU數(shù)量從1192個(gè)銳減至213個(gè)，削減比例高達(dá)82%。

　　GPU用量的大幅削減，對于硬件采購成本高昂的大型模型服務(wù)商而言，意味著成本將顯著降低。

　　目前，這項(xiàng)核心技術(shù)已成功應(yīng)用在阿里云百煉平臺(tái)。

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個(gè)字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關(guān)。

機(jī)床商務(wù)網(wǎng)首頁資訊首頁

延伸閱讀

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“來源：機(jī)床商務(wù)網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-機(jī)床商務(wù)網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品。刊用本網(wǎng)站稿件，需經(jīng)書面授權(quán)。未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：機(jī)床商務(wù)網(wǎng)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源（非機(jī)床商務(wù)網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)或?qū)ζ湔鎸?shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí)，必須保留本網(wǎng)注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題，請?jiān)谧髌钒l(fā)表之日起30日內(nèi)與本網(wǎng)聯(lián)系，并提供真實(shí)、有效的書面證明。我們將在核實(shí)后做出妥善處理。

阿里云推出全新AI計(jì)算解決方案：大模型所需GPU狂降82%！

熱門評論

全部評論