在多模態(tài)大模型視覺生成方面,研究團(tuán)隊(duì)提出了一種專家表征對(duì)齊的多模態(tài)大模型訓(xùn)練框架ARRA,可有效促進(jìn)大模型學(xué)習(xí)跨模態(tài)表征,實(shí)現(xiàn)多任務(wù)通用多模態(tài)生成。相關(guān)研究成果Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment被大會(huì)選為口頭匯報(bào)(Oral)論文,論文第一作者為博士生謝興,通訊作者為范慧杰研究員與屈靚瓊助理教授。
在多模態(tài)大模型方面,研究團(tuán)隊(duì)提出了創(chuàng)新的物體分詞框架ObjecTok,顯著提升了模型以物體為中心的感知與推理能力。相關(guān)成果論文為ObjecTok: Learning Holistic and Robust Object Tokens for MLLMs,第一作者為博士生王思翰,通訊作者為劉西瑤副研究員。
在具身智能操作方面,研究團(tuán)隊(duì)提出了一種仿人知識(shí)總結(jié)與繼承的終身學(xué)習(xí)框架,賦予智能操作機(jī)器人持續(xù)演進(jìn)、不斷適應(yīng)新技能的終身學(xué)習(xí)能力。相關(guān)研究成果論文為Lifelong Language-Conditioned Robotic Manipulation Learning,第一作者為博士生王旭東與沈陽自動(dòng)化所實(shí)習(xí)生韓澤斌,通訊作者為韓志研究員。
在具身智能導(dǎo)航方面,研究團(tuán)隊(duì)提出了一種基于分層規(guī)劃策略的導(dǎo)航智能體,可提升智能機(jī)器人在復(fù)雜大場(chǎng)景中具身導(dǎo)航的魯棒性。相關(guān)研究成果論文為SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning,第一作者為沈陽自動(dòng)化所實(shí)習(xí)生、中北大學(xué)本科生韓澤斌,通訊作者為博士生王旭東。
在視頻定制化生成方面,研究團(tuán)隊(duì)提出了一種連續(xù)定制化視頻擴(kuò)散模型,可在連續(xù)動(dòng)態(tài)空間中實(shí)現(xiàn)任意概念的個(gè)性化視頻生成。相關(guān)研究成果論文為Bring Your Dreams to Life: Continual Text-to-Video Customization,第一作者為沈陽自動(dòng)化所博士畢業(yè)生、穆罕默德·本·扎耶德人工智能大學(xué)博士后董家華和沈陽自動(dòng)化所博士生王旭東,通訊作者為韓志研究員。
在生成式世界模型方面,研究團(tuán)隊(duì)提出了首個(gè)可用自然語言控制的 4D LiDAR 生成模型,實(shí)現(xiàn)了高逼真、可編輯的動(dòng)態(tài)點(diǎn)云場(chǎng)景生成,可用于多種下游感知模型的安全驗(yàn)證和閉環(huán)仿真。該研究成果LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences被大會(huì)選為口頭匯報(bào)(Oral)論文,第一作者為博士生梁奧,通訊作者為趙懷慈研究員。
上述研究成果得到了國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計(jì)劃、機(jī)器人與智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室自主項(xiàng)目、沈陽自動(dòng)化所基礎(chǔ)研究項(xiàng)目等支持。(機(jī)器人學(xué)研究室 光電信息技術(shù)研究室)



今日焦點(diǎn)
往期回顧




所有評(píng)論僅代表網(wǎng)友意見,與本站立場(chǎng)無關(guān)。