讓虛擬角色更自然地穿衣服,研究員用AI解決角色和服裝之間復(fù)雜交互
由于角色和服裝之間的復(fù)雜交互,制作角色穿衣動(dòng)畫(huà)十分具有挑戰(zhàn)性。由喬治亞理工學(xué)院博士生與教授,以及Google Brain研究人員組成的團(tuán)隊(duì)采用了深度強(qiáng)化學(xué)習(xí)(deepRL)來(lái)自動(dòng)發(fā)現(xiàn)由神經(jīng)網(wǎng)絡(luò)表示的穩(wěn)定穿衣控制策略。盡管deepRL在學(xué)習(xí)復(fù)雜運(yùn)動(dòng)技能方面已經(jīng)取得了一些成功,但學(xué)習(xí)算法的數(shù)據(jù)要求性質(zhì)與穿衣任務(wù)所需的高昂布料模擬計(jì)算成本不一致。
名為《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning(學(xué)習(xí)穿衣:通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)合成人類穿衣運(yùn)動(dòng)》的論文于日前正式發(fā)布,并首次證明通過(guò)適當(dāng)設(shè)計(jì)的輸入狀態(tài)空間和回報(bào)函數(shù),研究人員可以將布料模擬整合至deepRL框架并學(xué)習(xí)穩(wěn)定的穿衣控制策略。研究人員引入了觸覺(jué)信息的顯著呈現(xiàn)來(lái)引導(dǎo)穿衣過(guò)程,并在訓(xùn)練期間將其用于回報(bào)函數(shù)以提供學(xué)習(xí)信號(hào)。
1. 理解穿衣問(wèn)題
我們每天都會(huì)穿衣搭配,比如說(shuō)穿上T恤或夾克。但對(duì)于機(jī)器執(zhí)行或計(jì)算機(jī)模擬而言,這是計(jì)算成本高昂且復(fù)雜的任務(wù)。論文描述的解決方案通過(guò)物理模擬和機(jī)器學(xué)習(xí)技術(shù)來(lái)合成動(dòng)畫(huà)。物理引擎用于模擬角色運(yùn)動(dòng)和布料運(yùn)動(dòng)。另一方面,神經(jīng)網(wǎng)絡(luò)上的深度強(qiáng)化學(xué)習(xí)則用來(lái)產(chǎn)生角色運(yùn)動(dòng)。
2. 物理引擎和神經(jīng)網(wǎng)絡(luò)上的強(qiáng)化學(xué)習(xí)
論文作者提出了一種觸覺(jué)信息的突出呈現(xiàn)以引導(dǎo)穿衣過(guò)程。然后當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),在回報(bào)函數(shù)中使用這種觸覺(jué)信息來(lái)提供學(xué)習(xí)信號(hào)。由于任務(wù)過(guò)于復(fù)雜無(wú)法一次執(zhí)行,因此穿衣任務(wù)將分成若干子任務(wù),從而實(shí)現(xiàn)更好的控制。
為了匹配從一個(gè)任務(wù)的輸出狀態(tài)分布到下一個(gè)任務(wù)的輸入分布,研究人員提出了一種policy sequencing algorithm(策略排序算法)。相同的方法用于生成用于各種穿著任務(wù)的角色控制器,例如穿著T恤和穿著夾克。
3. 穿衣是一項(xiàng)復(fù)雜的任務(wù),所以將其分成多個(gè)子任務(wù)
研究人員的方法將穿衣任務(wù)分成了一系列的子任務(wù)。接下來(lái),狀態(tài)機(jī)將引導(dǎo)任何的進(jìn)行。例如,穿著夾克由四個(gè)子任務(wù)組成:
第一個(gè)手臂穿過(guò)袖筒。
將第二個(gè)手臂移到后面,為第二個(gè)袖筒定位。
第二個(gè)手臂穿過(guò)第二個(gè)袖筒。
最后,身體恢復(fù)至正常狀態(tài)。
為了學(xué)習(xí)控制策略,研究人員為每個(gè)子任務(wù)制定了單獨(dú)的強(qiáng)化學(xué)習(xí)問(wèn)題。
Policy Sequencing Algorithm可以確保單獨(dú)的控制策略可以引導(dǎo)系統(tǒng)按順序執(zhí)行穿衣序列。算法將一個(gè)子任務(wù)的初始狀態(tài)與序列中前一個(gè)子任務(wù)的最終狀態(tài)進(jìn)行匹配。通過(guò)應(yīng)用所得到的控制策略,系統(tǒng)可以生成各種成功的穿衣動(dòng)作。
穿衣任務(wù)中的每個(gè)子任務(wù)都進(jìn)行了公式化,編程為部分可觀察的馬爾可夫決策過(guò)程(Markov Decision Process;POMDP)。借助動(dòng)態(tài)動(dòng)畫(huà)和機(jī)器人工具包(Dynamic Animation and Robotics Toolkit;DART),以及基于NVIDIA PhysX的布料動(dòng)力學(xué),系統(tǒng)可以模擬角色動(dòng)力學(xué)。
4. 總結(jié)和提升空間
通過(guò)深度強(qiáng)化學(xué)習(xí)和物理模擬,研究人員成功創(chuàng)建了一個(gè)學(xué)習(xí)如何制作角色穿衣動(dòng)畫(huà)的系統(tǒng)。從子任務(wù)中,系統(tǒng)單獨(dú)學(xué)習(xí)每個(gè)子任務(wù),然后將它們與狀態(tài)機(jī)連接。結(jié)果發(fā)現(xiàn),優(yōu)選布料觀察和回報(bào)函數(shù)是方法成功的重要因素。
系統(tǒng)目前僅適用于上半身穿衣。對(duì)于下半身,系統(tǒng)需要在控制器中保持平衡。當(dāng)使用包含記憶的控制策略架構(gòu)時(shí),子任務(wù)的數(shù)量可能會(huì)減少。這將有助于生成所學(xué)的技能。
文章來(lái)源:映維網(wǎng) 如轉(zhuǎn)載請(qǐng)標(biāo)明出處
原文鏈接 : https://yivian.com/news/53033.html
未經(jīng)授權(quán),禁止轉(zhuǎn)載,違者必將追究法律責(zé)任。