Гуманоідны робат навучыўся сінхранізаваць рухі вуснаў з маўленнем у рэальным часе
1- 16.01.2026, 11:34
- 1,118
Амаль як чалавек.
Даследнікі з Калумбійскага ўніверсітэта распрацавалі новую сістэму, якая дазваляе гуманоіднаму робату сінхранізаваць рухі вуснаў з гукам маўлення так, што гэта выглядае максімальна набліжана да чалавечай мімікі. Робат можа ўзнаўляць рухі вуснаў падчас размовы або спявання і робіць гэта ў рэальным часе.
Вынікі даследавання апублікавалі ў навуковым часопісе Science Robotics.
Сістэма здольная працаваць з рознымі мовамі. Яна карэктна ўзнаўляе рухі вуснаў не толькі па-англійску, але і па-французску, па-кітайску, па-арабску і яшчэ шэрагу моў, нават калі частка з іх не выкарыстоўвалася пры навучанні мадэлі.
Паводле слоў даследчыкаў, падчас тэставання новы падыход пераўзышоў пяць існуючых метадаў і паказаў найлепшую адпаведнасць паміж рухамі рота робата і эталоннымі відэа з чалавечай мімікай. Каманда адзначае, што сістэма змагла ствараць рэалістычныя рухі вуснаў для 11 моў, якія маюць розную гукавую будову.

Распрацоўку плануюць ужываць, у прыватнасці, у адукацыі і доглядзе за пажылымі людзьмі. Адначасова даследчыкі адзначаюць неабходнасць асцярожнага выкарыстання тэхналогіі, каб пазбегнуць злоўжыванняў.
У большасці выпадкаў сучасныя робаты рэагуюць на міміку чалавека з запазненнем — яны капіруюць выраз твару ўжо пасля таго, як чалавек яго паказаў. Гэта выглядае ненатуральна. Новая сістэма дзейнічае інакш: яна спрабуе прадказаць выраз твару чалавека яшчэ да таго, як ён поўнасцю сфармуецца.
Для гэтага каманда стварыла антрапаморфнага робата па імені Emo. Гэта абноўленая версія папярэдняй платформы Eva. Emo мае 26 прывадаў для рухаў твару, што дазваляе ствараць асіметрычныя мімічныя выразы. У Eva такіх прывадаў было ўсяго 10.
Твар робата пакрыты зменнай «скурай», якая дэфармуецца з дапамогай магнітаў. Такая канструкцыя забяспечвае больш дакладны кантроль рухаў, чым папярэдняя сістэма з тросамі. У «вочы» робата ўбудаваныя камеры высокага дазволу, якія дазваляюць у рэальным часе назіраць за суразмоўцам і прагназаваць яго міміку.
Сістэма складаецца з дзвюх нейрасетак. Першая адказвае за прагноз уласных выразаў твару робата, другая — за прадказанне мімікі чалавека. Усяго ў Emo 23 рухавікі кіруюць рухамі твару, яшчэ тры — рухамі шыі. Гэта дазваляе робату сінхранізаваць сваю міміку з чалавекам падчас зносін.
Каб навучыць мадэль прадказваць міміку, даследчыкі выкарысталі амаль тысячу відэа з 45 удзельнікамі. Сістэма аналізавала ледзь прыкметныя пачатковыя змены на твары і на іх аснове прагназавала будучы выраз.
Мадэль працуе вельмі хутка: прагназаванне адбываецца з хуткасцю 650 кадраў у секунду, а перадача каманд на рухавікі — да 8 тысяч разоў у секунду. У выніку робат фарміруе выраз твару прыкладна за 0,002 секунды. Для параўнання, у людзей фарміраванне мімікі звычайна займае каля 0,8 секунды.
Падчас праверак сістэма паказала лепшыя вынікі, чым простае капіраванне або выпадковыя рэакцыі. Аналіз больш як двух тысяч каманд паказаў, што робат правільна прадказвае патрэбную міміку больш чым у 72% выпадкаў.
У той жа час даследчыкі адзначаюць, што існуюць культурныя абмежаванні: выразы твару і зрокавы кантакт могуць істотна адрознівацца ў розных культурах. Нягледзячы на гэта, здольнасць прадбачыць чалавечую міміку лічаць важным крокам у развіцці сацыяльных паводзінаў робатаў.