Гуманоидный робот научился синхронизировать движения губ с речью в реальном времени
1- 16.01.2026, 11:34
- 1,134
Почти как человек.
Исследователи из Колумбийского университета разработали новую систему, которая позволяет гуманоидному роботу синхронизировать движения губ со звуком речи так, что это выглядит максимально приближенно к человеческой мимике. Робот может воспроизводить движения губ во время разговора или пения и делает это в реальном времени.
Результаты исследования опубликовали в научном журнале Science Robotics.
Система способна работать с разными языками. Она корректно воспроизводит движения губ не только на английском, но и на французском, китайском, арабском и еще ряде языков, даже если часть из них не использовалась при обучении модели.
По словам исследователей, во время тестирования новый подход превзошел пять существующих методов и показал наилучшее соответствие между движениями рта робота и эталонными видео с человеческой мимикой. Команда отмечает, что система смогла создавать реалистичные движения губ для 11 языков, которые имеют разное звуковое строение.

Разработку планируют применять, в частности, в образовании и уходе за пожилыми людьми. В то же время исследователи отмечают необходимость осторожного использования технологии, чтобы избежать злоупотреблений.
В большинстве случаев современные роботы реагируют на мимику человека с опозданием — они копируют выражение лица уже после того, как человек его показал. Это выглядит неестественно. Новая система поступает иначе: она пытается предсказать выражение лица человека еще до того, как оно полностью сформируется.
Для этого команда создала антропоморфного робота по имени Emo. Это обновленная версия предыдущей платформы Eva. Emo имеет 26 приводов для движений лица, что позволяет создавать асимметричные мимические выражения. У Eva таких приводов было всего 10.
Лицо робота покрыто сменной «кожей», которая деформируется с помощью магнитов. Такая конструкция обеспечивает более точный контроль движений, чем предыдущая система с тросами. В «глаза» робота встроены камеры высокого разрешения, которые позволяют в реальном времени наблюдать за собеседником и прогнозировать его мимику.
Система состоит из двух нейросетей. Первая отвечает за прогноз собственных выражений лица робота, вторая — за предсказание мимики человека. Всего у Emo 23 мотора управляют движениями лица, еще три — движениями шеи. Это позволяет роботу синхронизировать свою мимику с человеком во время общения.
Чтобы научить модель предсказывать мимику, исследователи использовали почти тысячу видео с 45 участниками. Система анализировала едва заметные начальные изменения на лице и на их основе прогнозировала будущее выражение.
Модель работает очень быстро: прогнозирование происходит со скоростью 650 кадров в секунду, а передача команд на моторы — до 8 тысяч раз в секунду. В результате робот формирует выражение лица за примерно 0,002 секунды. Для сравнения, у людей формирование мимики обычно занимает около 0,8 секунды.
Во время проверок система показала лучшие результаты, чем простое копирование или случайные реакции. Анализ более двух тысяч команд показал, что робот правильно предсказывает нужную мимику в более чем 72% случаев.
В то же время исследователи отмечают, что существуют культурные ограничения: выражения лица и зрительный контакт могут существенно отличаться в разных культурах. Несмотря на это, способность предвидеть человеческую мимику считают важным шагом в развитии социального поведения роботов.