Robot YouTube-a baxaraq dodaq sinxronizasiyasını öyrənir
Kolumbiya Universiteti Mühəndislik və Tətbiqi Elmlər Məktəbi tərəfindən
Robert Egan tərəfindən redaktə edilib
Tercih edilən mənbə kimi əlavə edin
Hod Lipson və komandası ilk dəfə olaraq danışma və mahnı oxuma kimi tapşırıqlar üçün üz dodaq hərəkətlərini öyrənə bilən bir robot yaratdılar. Mənbə: Jane Nisselson/ Columbia Engineering
Üzbəüz söhbət zamanı diqqətimizin demək olar ki, yarısı dodaq hərəkətlərinə yönəlir. Buna baxmayaraq, robotlar hələ də dodaqlarını düzgün hərəkət etdirməkdə çətinlik çəkirlər. Hətta ən inkişaf etmiş humanoidlər belə – əgər onların üzü varsa – sadəcə ağız hərəkətlərindən başqa bir şey etmirlər.
Biz insanlar ümumiyyətlə üz jestlərinə, xüsusən də dodaq hərəkətlərinə həddindən artıq əhəmiyyət veririk. Gülməli yeriş yerişini və ya yöndəmsiz əl hərəkətini bağışlaya bilsək də, ən kiçik bir üz qüsurunu belə bağışlamırıq. Bu yüksək bar “Qeyri-adi Vadi” kimi tanınır. Robotlar çox vaxt dodaqları tərpənmədiyi üçün cansız, hətta qorxunc görünürlər. Amma bu, dəyişmək üzrədir.
Öz-özünə konfiqurasiya edən optik cihazlar işığı necə ayırmağı avtomatik olaraq öyrənirPlay Video
Columbia Engineering komandası bu gün ilk dəfə olaraq danışma və mahnı oxuma kimi tapşırıqlar üçün üz dodaq hərəkətlərini öyrənə bilən bir robot yaratdıqlarını açıqladı. Science Robotics jurnalında dərc olunan yeni bir araşdırmada tədqiqatçılar robotlarının müxtəlif dillərdə sözləri ifadə etmək və hətta süni intellekt tərəfindən yaradılan debüt albomu ” hello world “dan bir mahnı oxumaq üçün öz qabiliyyətlərindən necə istifadə etdiyini nümayiş etdirirlər.Oyna
01:08
01:16SəssizParametrlərPIPTam ekrana daxil olun
Robot bu qabiliyyəti qaydalar vasitəsilə deyil, müşahidə yolu ilə əldə edib. Əvvəlcə güzgüdə öz əksini izləyərək 26 üz motorundan necə istifadə edəcəyini öyrənib, sonra isə saatlarla YouTube videolarına baxaraq insan dodaq hərəkətlərini təqlid etməyi öyrənib.
“İnsanlarla nə qədər çox qarşılıqlı əlaqədə olarsa, bir o qədər yaxşı olacaq”, – deyə Mexanika Mühəndisliyi Departamentinin İnnovasiya üzrə professoru və işin aparıldığı Kolumbiyanın Yaradıcı Maşınlar Laboratoriyasının direktoru Hod Lipson, Ceyms və Salli Skapa vəd etdilər.
Robot özünün danışdığını izləyir
Realist robot dodaq hərəkətinə nail olmaq iki səbəbdən çətindir: Birincisi, bu, tez və səssiz şəkildə işləyə bilən çoxsaylı kiçik mühərriklər tərəfindən hərəkətə gətirilən elastik üz dərisinə malik ixtisaslaşdırılmış avadanlıq tələb edir. İkincisi, dodaq dinamikasının spesifik modeli səs səsləri və fonem ardıcıllığı ilə diktə edilən mürəkkəb bir funksiyadır.
İnsan üzləri yumşaq dərinin altında yerləşən və səs telləri və dodaq hərəkətləri ilə təbii olaraq sinxronlaşan onlarla əzələ tərəfindən canlandırılır. Bunun əksinə olaraq, humanoid üzlər əsasən sərtdir, nisbətən az hərəkət dərəcəsi ilə işləyir və dodaq hərəkətləri sərt, əvvəlcədən müəyyən edilmiş qaydalara uyğun olaraq xoreoqrafiya olunur. Nəticədə yaranan hərəkət dik, qeyri-təbii və qəribədir.
Bu tədqiqatda tədqiqatçılar zəngin hərəkətli, çevik bir üz yaratmaqla və sonra robotun insanları müşahidə etməklə üzünü birbaşa necə istifadə edəcəyini öyrənməsinə imkan verməklə bu maneələri dəf etdilər. Əvvəlcə, robotun əzələ fəaliyyətinə cavab olaraq öz üzünün necə hərəkət etdiyini öyrənə bilməsi üçün güzgünün qarşısına 26 mühərriklə təchiz olunmuş robot üz qoydular. Güzgüdə ilk dəfə üz düzəldən uşaq kimi, robot minlərlə təsadüfi üz ifadəsi və dodaq jestləri etdi. Zamanla, o, müəyyən üz görünüşlərinə nail olmaq üçün motorlarını necə hərəkət etdirməyi öyrəndi ki, bu da ” görmə-hərəkət ” dil modeli (VLA) adlanan yanaşmadır.
Daha sonra tədqiqatçılar robotu insanların danışıb mahnı oxuduqlarını əks etdirən videoların qarşısına yerləşdirdilər və bu da robotu idarə edən süni intellektə insanların ağızlarının yaydıqları müxtəlif səslər kontekstində necə hərəkət etdiyini öyrənmək imkanı verdi. Bu iki model əlində olduqda, robotun süni intellekt sistemi artıq səsi birbaşa dodaq motor hərəkətinə çevirə bilirdi.
Tədqiqatçılar bu qabiliyyəti müxtəlif səslər, dillər və kontekstlər, eləcə də bəzi mahnılar vasitəsilə sınaqdan keçirdilər. Audio kliplərin mənası barədə heç bir xüsusi məlumat olmadan robot dodaqlarını sinxron şəkildə hərəkət etdirə bildi.
Tədqiqatçılar dodaq hərəkətinin mükəmməl olmadığını etiraf edirlər. “Biz xüsusilə “B” kimi sərt səslərlə və “W” kimi dodaq büzüşməsi ilə əlaqəli səslərlə çətinlik çəkirdik. Lakin bu qabiliyyətlər zamanla və təcrübə ilə inkişaf edəcək”, – Lipson bildirib.
Lakin daha əhəmiyyətlisi, dodaq sinxronizasiyasını daha vahid robot ünsiyyət qabiliyyətinin bir hissəsi kimi görməkdir.
Doktorluq dərəcəsi almaq üçün tədqiqata rəhbərlik edən Yuhang Hu izah edir ki, ” Dodaq sinxronizasiyası qabiliyyəti ChatGPT və ya Gemini kimi danışıq süni intellektlə birləşdirildikdə, bu effekt robotun insanla yaratdığı əlaqəyə tamamilə yeni bir dərinlik qatır. Robot insanların söhbətini nə qədər çox izləsə, emosional olaraq əlaqə qura biləcəyimiz incə üz jestlərini bir o qədər yaxşı təqlid edəcək.”
“Söhbətin kontekst pəncərəsi nə qədər uzun olarsa, bu jestlər bir o qədər kontekstə həssas olacaq”, – deyə o əlavə edib.
Robot qabiliyyətinin itkin halqası
Tədqiqatçılar hesab edirlər ki, üz effekti robot texnikasının “itkin halqası”dır.
Lipson bildirib ki, “Bu gün humanoid robototexnikasının böyük bir hissəsi gəzinti və tutma kimi fəaliyyətlər üçün ayaq və əl hərəkətlərinə yönəlib. Lakin üzün incəliyi insan qarşılıqlı təsirini əhatə edən istənilən robot tətbiqi üçün eyni dərəcədə vacibdir.”
Lipson və Hu, humanoid robotların əyləncə, təhsil, tibb və hətta yaşlılara qulluq kimi sahələrdə tətbiq tapdıqca isti, canlı üzlərin getdikcə daha vacib hala gələcəyini proqnozlaşdırırlar. Bəzi iqtisadçılar növbəti onillikdə bir milyarddan çox humanoid istehsal olunacağını proqnozlaşdırırlar.
Lipson hesablayır ki, “Bütün bu humanoid robotların üzü olmayan gələcək yoxdur. Və nəhayət, üzü olanda gözlərini və dodaqlarını düzgün hərəkət etdirməli olacaqlar, əks halda əbədi olaraq qəribə qalacaqlar”.
“Biz insanlar sadəcə bu şəkildə formalaşmışıq və özümü saxlaya bilmərəm. Biz qəribə vadini keçməyə yaxınıq”, – deyə Hu əlavə etdi.
Risklər və limitlər
Bu iş, Lipsonun gülümsəmək, baxmaq və danışmaq kimi üz jestlərini mənimsəməklə robotların insanlarla daha effektiv əlaqə qurmasının yollarını tapmaq üçün on il davam edən axtarışının bir hissəsidir. O, bu qabiliyyətlərin sərt qaydalarla proqramlaşdırılmaq əvəzinə, öyrənməklə əldə edilməli olduğunu israr edir.
“Robot sadəcə insanları izləyərək və dinləyərək gülümsəməyi və ya danışmağı öyrənəndə sehrli bir şey baş verir”, – deyə o bildirib. “Mən yorğun robotçuyam, amma mənə qəfil gülümsəyən robota gülümsəməkdən özümü saxlaya bilmirəm.”
Hu izah etdi ki, insan üzləri ünsiyyət üçün ən yaxşı interfeysdir və biz onların sirlərini açmağa başlayırıq.
Hu dedi ki, “Bu qabiliyyətə malik robotlar insanlarla əlaqə qurmaq üçün daha yaxşı qabiliyyətə malik olacaqlar, çünki ünsiyyətimizin bu qədər əhəmiyyətli bir hissəsi üz bədən dili ilə bağlıdır və bütün bu kanal hələ də istifadə olunmayıb”.
Tədqiqatçılar robotlara insanlarla daha çox əlaqə qurma qabiliyyətinin verilməsi ilə bağlı risklərdən və mübahisələrdən xəbərdardırlar.
Lipson dedi: “Bu , güclü bir texnologiya olacaq . Riskləri minimuma endirərkən faydalarını əldə etmək üçün yavaş-yavaş və diqqətlə hərəkət etməliyik”.
Daha çox məlumat: Yuhang Hu və digərləri, Humanoid üzlü robotlar üçün real dodaq hərəkətlərinin öyrənilməsi, Science Robotics (2026). DOI: 10.1126/scirobotics.adx3017 . www.science.org/doi/10.1126/scirobotics.adx3017
Jurnal məlumatları: Elmi Robototexnika Kolumbiya Universiteti Mühəndislik və Tətbiqi Elmlər Məktəbi tərəfindən təmin edilir













