Süni intellekt sistemi hərəkətsiz təsvirdən istifadə edərək danışan şəxsin səsini videoya çevirə bilir
Alibaba Group İntellektual Hesablamalar İnstitutunun süni intellekt üzrə tədqiqatçılarından ibarət kiçik bir qrup, yaratdıqları videolar vasitəsilə insanın üzünün tək bir fotoşəkilini və danışan və ya oxuyan birinin soundtrackini qəbul edə və onlardan istifadə etmək üçün istifadə edə bilən yeni süni intellekt tətbiqini nümayiş etdirir. səs trekini danışan və ya oxuyan şəxsin cizgi versiyasını yaradın. Qrup arXiv preprint serverində işlərini təsvir edən məqalə dərc edib .
Əvvəlki tədqiqatçılar üzün fotoşəkilini emal edə və ondan yarı animasiya versiyası yaratmaq üçün istifadə edə bilən süni intellekt proqramlarını nümayiş etdirdilər. Bu yeni səydə Alibaba komandası səs əlavə edərək bunu bir addım da irəli apardı. Və bəlkə də ən vacibi, onlar bunu 3D modellərdən və hətta üz işarələrindən istifadə etmədən ediblər. Bunun əvəzinə, komanda audio və ya video faylların böyük verilənlər bazası üzərində süni intellekt öyrətməyə əsaslanan diffuziya modelləşdirməsindən istifadə etdi. Bu halda, komanda Emote Portrait Alive ( EMO ) adlandırdıqları tətbiqini yaratmaq üçün təxminən 250 saat belə məlumatlardan istifadə etdi .
Tədqiqatçılar audio dalğa formasını birbaşa video kadrlara çevirməklə, insanın incə üz jestlərini, nitq qəribəliklərini və üzün animasiya şəklini insana bənzəyən digər xüsusiyyətlərini əks etdirən proqram yaradıblar. Videolar sözlər və cümlələr yaratmaq üçün istifadə edilən ehtimal olunan ağız formalarını və adətən onlarla əlaqəli ifadələri sədaqətlə yenidən yaradır.Oynamaq
00:0000:26SəssizParametrlərPIPTam ekrana daxil olun
OynamaqXarakter: Mona Liza Vokal Mənbə: Şekspirin II Monoloqu İstədiyiniz kimi: Rozalind “Bəli, bir; və bu şəkildə.” Kredit: https://humanaigc.github.io/emote-portrait-alive/
Komanda realizm və ifadəlilik baxımından digər tətbiqləri üstələdiklərini iddia edərək, yaratdıqları heyrətamiz dərəcədə dəqiq performansları nümayiş etdirən bir neçə video yayımladı. Onlar həmçinin qeyd edirlər ki, bitmiş video uzunluğu orijinal audio trekin uzunluğu ilə müəyyən edilir. Videolarda orijinal şəkil orijinal audio trekdə yazılmış şəxsin səsi ilə danışan və ya oxuyan şəxslə yanaşı göstərilir.Oynamaq
00:0004:10SəssizParametrlərPIPTam ekrana daxil olun
OynamaqKredit: Canlı Emote Portret
Komanda bu cür texnologiyadan qeyri-etik istifadənin qarşısını almaq üçün belə proqramdan istifadənin məhdudlaşdırılması və ya monitorinq edilməli olduğunu etiraf etməklə yekunlaşdırır.
Ətraflı məlumat: Linrui Tian və digərləri, EMO: Emote Portrait Alive—Zəif Şəraitlərdə Audio2Video Diffuziya Modeli ilə Ekspressiv Portret Videolarının Yaradılması, arXiv (2024). DOI: 10.48550/arxiv.2402.17485
EMO: humanaigc.github.io/emote-portrait-alive/
Jurnal məlumatı: arXiv