Yeni model müxtəlif məlumat girişlərindən audio və musiqi parçaları yarada bilər

Son illərdə kompüter alimləri mətnlər, şəkillər, videolar, mahnılar və digər məzmun yaratmaq üçün müxtəlif yüksək performanslı maşın öyrənmə vasitələri yaratdılar. Bu hesablama modellərinin əksəriyyəti istifadəçilər tərəfindən verilən mətn əsaslı təlimatlar əsasında məzmun yaratmaq üçün nəzərdə tutulub.

https://dcfeb227d8a89852dcebb9017528fcaf.safeframe.googlesyndication.com/safeframe/1-0-41/html/container.html

Honq Konq Elm və Texnologiya Universitetinin tədqiqatçıları bu yaxınlarda mətnlər, video görüntülər , şəkillər, musiqi və audio yazılardan giriş kimi istifadə edərək yüksək keyfiyyətli audio və musiqi parçaları yarada bilən AudioX modelini təqdim etdilər. Onların arXiv preprint serverində dərc olunmuş məqalədə təqdim edilən modeli, qəbul etdiyi daxilolma məlumatlarını tədricən aradan qaldıraraq məzmun yaratmaq üçün transformator arxitekturasından istifadə edən qabaqcıl maşın öyrənmə alqoritmi olan diffuziya transformatoruna əsaslanır.

“Tədqiqatımız süni intellektdə əsas sualdan irəli gəlir: ağıllı sistemlər vahid çarpaz modal anlayışa və nəsil əldə etməyə necə nail ola bilər?” Bu barədə Tech Xplore-a qəzetin müvafiq müəllifi Vey Xue bildirib. “İnsan yaradılması problemsiz inteqrasiya olunmuş bir prosesdir, burada müxtəlif duyğu kanallarından gələn məlumat təbii olaraq beyin tərəfindən birləşdirilir. Ənənəvi sistemlər çox vaxt ixtisaslaşdırılmış modellərə arxalanır, modallıqlar arasındakı bu daxili əlaqələri tuta bilmirlər.”

Wei Xue, Yike Guo və onların həmkarlarının rəhbərlik etdiyi son tədqiqatın əsas məqsədi vahid təmsilçilik öyrənmə çərçivəsini inkişaf etdirmək idi. Bu çərçivə fərdi modelə yalnız müəyyən bir məlumat növünü emal edə bilən fərqli modelləri birləşdirmək əvəzinə, müxtəlif üsullar (yəni, mətnlər, şəkillər, videolar və audio treklər) üzrə məlumatları emal etməyə imkan verəcək.Oyna

00:0003:58SəssizParametrlərPIPTam ekrana daxil olun

“Biz süni intellekt sistemlərinə insan beyninə bənzər çarpaz-modal konsept şəbəkələri yaratmağa imkan yaratmağı hədəfləyirik”, – deyə Xue bildirib. “Yaratdığımız AudioX modeli konseptual və müvəqqəti uyğunlaşmanın ikili probleminin həllinə yönəlmiş paradiqma dəyişikliyini təmsil edir . Başqa sözlə, o, həm “nə” (konseptual uyğunlaşma) və “nə vaxt” (müvəqqəti uyğunlaşma) suallarını eyni vaxtda həll etmək üçün nəzərdə tutulmuşdur. Bizim əsas məqsədimiz dünyanı ardıcıllıq yaratmaq və müxtəlif modelləri yaratmaq qabiliyyətini saxlamaqdır. reallığa uyğundur”.

https://googleads.g.doubleclick.net/pagead/ads?client=ca-pub-0536483524803400&output=html&h=280&slotname=2793866484&adk=2520359048&adf=746485419&pi=t.ma~as.2793866484&w=750&abgtt=6&fwrn=4&fwrnh=100&lmt=1744702098&rafmt=1&armr=3&format=750×280&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2025-04-generate-audio-music-tracks-diverse.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTM1LjAuNzA0OS44NSIsbnVsbCwwLG51bGwsIjY0IixbWyJHb29nbGUgQ2hyb21lIiwiMTM1LjAuNzA0OS44NSJdLFsiTm90LUEuQnJhbmQiLCI4LjAuMC4wIl0sWyJDaHJvbWl1bSIsIjEzNS4wLjcwNDkuODUiXV0sMF0.&dt=1744702095563&bpp=1&bdt=1592&idt=2570&shv=r20250410&mjsv=m202504100101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dfdc40d724f2dca57%3AT%3D1735367325%3ART%3D1744702096%3AS%3DALNI_MYStQ6fUQQQLyo5Z7z1h-XhXcWBtA&gpic=UID%3D00000f80eacffadc%3AT%3D1735367325%3ART%3D1744702096%3AS%3DALNI_MYaOugky0UawScoidzfbXof3-N-iw&eo_id_str=ID%3De43bb863646b60b8%3AT%3D1735367325%3ART%3D1744702096%3AS%3DAA-AfjbQoPwZqH28q9IwcCLRSzzg&prev_fmts=0x0&nras=1&correlator=785417570078&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=1080&u_w=1920&u_ah=1032&u_aw=1920&u_cd=24&u_sd=1&dmc=8&adx=448&ady=2225&biw=1905&bih=945&scr_x=0&scr_y=0&eid=95355972%2C95355974%2C95357878%2C95356661%2C95356809%2C95357715&oid=2&pvsid=4371551701574047&tmod=758868902&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1920%2C0%2C1920%2C1032%2C1920%2C945&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=2575

Tədqiqatçılar tərəfindən hazırlanmış yeni diffuziya transformatoru əsaslı model, rəhbər olaraq istənilən giriş məlumatından istifadə edərək yüksək keyfiyyətli audio və ya musiqi parçaları yarada bilər. Bu “hər şeyi” audioya çevirmək bacarığı əyləncə sənayesi və yaradıcı peşələr üçün yeni imkanlar açır. Məsələn, istifadəçilərə müəyyən vizual səhnəyə uyğun musiqi yaratmağa və ya istədiyiniz treklərin yaradılmasına rəhbərlik etmək üçün daxilolmaların birləşməsindən (məsələn, mətnlər və videolar) istifadə etməyə icazə vermək.

“AudioX diffuziya transformatoru arxitekturası üzərində qurulub, lakin onu fərqləndirən multimodal maskalanma strategiyasıdır” deyə Xue izah edib. “Bu strategiya maşınların müxtəlif məlumat növləri arasındakı əlaqələri başa düşməyi necə öyrəndiyini əsaslı şəkildə yenidən təsəvvür edir.

“Təlim zamanı daxiletmə üsulları arasında elementləri gizlətməklə (yəni, video çərçivələrdən yamaqları, mətndən işarələri və ya audiodan seqmentləri seçmə şəkildə silməklə) və modeli digər üsullardan itkin məlumatı bərpa etmək üçün öyrətməklə, biz vahid təmsil məkanı yaradırıq.”

Müxtəlif növ məlumatlar əsasında audio və musiqi parçaları yarada bilən yeni model — AudioX imkanlarına baxış. Bu diaqram AudioX-in bir çox tapşırıqlar üzrə çox yönlü imkanlarını təsvir edir, o cümlədən Mətndən Audioya, Videodan Audioya, Audio Rəngləmə, Mətndən Musiqiyə, Videodan Musiqiyə və Musiqi Tamamlama. Model müxtəlif girişlər üçün kontekstual olaraq uyğun səs yaratmaqda güclü performans nümayiş etdirir. Kredit: Tian et al.

AudioX bu multimodal verilənlərin semantik mənasını və ritmik strukturunu ələ alaraq linqvistik təsvirləri, vizual səhnələri və audio nümunələri birləşdirən ilk modellərdən biridir. Onun unikal dizaynı ona insan beyninin müxtəlif hisslər (yəni, görmə, eşitmə, dad, qoxu və toxunma) tərəfindən qəbul edilən məlumatları necə inteqrasiya etdiyi kimi, müxtəlif məlumat növləri arasında əlaqə yaratmağa imkan verir.

“AudioX, müxtəlif əsas üstünlükləri olan ən əhatəli hər hansı bir audio əsas modelidir” dedi Xue. “Birincisi, bu, vahid model arxitekturasında yüksək şaxələndirilmiş tapşırıqları dəstəkləyən vahid çərçivədir. O, həmçinin multimodal maskalı təlim strategiyamız vasitəsilə çarpaz modal inteqrasiyaya imkan verir, vahid təmsil məkanı yaradır. O, çox yönlü nəsil imkanlarına malikdir, çünki o, həm ümumi audio, həm də musiqini yüksək keyfiyyətlə idarə edə bilir, yeni seçilmiş kolleksiyalarımız da daxil olmaqla, geniş miqyaslı məlumat dəstləri üzərində öyrədilir.”

İlkin sınaqlarda Xue və onun həmkarları tərəfindən yaradılan yeni modelin mətnləri, videoları, şəkilləri və audioları uğurla birləşdirərək yüksək keyfiyyətli audio və musiqi trekləri hazırladığı müəyyən edilib. Onun ən diqqətəlayiq xüsusiyyəti odur ki, o, müxtəlif modelləri birləşdirmir, əksinə, müxtəlif növ girişləri emal etmək və inteqrasiya etmək üçün tək diffuziya transformatorundan istifadə edir.

“AudioX, bir arxitekturada mətn/video-audiodan tutmuş audio rəngləmə və musiqi tamamlamaya qədər müxtəlif tapşırıqları dəstəkləyir və adətən yalnız xüsusi tapşırıqlarda üstün olan sistemlərdən kənara çıxır” dedi Xue. “Model film istehsalı, məzmunun yaradılması və oyun oynama sahələrini əhatə edən müxtəlif potensial tətbiqlərə malik ola bilər.”

AudioX tezliklə daha da təkmilləşdirilə və geniş parametrlərdə yerləşdirilə bilər. Məsələn, o, sosial media üçün filmlərin, animasiyaların və məzmunun istehsalında yaradıcı mütəxəssislərə kömək edə bilər.

“Təsəvvür edin ki, bir kinorejissor artıq hər səhnə üçün Foley rəssamına ehtiyac duymur” deyə Xue izah etdi. “AudioX yalnız vizual görüntülərə əsaslanaraq avtomatik olaraq qarda ayaq səslərini, cırıltılı qapıları və ya xışıltılı yarpaqları yarada bilər. Eyni şəkildə, o, təsir edənlər tərəfindən TikTok rəqs videolarına mükəmməl fon musiqisini dərhal əlavə etmək üçün istifadə edilə bilər və ya YouTuberlar tərəfindən orijinal yerli səs mənzərələri ilə səyahət vloqlarını artırmaq üçün istifadə edilə bilər – hamısı tələb əsasında yaradılır.”

Gələcəkdə AudioX video oyun tərtibatçıları tərəfindən fon səslərinin oyunçuların hərəkətlərinə dinamik uyğunlaşdığı immersiv və adaptiv oyunlar yaratmaq üçün də istifadə edilə bilər. Məsələn, personaj beton döşəmədən otun üstünə keçdikcə, onların ayaq səsləri dəyişə bilər və ya təhlükə və ya düşmənə yaxınlaşdıqca oyunun soundtracki tədricən daha da gərginləşə bilər.

“Növbəti planlaşdırılan addımlarımıza AudioX-i uzun formatlı audio nəsil üçün genişləndirmək daxildir” deyə Xue əlavə etdi. “Bundan əlavə, multimodal məlumatlardan assosiasiyaları öyrənməkdənsə, biz subyektiv üstünlüklərlə daha yaxşı uyğunlaşmaq üçün insan estetik anlayışını gücləndirici öyrənmə çərçivəsinə inteqrasiya etməyə ümid edirik.”

Daha çox məlumat: Zeyue Tian və digərləri, AudioX: Hər Şeydən Audioya Nəsil üçün Diffuziya Transformatoru, arXiv (2025). DOI: 10.48550/arxiv.2503.10522

Jurnal məlumatı: arXiv

Download QRPrint QR

Maraqlıdır? Bu, yaşlandıqca kəskin...

Kamera tələsi araşdırması Hindistanın...

70 il ərzində dəniz...

Trias fosili, sürətli balıq...

Niyə bələdçilər bəzən bal...

117 milyon illik palçıq...

Yeni model müxtəlif məlumat girişlərindən audio və musiqi parçaları yarada bilər

Leave a comment Cavabı ləğv et

Maraqlıdır? Bu, yaşlandıqca kəskin olmağınıza və.

Kamera tələsi araşdırması Hindistanın Ladax ərazisində.

70 il ərzində dəniz dibinin yalnız.

Trias fosili, sürətli balıq ovlamaq üçün.

May 2025
BE	ÇA	Ç	CA	C	Ş	B
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

May 2025
BE	ÇA	Ç	CA	C	Ş	B
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Yeni model müxtəlif məlumat girişlərindən audio və musiqi parçaları yarada bilər

Share:

Leave a comment Cavabı ləğv et