Süni intellektlə işləyən qulaqlıqlar səs klonlaması və 3D məkan audio ilə qrup tərcüməsini təklif edir

Vaşinqton Universitetinin doktorantı Tuoçao Çen bu yaxınlarda Meksikada bir muzeyi gəzdi. Çen ispan dilini bilmir, ona görə də telefonunda tərcümə proqramı işlədir və mikrofonu tur bələdçisinə yönəldir. Ancaq muzeyin nisbətən sakitliyində belə, ətrafdakı səs-küy çox idi. Nəticədə mətn faydasız idi.
Son vaxtlar səlis tərcümə vəd edən müxtəlif texnologiyalar ortaya çıxdı, lakin bunların heç biri Çenin ictimai yer problemini həll etmədi . Meta-nın yeni eynəkləri, məsələn, yalnız təcrid olunmuş dinamiklə işləyir; natiq bitdikdən sonra avtomatik səs tərcüməsini oynayırlar .
İndi Chen və UW tədqiqatçıları qrupu insanların səslərinin istiqamətini və keyfiyyətlərini qoruyaraq eyni anda bir neçə dinamiki tərcümə edən qulaqlıq sistemi hazırlayıb. Komanda Spatial Speech Translation adlanan sistemi mikrofonlarla təchiz edilmiş səs-küyü ləğv edən qulaqlıqlarla qurdu. Komandanın alqoritmləri müxtəlif dinamikləri bir boşluqda ayırır və hərəkət etdikcə onları izləyir, nitqlərini tərcümə edir və 2-4 saniyə gecikmə ilə səsləndirir.Oyna
00:2100:44SəssizParametrlərPIPTam ekrana daxil olun
Komanda öz tədqiqatını aprelin 30-da Yaponiyanın Yokohama şəhərində Hesablama Sistemlərində İnsan Faktorları üzrə ACM CHI Konfransında təqdim etdi. Konsepsiya sübutu cihazının kodu başqalarının üzərində qurmaq üçün əlçatandır. Paul G. Allen Kompüter Elmləri və Mühəndisliyi Məktəbinin UW professoru, baş müəllif Şyam Qollakota, “Digər tərcümə texnologiyası yalnız bir nəfərin danışdığı fərziyyəsi üzərində qurulub” dedi. “Ancaq real dünyada bir otaqda birdən çox insan üçün yalnız bir robot səslə danışa bilməzsiniz. İlk dəfə olaraq hər bir insanın səsinin səsini və onun gəldiyi istiqaməti qorumuşuq.”
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=280&slotname=2793866484&adk=2520359048&adf=746485419&pi=t.ma~as.2793866484&w=750&abgtt=6&fwrn=4&fwrnh=0&lmt=1747046887&rafmt=1&armr=3&format=750×280&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2025-05-ai-powered-headphones-group-voice.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTM2LjAuNzEwMy45MyIsbnVsbCwwLG51bGwsIjY0IixbWyJDaHJvbWl1bSIsIjEzNi4wLjcxMDMuOTMiXSxbIkdvb2dsZSBDaHJvbWUiLCIxMzYuMC43MTAzLjkzIl0sWyJOb3QuQS9CcmFuZCIsIjk5LjAuMC4wIl1dLDBd&dt=1747046880846&bpp=1&bdt=140&idt=143&shv=r20250507&mjsv=m202505060101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dfdc40d724f2dca57%3AT%3D1735367325%3ART%3D1747046724%3AS%3DALNI_MYStQ6fUQQQLyo5Z7z1h-XhXcWBtA&gpic=UID%3D00000f80eacffadc%3AT%3D1735367325%3ART%3D1747046724%3AS%3DALNI_MYaOugky0UawScoidzfbXof3-N-iw&eo_id_str=ID%3De43bb863646b60b8%3AT%3D1735367325%3ART%3D1747046724%3AS%3DAA-AfjbQoPwZqH28q9IwcCLRSzzg&prev_fmts=0x0&nras=1&correlator=2657300036666&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=1080&u_w=1920&u_ah=1032&u_aw=1920&u_cd=24&u_sd=1&dmc=8&adx=448&ady=2101&biw=1905&bih=945&scr_x=0&scr_y=0&eid=31092192%2C95360610%2C95356809%2C95360294&oid=2&pvsid=1088523081457469&tmod=1596790856&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1920%2C0%2C1920%2C1032%2C1920%2C945&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=6247
Sistem üç yenilik edir. Birincisi, işə salındıqda, qapalı və ya açıq məkanda neçə dinamikin olduğunu dərhal aşkar edir.
“Bizim alqoritmlərimiz bir az radara bənzəyir” dedi, Allen Məktəbində UW doktorantı olan aparıcı müəllif Chen. “Beləliklə, onlar kosmosu 360 dərəcə skan edir və orada bir nəfər, yoxsa altı və ya yeddi nəfər olub-olmadığını daim müəyyənləşdirir və yeniləyirlər.”
Sistem daha sonra nitqi tərcümə edir və noutbuklar və Apple Vision Pro kimi Apple M2 çipli mobil cihazlarda işləyərkən hər bir natiqin səsinin ifadəli keyfiyyətlərini və həcmini saxlayır. ( Səs klonlama ilə bağlı məxfilik problemlərinə görə komanda bulud hesablamalarından istifadə etməkdən yayındı .) Nəhayət, natiqlər başlarını tərpətdikdə, sistem dəyişdikcə səslərinin istiqamətini və keyfiyyətlərini izləməyə davam edir.
Sistem 10 daxili və açıq şəraitdə sınaqdan keçirildikdə işləyirdi. Və 29 iştirakçının iştirak etdiyi testdə istifadəçilər kosmosda dinamikləri izləməyən modellərə nisbətən sistemə üstünlük verdilər.
Ayrı bir istifadəçi testində əksər iştirakçılar 3-4 saniyə gecikməyə üstünlük verdilər, çünki sistem 1-2 saniyə gecikmə ilə tərcümə edərkən daha çox səhvə yol verdi. Komanda gələcək iterasiyalarda tərcümənin sürətini azaltmağa çalışır. Sistem hazırda yalnız adi nitq üzərində işləyir, texniki jarqon kimi xüsusi dildə deyil. Bu yazı üçün komanda ispan, alman və fransız dilləri ilə işləmişdir, lakin tərcümə modelləri üzərində əvvəlki iş onların 100-ə yaxın dilə tərcümə etmək üçün təlim keçə biləcəyini göstərmişdir.
“Bu , mədəniyyətlər arasında dil maneələrini aradan qaldırmaq üçün bir addımdır ” dedi Çen. “Beləliklə, Meksikada küçədə gəzirəmsə, ispanca danışmasam da, bütün insanların səsini tərcümə edə və kimin nə dediyini bilə bilərəm.”
HydroX AI-də tədqiqat stajçısı və bu tədqiqatı tamamlayarkən Allen Məktəbində UW bakalavrı olan Qirui Wang və Allen Məktəbində UW doktorantı Runlin He də bu məqalənin həmmüəllifləridir.
Daha çox məlumat: Tuochao Chen et al, Spatial Speech Translation: Translating Across Space With Binaural Hearables, 2025 CHI Konfransının Hesablama Sistemlərində İnsan Faktorları (2025) materialları. DOI: 10.1145/3706598.3713745Vaşinqton Universiteti tərəfindən təmin edilmişdir