İlk ictimaiyyətə açıq olan Yapon süni intellekt dialoq sistemi eyni vaxtda danışa və dinləyə bilər

Naqoya Universiteti tərəfindən
Gaby Clark tərəfindən redaktə edilmişdir , Andrew Zinin tərəfindən nəzərdən keçirilmişdir
Redaktorların qeydləriHiqashinaka Laboratoriyası insan operatorları ilə birlikdə işləmək üçün nəzərdə tutulmuş AI-insan dialoq sistemlərini inkişaf etdirir. Araşdırmaların bir hissəsi olaraq, Osakanın NIFREL Akvariumunda ziyarətçilərin dəniz həyatı ilə bağlı suallarını cavablandırmaq üçün bələdçi robot yerləşdirilib. İnsan operatorları mürəkkəb suallara kömək etmək üçün işə qarışa bilər. Kredit: Hiqashinaka Laboratoriyası, Naqoya Universiteti. Osaka, NIFREL Akvariumunda çəkilib
İnsanların danışıq tərzini mükəmməl şəkildə təqlid edən AI sistemini necə inkişaf etdirirsiniz? Yaponiyanın Naqoya Universitetinin tədqiqatçıları buna nail olmaq üçün əhəmiyyətli bir addım atıblar. Onlar xüsusi olaraq Yapon danışıq nümunələri üçün nəzərdə tutulmuş, ictimaiyyətə açıq olan ilk AI sistemi olan J-Moshi yaratdılar .
J-Moshi Yapon danışığının təbii axınını ələ keçirir, bu da tez-tez “aizuchi” kimi tanınan qısa şifahi cavablara malikdir və yapon danışanların fəal şəkildə dinlədiklərini və məşğul olduqlarını göstərmək üçün söhbət zamanı istifadə edirlər. “Sou desu ne” (doğrudur) və “Naruhodo” (baxıram) kimi cavablar ingilis dilində oxşar cavablardan daha çox istifadə olunur.
Ənənəvi süni intellekt eyni vaxtda danışa və dinləyə bilmədiyi üçün aizuchi-dən istifadə etməkdə çətinlik çəkir. Bu qabiliyyət təbii səslənən Yapon AI dialoqu üçün xüsusilə vacibdir. Nəticə etibarilə, J-Moshi onun təbii danışıq tərzini tanıyan və qiymətləndirən yapon danışanları arasında çox məşhur olmuşdur.Professor Hiqashinaka (sağda) və komandası insanlarla təbii şəkildə ünsiyyət qurmaq üçün nitq, jest və hərəkəti birləşdirən humanoid robotların yaradılması üzərində əməkdaşlıq edir. Kredit: Hiqashinaka Laboratoriyası, Naqoya Universiteti
Yapon Moshi modelinin qurulması
Lisansüstü İnformatika Məktəbinin Hiqashinaka Laboratoriyasının tədqiqatçılarının rəhbərlik etdiyi inkişaf qrupu, Kyutai qeyri-kommersiya laboratoriyası tərəfindən yaradılmış ingilis dilli Moshi modelini uyğunlaşdırmaqla J-Moshi yaratdı. Proses təxminən dörd ay çəkdi və bir çox Yapon nitq verilənlər bazasından istifadə edərək sistemin təlimini əhatə etdi. Tədqiqat arXiv preprint serverində dərc olunub .
Ən böyük məlumat dəsti Tokio Universiteti tərəfindən yaradılan və buraxılan ən böyük ictimaiyyətə açıq Yapon dialoq verilənlər bazası olan J-CHAT-dan əldə edilmişdir. O, podkastlardan və YouTube-dan təxminən 67.000 saat audio ehtiva edir. Bundan əlavə, komanda bəziləri laboratoriyada toplanmış, digərləri isə 20-30 il əvvələ aid olan daha kiçik, lakin yüksək keyfiyyətli dialoq verilənlər bazalarından istifadə etmişdir. Təlim məlumatlarını artırmaq üçün tədqiqatçılar bu məqsədlə hazırladıqları mətndən nitqə proqramları ilə yazılı söhbətləri də süni nitqə çevirdilər.
2024-cü ilin yanvar ayında nümayiş videoları sosial mediada yayıldıqda J-Moshi böyük diqqət qazandı. Texniki yeniliyi ilə yanaşı, dil öyrənməkdə mümkün praktik tətbiqlərə malikdir. Məsələn, qeyri-doğma danışanlara təbii Yapon danışıq nümunələrini praktikada başa düşməkdə kömək etmək.
Tədqiqat qrupu həmçinin zəng mərkəzlərində, səhiyyə sistemlərində və müştəri xidmətlərində kommersiya tətbiqlərini araşdırır. Onlar qeyd edirlər ki, sistemi ixtisaslaşmış sahələrə və ya sənayelərə uyğunlaşdırmaq ingilis dili üçün mövcud olan resurslarla müqayisədə Yapon nitq məlumatlarının məhdud olması səbəbindən çətin olur.
Tədqiqat qrupunun rəhbəri, professor Ryuiçiro Hiqashinaka akademik süni intellekt tədqiqatlarına unikal perspektiv gətirir , beş il əvvəl Naqoya Universitetinə qoşulmazdan əvvəl NTT Korporasiyasında 19 il korporativ tədqiqatçı kimi çalışmışdır.
Sənayedə işlədiyi müddətdə o, NTT DOCOMO-nun səs agenti xidməti olan Shabette Concier üçün sual-cavab funksiyasının həyata keçirilməsi layihəsi də daxil olmaqla, istehlakçı dialoq sistemləri və səs agentləri üzərində işləmişdir. İnsan ünsiyyət nümunələri ilə bağlı araşdırmaları davam etdirmək üçün o, 2020-ci ildə Naqoya Universitetinin İnformatika üzrə Ali Məktəbində öz laboratoriyasını qurdu.
Onun 20 nəfərlik laboratoriyası indi Yapon dilində danışıq vaxtını başa düşməkdən tutmuş, akvariumlar kimi ictimai yerlərdə süni intellekt bələdçilərinin yerləşdirilməsinə qədər nəzəri tədqiqat və praktik tətbiqləri birləşdirən problemləri həll edir.
“J-Moshi kimi texnologiya insan operatorları ilə işləyən sistemlərə tətbiq oluna bilər. Məsələn, Osakadakı NIFREL Akvariumundakı bələdçi robotlarımız gündəlik qarşılıqlı əlaqələri müstəqil şəkildə idarə edə və mürəkkəb suallar üçün və ya xüsusi yardıma ehtiyac olduqda ziyarətçiləri insan operatorları ilə asanlıqla birləşdirə bilər”, – professor Hiqashinaka bildirib. “Bizim işimiz qabaqcıl süni intellekt-insan əməkdaşlıq sistemləri vasitəsilə xidmət keyfiyyətini yaxşılaşdırmaq məqsədi daşıyan Milli Kabinet Ofisinin Moonshot Layihəsinin bir hissəsidir.”Ph.D. tələbə Sanae Yamashita (solda) süni intellekt dialoq sistemlərinin köməyə ehtiyacı olduqda insan operatorlarına kömək etmək üçün söhbətləri ümumiləşdirən üsullar üzərində işləyir. Tədqiqatçı Ao Quo (sağda) nitq, jest və hərəkətlərdən istifadə edərək mobil bələdçi robotların daha istifadəçi dostu olmasına diqqət yetirir. Kredit: Merle Naidoo, Naqoya Universiteti
İnsan-robot qarşılıqlı əlaqəsi üçün imkanlar və problemlər
Professor Hiqashinaka Yaponiyanın süni intellektlə bağlı tədqiqatlarının qarşısında duran unikal problemləri izah edib: “Yaponiya nitq resurslarının çatışmazlığından əziyyət çəkir, tədqiqatçıların AI dialoq sistemlərini öyrətmək imkanlarını məhdudlaşdırır. Məxfilik problemləri də nəzərə alınmalıdır.”
Bu məlumat çatışmazlığı, podcast qeydlərindəki qarışıq səsləri təlim üçün lazım olan fərdi dinamik treklərə ayırmaq üçün kompüter proqramlarından istifadə kimi yaradıcı həlləri məcbur etdi.
Hal-hazırda, dialoq sistemləri mürəkkəb sosial vəziyyətlərdə, xüsusən də şəxsiyyətlərarası münasibətlər və fiziki mühitlərin nəzərə alınması lazım olduqda çətinlik çəkir. Maskalar və ya papaqlar kimi vizual maneələr də onların performansını pisləşdirə bilər, çünki üz ifadələri kimi mühüm vizual işarələr əhatə olunur. Osakanın NIFREL Akvariumunda aparılan sınaqlar göstərdi ki, bəzən süni intellekt istifadəçi suallarını həll edə bilmir və söhbətə müdaxilə edib insan operatorlara ehtiyac duyur.
J-Moshi üst-üstə düşən nitq və aizuchi ünsiyətləri ilə təbii Yapon danışıq nümunələrinin ələ keçirilməsində mühüm nailiyyəti təmsil etsə də, bu məhdudiyyətlər onun hazırda əksər praktik tətbiqlər üçün insan ehtiyat sistemlərinə ehtiyacı olduğunu bildirir. Tədqiqatçılar bu problemləri azaltmaq üçün bu insan ehtiyat sistemlərini təkmilləşdirməyə çalışırlar. Bunlara dialoqun ümumiləşdirilməsi üsulları və operatorları potensial problemlər barədə xəbərdar edən dialoqun pozulmasının aşkarlanması sistemləri daxildir ki, onlar tez cavab verə bilsinlər.
Laboratoriyanın daha geniş tədqiqatı J-Moshidən kənara çıxır və insan-robot qarşılıqlı əlaqəsi üçün bir çox metodları əhatə edir . Real insanabənzər robotlar üzərində işləyən həmkarları ilə əməkdaşlıq edərək, təbii ünsiyyət üçün nitqi, jestləri və hərəkəti koordinasiya edən robot sistemləri hazırlayırlar.
Bu robotlar, o cümlədən Unitree Robotics tərəfindən istehsal olunanlar, fiziki formada süni intellektdə ən son nailiyyətləri təmsil edir, burada dialoq sistemləri təkcə danışıq nüanslarını deyil, həm də fiziki mövcudluğu və məkan şüurunu idarə etməlidir. Komanda müntəzəm olaraq öz işlərini universitetin açıq kampus günlərində nümayiş etdirir, burada ictimaiyyət AI dialoq sistemlərinin necə inkişaf etdiyini təcrübədən keçirə bilər.
Onların J-Moshi haqqında məqaləsi nitq texnologiyası və tədqiqatı sahəsində ən böyük beynəlxalq konfrans olan Interspeech -də dərc olunmaq üçün qəbul edilmişdir . Professor Hiqashinaka və komandası 2025-ci ilin avqustunda Hollandiyanın Rotterdam şəhərində J-Moshi tədqiqatlarını təqdim etməyi səbirsizliklə gözləyir.
“Yaxın gələcəkdə biz təbii nitq və jestlər vasitəsilə insanlarla problemsiz əməkdaşlıq edə bilən sistemlərin ortaya çıxmasının şahidi olacağıq. Mən belə transformativ cəmiyyət üçün vacib olacaq təməl texnologiyalar yaratmağa can atıram”, – professor Hiqaşinaka bildirib.
Ətraflı məlumat: Atsumoto Ohashi et al, Towards a Japanese Full-duplex Spoken Dialogue System, arXiv (2025). DOI: 10.48550/arxiv.2506.02979
J-Moshi-nin səsini burada dinləyin: https://nu-dialogue.github.io/j-moshi/
J-Moshi təlimi üçün istifadə olunan kod bazası burada mövcuddur: https://github.com/nu-dialogue/moshi-finetune
Jurnal məlumatı: arXiv Naqoya Universiteti tərəfindən təmin edilmişdir