#Robototexnika və AI #Xəbərlər

Multimodal süni intellekt agenti uzun video təhlili və əsaslandırma üçün insan düşüncəsini təqlid edir

Süni intellekt (AI) texnologiyası sürətlə inkişaf etsə də, AI modelləri hələ də uzun videoları başa düşməkdə çətinlik çəkirlər. Honq Konq Politexnik Universitetinin (PolyU) tədqiqat qrupu süni intellekt modellərinə insanların düşüncə tərzini təqlid edərək uzun video mülahizələri və sual-cavab tapşırıqlarını yerinə yetirməyə imkan verən yeni video-dil agenti olan VideoMind hazırlayıb.

VideoMind çərçivəsi video analizində generativ süni intellekt tətbiqini inkişaf etdirərək hesablama resurslarına və gücə olan tələbatı azaltmaq üçün innovativ Zəncirli Aşağı Rəqəmli Uyğunlaşma (LoRA) strategiyasını özündə birləşdirir. Nəticələr dünyanın aparıcı süni intellekt konfranslarına təqdim edilib.

Videolar, xüsusən də 15 dəqiqədən uzun olanlar, hadisələrin ardıcıllığı, səbəb əlaqəsi, əlaqəlilik və səhnə keçidləri kimi zamanla ortaya çıxan məlumatları daşıyır. Video məzmununu başa düşmək üçün süni intellekt modelləri təkcə mövcud obyektləri müəyyən etməməli, həm də onların video boyu necə dəyişdiyini nəzərə almalıdırlar. Videolardakı vizuallar çoxlu sayda işarə tutduğundan, videonun başa düşülməsi böyük miqdarda hesablama qabiliyyəti və yaddaş tələb edir, bu da AI modellərinin uzun videoları emal etməsini çətinləşdirir.

PolyU Kompüter və Riyaziyyat Elmləri Fakültəsinin müvəqqəti dekanı və Vizual Hesablama kafedrasının professoru Prof. Changwen Chen və onun komandası süni intellektlə uzun video mülahizələri üzərində araşdırmada irəliləyiş əldə ediblər. VideoMind-in dizaynında onlar insana bənzər video anlayışı prosesinə istinad etdilər və rol əsaslı iş axını təqdim etdilər. Çərçivəyə daxil olan dörd rol bunlardır:

  • Planlayıcı, hər bir sorğu üçün bütün digər rolları əlaqələndirmək;
  • Yeraltı, müvafiq məqamları lokallaşdırmaq və əldə etmək;
  • Təsdiqləyici, əldə edilən anların məlumat düzgünlüyünü yoxlamaq və ən etibarlı olanı seçmək;
  • və Cavab verən, sorğudan xəbərdar cavab yaratmaq üçün.

https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=280&slotname=2793866484&adk=2520359048&adf=1100001614&pi=t.ma~as.2793866484&w=750&abgtt=6&fwrn=4&fwrnh=0&lmt=1749621210&rafmt=1&armr=3&format=750×280&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2025-06-multi-modal-ai-agent-mimics.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTM3LjAuNzE1MS4xMDMiLG51bGwsMCxudWxsLCI2NCIsW1siR29vZ2xlIENocm9tZSIsIjEzNy4wLjcxNTEuMTAzIl0sWyJDaHJvbWl1bSIsIjEzNy4wLjcxNTEuMTAzIl0sWyJOb3QvQSlCcmFuZCIsIjI0LjAuMC4wIl1dLDBd&dt=1749621208430&bpp=12&bdt=193&idt=147&shv=r20250609&mjsv=m202506090101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dfdc40d724f2dca57%3AT%3D1735367325%3ART%3D1749621207%3AS%3DALNI_MYStQ6fUQQQLyo5Z7z1h-XhXcWBtA&gpic=UID%3D00000f80eacffadc%3AT%3D1735367325%3ART%3D1749621207%3AS%3DALNI_MYaOugky0UawScoidzfbXof3-N-iw&eo_id_str=ID%3De43bb863646b60b8%3AT%3D1735367325%3ART%3D1749621207%3AS%3DAA-AfjbQoPwZqH28q9IwcCLRSzzg&prev_fmts=0x0%2C1905x945&nras=2&correlator=6721210725375&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=1080&u_w=1920&u_ah=1032&u_aw=1920&u_cd=24&u_sd=1&dmc=8&adx=448&ady=1783&biw=1905&bih=945&scr_x=0&scr_y=0&eid=31092897%2C31092919%2C95353387%2C31092908%2C95344789%2C95362799%2C95359265%2C95362809%2C95363075%2C95360684&oid=2&pvsid=3725312624625429&tmod=731885669&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1920%2C0%2C1920%2C1032%2C1920%2C945&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=1842

Video anlayışına bu mütərəqqi yanaşma əksər süni intellekt modellərinin qarşılaşdığı müvəqqəti əsaslandırılmış mülahizə problemini həll etməyə kömək edir.

VideoMind çərçivəsinin başqa bir əsas yeniliyi onun LoRA zəncirinin strategiyasını qəbul etməsidir. LoRA son illərdə ortaya çıxan incə tənzimləmə texnikasıdır. O, tam parametrli yenidən təlim keçirmədən AI modellərini xüsusi istifadələr üçün uyğunlaşdırır. Komanda tərəfindən irəli sürülən innovativ LoRA zənciri strategiyası vahid modeldə dörd yüngül çəkili LoRA adapterinin tətbiqini nəzərdə tutur ki, onların hər biri xüsusi rolu çağırmaq üçün nəzərdə tutulmuşdur.Oyna

00:00

00:31SəssizParametrlərPIPTam ekrana daxil olun

Bu strategiya ilə model, tək modelin səmərəliliyini və çevikliyini artırarkən birdən çox modelin yerləşdirilməsi ehtiyacını və xərclərini aradan qaldıraraq, bu rollar arasında problemsiz keçid etmək üçün öz-özünə zəng etməklə nəticə çıxarma zamanı rola xüsusi LoRA adapterlərini dinamik şəkildə aktivləşdirə bilər.

VideoMind GitHub və Huggingface-də açıq mənbədir və müvafiq araşdırma arXiv çap serverində mövcuddur . 14 müxtəlif meyarlar üzrə müvəqqəti əsaslandırılmış video anlayışında onun effektivliyini qiymətləndirmək üçün aparılan təcrübələrin təfərrüatları da mövcuddur. VideoMind-i bəzi müasir süni intellekt modelləri, o cümlədən GPT-4o və Gemini 1.5 Pro ilə müqayisə edən tədqiqatçılar müəyyən ediblər ki, VideoMind-in yerləşdirmə dəqiqliyi orta hesabla 27 dəqiqəlik videoların cəlb olunduğu çətin tapşırıqlarda bütün rəqiblərini üstələyib.

Xüsusilə, komanda təcrübələrə VideoMind-in iki versiyasını daxil etdi: biri daha kiçik, 2 milyard (2B) parametr modeli, digəri isə daha böyük, 7 milyard (7B) parametr modeli. Nəticələr göstərdi ki, hətta 2B ölçüsündə belə, VideoMind hələ də digər 7B ölçülü modellərin çoxu ilə müqayisə edilə bilən performans göstərdi.

Professor Çen deyib: “İnsanlar videoları başa düşərkən müxtəlif düşüncə rejimləri arasında dəyişirlər: tapşırıqları parçalayır, müvafiq məqamları müəyyənləşdirir, təfərrüatları təsdiqləmək üçün bunlara yenidən baxır və öz müşahidələrini ardıcıl cavablar şəklində sintez edir. Proses insan beyninin yalnız təxminən 25 vatt gücündən istifadə etməsi ilə çox səmərəlidir ki, bu da superkompüter gücünə malik superkompüterin gücündən təxminən bir milyon dəfə aşağıdır.

“Bundan ilhamlanaraq, biz bu prosesdə hesablama gücü və yaddaş ehtiyacını minimuma endirmək üçün LoRA zənciri strategiyasından istifadə etməklə, süni intellektə insan kimi videoları başa düşməyə imkan verən rol əsaslı iş axını hazırladıq.”

Süni intellekt qlobal texnoloji inkişafın əsasını təşkil edir. Bununla belə, AI modellərinin inkişafı qeyri-kafi hesablama gücü və həddindən artıq enerji istehlakı ilə məhdudlaşır. Vahid, açıq mənbəli Qwen2-VL modeli üzərində qurulmuş və əlavə optimallaşdırma alətləri ilə genişləndirilmiş VideoMind çərçivəsi süni intellekt modellərində enerji istehlakının azaldılması darboğazına mümkün həll yolu təklif edərək, texnoloji xərcləri və yerləşdirmə həddini aşağı salıb.

Professor Çen əlavə etdi ki, “VideoMind yalnız AI modellərinin video emalında performans məhdudiyyətlərini aradan qaldırmır, həm də modul, miqyaslı və şərh edilə bilən multimodal əsaslandırma çərçivəsi kimi xidmət edir. Biz onun generativ süni intellektin tətbiqini müxtəlif sahələrə, məsələn, intellektual nəzarət, idman və əyləncə video təhlili və daha çox video axtarış sistemlərinə genişləndirəcəyini düşünürük.”

Daha çox məlumat: Ye Liu et al, VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning, arXiv (2025). DOI: 10.48550/arxiv.2503.13444

Jurnal məlumatı: arXiv Honq Konq Politexnik Universiteti tərəfindən təmin edilmişdir 

Download QRPrint QR

Leave a comment

Sizin e-poçt ünvanınız dərc edilməyəcəkdir. Gərəkli sahələr * ilə işarələnmişdir