Möhkəmləndirici öyrənmə yeni diffuziya əsaslı dil modelində düşünmə bacarıqlarını artırır d1

Meta AI-dən olan həmkarı ilə işləyən Los-Ancelesdəki Kaliforniya Universitetində süni intellekt üzrə tədqiqatçılar qrupu gücləndirici öyrənmənin istifadəsi ilə təkmilləşdirilmiş diffuziya-böyük dil-model əsaslı çərçivə olan d1-i təqdim etdi. Qrup arXiv preprint serverində öz işlərini və yeni çərçivənin xüsusiyyətlərini təsvir edən bir məqalə yerləşdirdi .
Son bir neçə il ərzində LLM-lərin istifadəsi sürətlə artdı, dünyada milyonlarla insan müxtəlif tətbiqlər üçün AI proqramlarından istifadə edir. Bu, kompüter intensiv tətbiqləri ilə işləyən məlumat mərkəzlərini gücləndirmək üçün böyük miqdarda elektrik enerjisinə olan ehtiyaca səbəb oldu. Tədqiqatçılar istifadəçi cəmiyyətinə süni intellekt xidmətləri göstərməyin başqa yollarını axtarırlar. Belə yanaşmalardan biri dLLM-lərin əvəzedici və ya tamamlayıcı yanaşma kimi istifadəsini nəzərdə tutur.
Diffuziya əsaslı LLM-lər (dLLM) cavablara LLM-lərdən fərqli olaraq gələn AI modelləridir. Avtoreqressiv yanaşma yerinə, cavab tapmaq üçün diffuziyadan istifadə edirlər. Bu cür modellər əvvəlcə təsvirlər yaratmaq üçün istifadə olunurdu – onlara təsvirə həddindən artıq səs-küy əlavə etməklə bunu necə edəcəyini öyrədirdilər və sonra modeli orijinal təsvirdən başqa heç nə qalmayana qədər prosesi tərsinə çevirməyi öyrədirdilər.
Mətn üçün bu yanaşmadan istifadə etmək, piksellər üçün analoq kimi hərfləri və ya sözləri tokenlərə çevirməyi nəzərdə tuturdu. Nəticə, maska xüsusiyyətlərindən başqa heç bir şey qalmayana qədər tokenləri yavaş-yavaş silmək üçün səs-küy üçün analoq kimi maskalardan istifadə edən, sonra tokenlərdən başqa heç nə olmayana qədər prosesi tərsinə çevirmək üçün modeli öyrədən bir model oldu. Bu yanaşmanın üstünlüyü ondan ibarətdir ki, o, LLM-lərdən daha az hesablama gücü tələb edə bilər.

dLLM-lərdən istifadəni dayandırmaq onların aşağı düşünmə qabiliyyətləri olmuşdur. Kaliforniyadakı komandanın işə başladığı yer budur. Onlar düşünmə qabiliyyətini təkmilləşdirmək üçün dLLM-ə gücləndirici öyrənmə (modellərin mükafatlardan istifadə etməklə öyrəndikləri) əlavə etmək üçün çalışırlar .
d1 qurmaq üçün komanda iki addımlı bir proses əlavə etdi. İlk addım yüksək keyfiyyətli məlumatlardan istifadə edərək təlim verilənlər bazasının nəzarət edilən dəqiq tənzimlənməsini əhatə edirdi. İkincisi, komandanın “təsadüfi tez maskalama” adlandırdığı şeylə yanaşı, yüksək səviyyəli təxminlər etmək üçün riyaziyyat prinsiplərindən istifadə edən diffu-GRPO adlı alqoritmi əlavə etməklə gücləndirici öyrənmədən istifadə edir.
d1-in sınağı indiyə qədər yanaşmanın işlədiyini göstərdi – çərçivədən istifadə edən modellər bəzi riyaziyyat və məntiqi əsaslandırma meyarlarından üstün oldu. Tədqiqat qrupu təklif etdikləri dəyişiklikləri daxil etmək üçün süni intellekt modellərini uyğunlaşdırmağı seçə biləcək digər qurumlar tərəfindən onların çərçivəsinin sınaqdan keçirilməsinə hazır olduğunu təklif edir.
Daha çox məlumat: Siyan Zhao et al, d1: Gücləndirici Öyrənmə vasitəsilə Diffuziya Böyük Dil Modellərində Ölçmə Mülahizələri, arXiv (2025). DOI: 10.48550/arxiv.2504.12216
Jurnal məlumatı: arXiv
© 2025 Science X Network