Google-un Əkizləri: Yeni AI modeli həqiqətən ChatGPT-dən yaxşıdır?

Google Deepmind bu yaxınlarda OpenAI-nin ChatGPT ilə rəqabət aparacaq yeni süni intellekt modeli Gemini-ni elan etdi . Hər iki model yeni məlumatlar (şəkillər, sözlər və ya digər media) yaratmaq üçün daxilolma təlimi məlumatlarının nümunələrini tapmağı öyrənən “generativ süni intellekt” nümunələri olsa da, ChatGPT mətn istehsalına yönəlmiş böyük dil modelidir (LLM).

ChatGPT-nin GPT kimi tanınan neyron şəbəkəsinə əsaslanan söhbətlər üçün veb tətbiqi olduğu kimi (böyük həcmdə mətn üzərində təlim keçmişdir), Google-un Bard adlı danışıq veb proqramı var . dialoq). Lakin Google indi Əkizlər əsasında bunu təkmilləşdirir.

Gemini-ni LaMDA kimi əvvəlki generativ süni intellekt modellərindən fərqləndirən cəhət onun “çox modal model” olmasıdır. Bu o deməkdir ki, o, birbaşa giriş və çıxışın çoxsaylı rejimləri ilə işləyir: mətn daxiletmə və çıxışı dəstəkləməklə yanaşı, şəkilləri, audio və videoları dəstəkləyir. Müvafiq olaraq, yeni bir abbreviatura yaranır: LMM (böyük multimodal model), LLM ilə qarışdırılmamalıdır.

Sentyabr ayında OpenAI, şəkillər, audio və mətnlə də işləyə bilən GPT-4Vision adlı modeli elan etdi . Bununla belə, Əkizlərin vəd etdiyi şəkildə tam multimodal model deyil.

Məsələn, GPT-4V ilə təchiz edilmiş ChatGPT-4 audio girişləri ilə işləyə və nitq çıxışları yarada bildiyi halda, OpenAI bunun Whisper adlı başqa bir dərin öyrənmə modelindən istifadə edərək girişdə nitqi mətnə çevirməklə həyata keçirildiyini təsdiqləyib . ChatGPT-4 həmçinin fərqli bir modeldən istifadə edərək mətni çıxışda nitqə çevirir, yəni GPT-4V özü sırf mətnlə işləyir.

https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=135&slotname=2793866484&adk=675901022&adf=1873531024&pi=t.ma~as.2793866484&w=540&fwrn=4&lmt=1709711585&rafmt=11&format=540×135&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2023-12-google-gemini-ai-chatgpt.html&wgl=1&uach=WyJXaW5kb3dzIiwiMTUuMC4wIiwieDg2IiwiIiwiMTIyLjAuNjI2MS45NSIsbnVsbCwwLG51bGwsIjY0IixbWyJDaHJvbWl1bSIsIjEyMi4wLjYyNjEuOTUiXSxbIk5vdChBOkJyYW5kIiwiMjQuMC4wLjAiXSxbIkdvb2dsZSBDaHJvbWUiLCIxMjIuMC42MjYxLjk1Il1dLDBd&dt=1709710980760&bpp=1&bdt=305&idt=133&shv=r20240304&mjsv=m202402290101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dd8c6cdc5123375cd%3AT%3D1709623025%3ART%3D1709711569%3AS%3DALNI_MY2ynj5TDpMXqOZBx7W90OihbbXuw&gpic=UID%3D00000d6971a748b6%3AT%3D1709623025%3ART%3D1709711569%3AS%3DALNI_MaTILJ6PYHOKRZlSvHcKJ4LkDsnLQ&eo_id_str=ID%3D34d5e14efb6a7c5d%3AT%3D1709623025%3ART%3D1709711569%3AS%3DAA-Afjbw5XrDrmZOIEp3UV8fgvCO&prev_fmts=0x0%2C1519x695&nras=2&correlator=1500968333985&frm=20&pv=1&ga_vid=1833901760.1709623018&ga_sid=1709710981&ga_hid=1533101578&ga_fc=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=1633&biw=1519&bih=695&scr_x=0&scr_y=0&eid=44759876%2C44759927%2C44759842%2C31081643%2C44795922%2C95325753%2C95326315%2C95320378%2C95324160%2C95325784%2C95326914%2C31078663%2C31078665%2C31078668%2C31078670&oid=2&pvsid=244692444996849&tmod=884483725&uas=0&nvt=1&ref=https%3A%2F%2Ftechxplore.com%2Fnews%2F2024-02-ai-tools-dazzling-results-intelligence.html&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C0%2C0%2C1536%2C695&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=0&td=1&psd=W251bGwsbnVsbCwibGFiZWxfb25seV8xIiwxXQ..&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=M

Eyni şəkildə, ChatGPT-4 şəkillər yarada bilər, lakin bunu mətn təsvirlərini şəkillərə çevirən Dall-E 2 adlı ayrıca dərin öyrənmə modelinə ötürülən mətn göstərişləri yaradaraq edir .

Bunun əksinə olaraq, Google Gemini-ni “doğma multimodal” olaraq dizayn etdi. Bu o deməkdir ki, əsas model bir sıra daxiletmə növlərini (audio, şəkillər, video və mətn) birbaşa idarə edir və onları da birbaşa çıxara bilər.

https://youtube.com/watch?v=UIZAiXYceBI%3Fcolor%3Dwhite

Hökm

Bu iki yanaşma arasındakı fərq akademik görünə bilər, lakin bu vacibdir. Google-un texniki hesabatından və bu günə qədər apardığı digər keyfiyyət testlərindən əldə edilən ümumi nəticə ondan ibarətdir ki, Gemini 1.0 Pro adlanan cari ictimaiyyətə açıq olan Gemini versiyası ümumiyyətlə GPT-4 qədər yaxşı deyil və imkanlarına görə GPT 3.5-ə daha çox bənzəyir.

Google həmçinin Gemini 1.0 Ultra adlı daha güclü versiyasını elan etdi və onun GPT-4-dən daha güclü olduğunu göstərən bəzi nəticələr təqdim etdi. Ancaq bunu iki səbəbə görə qiymətləndirmək çətindir. Birinci səbəb odur ki, Google hələ Ultra-nı buraxmayıb, ona görə də nəticələr hazırda müstəqil olaraq təsdiq edilə bilməz.

Google-un iddialarını qiymətləndirməyin çətin olmasının ikinci səbəbi, onun bir qədər aldadıcı nümayiş videosu yayımlamağı seçməsidir, aşağıya baxın. Videoda Əkizlər modelinin canlı video axınında interaktiv və axıcı şəkildə şərh etdiyi göstərilir.

Lakin Bloomberg-in ilkin olaraq bildirdiyi kimi , videodakı nümayiş real vaxt rejimində həyata keçirilməyib. Məsələn, model, Əkizlərin topun hansı kubokun altında olduğunu izlədiyi üç fincan və top hiyləsi kimi bəzi xüsusi tapşırıqları əvvəlcədən öyrənmişdi. Bunun üçün ona aparıcının əllərinin dəyişdirilən stəkanların üzərində olduğu hərəkətsiz şəkillərin ardıcıllığı təqdim edilmişdi.

Perspektivli gələcək

Bu problemlərə baxmayaraq, mən inanıram ki, Əkizlər və böyük multimodal modellər generativ süni intellekt üçün irəliyə doğru son dərəcə maraqlı addımdır. Bu həm onların gələcək imkanlarına, həm də AI alətlərinin rəqabətədavamlı mənzərəsinə görədir. Əvvəlki məqalədə qeyd etdiyim kimi, GPT-4 təxminən 500 milyard söz üzərində öyrədilmişdir – mahiyyətcə bütün keyfiyyətli, ictimaiyyətə açıq mətn .

Dərin öyrənmə modellərinin performansı ümumiyyətlə artan model mürəkkəbliyi və təlim məlumatlarının miqdarı ilə idarə olunur. Bu, dil modelləri üçün yeni təlim məlumatlarımız demək olar ki, tükəndiyi üçün əlavə təkmilləşdirmələrə necə nail oluna biləcəyi sualına səbəb oldu. Bununla belə, multimodal modellər şəkillər, audio və videolar şəklində təlim məlumatlarının böyük yeni ehtiyatları açır.

Bütün bu məlumatlara birbaşa öyrədilə bilən Əkizlər kimi süni intellektlərin gələcəkdə daha böyük imkanlara sahib olacağı ehtimalı var. Məsələn, mən gözləyərdim ki, video üzərində öyrədilmiş modellər “sadəlövh fizika” adlanan şeyin mürəkkəb daxili təsvirlərini inkişaf etdirəcək. Bu, insanların və heyvanların səbəbiyyət, hərəkət, cazibə və digər fiziki hadisələr haqqında əsas anlayışıdır.

Bunun süni intellektin rəqabətli mənzərəsi üçün nə demək olduğu məni də həyəcanlandırır. Keçən il ərzində bir çox generativ süni intellekt modellərinin yaranmasına baxmayaraq, OpenAI-nin GPT modelləri üstünlük təşkil edərək, digər modellərin yaxınlaşa bilmədiyi performans səviyyəsini nümayiş etdirdi.

https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=135&slotname=2793866484&adk=675901022&adf=1897700409&pi=t.ma~as.2793866484&w=540&fwrn=4&lmt=1709711602&rafmt=11&format=540×135&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2023-12-google-gemini-ai-chatgpt.html&wgl=1&uach=WyJXaW5kb3dzIiwiMTUuMC4wIiwieDg2IiwiIiwiMTIyLjAuNjI2MS45NSIsbnVsbCwwLG51bGwsIjY0IixbWyJDaHJvbWl1bSIsIjEyMi4wLjYyNjEuOTUiXSxbIk5vdChBOkJyYW5kIiwiMjQuMC4wLjAiXSxbIkdvb2dsZSBDaHJvbWUiLCIxMjIuMC42MjYxLjk1Il1dLDBd&dt=1709710980761&bpp=1&bdt=306&idt=133&shv=r20240304&mjsv=m202402290101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dd8c6cdc5123375cd%3AT%3D1709623025%3ART%3D1709711569%3AS%3DALNI_MY2ynj5TDpMXqOZBx7W90OihbbXuw&gpic=UID%3D00000d6971a748b6%3AT%3D1709623025%3ART%3D1709711569%3AS%3DALNI_MaTILJ6PYHOKRZlSvHcKJ4LkDsnLQ&eo_id_str=ID%3D34d5e14efb6a7c5d%3AT%3D1709623025%3ART%3D1709711569%3AS%3DAA-Afjbw5XrDrmZOIEp3UV8fgvCO&prev_fmts=0x0%2C1519x695%2C540x135%2C1005x124&nras=3&correlator=1500968333985&frm=20&pv=1&tl=az&ga_vid=1833901760.1709623018&ga_sid=1709710981&ga_hid=1533101578&ga_fc=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=3609&biw=1519&bih=695&scr_x=0&scr_y=882&eid=44759876%2C44759927%2C44759842%2C31081643%2C44795922%2C95325753%2C95326315%2C95320378%2C95324160%2C95325784%2C95326914%2C31078663%2C31078665%2C31078668%2C31078670&oid=2&psts=AOrYGsl6J8RV-TteA5kes_tU0fgffyVi9MdMz7fU0-WIJKgIRXWl6105gdQTp6Ok798UXyV-ZUYMaTg835PIsymmdLNjsYWuqELbAS_fVH6_3e_Q%2CAOrYGsnwqHEdzFFz7rjVlCcyHMV5ux1BkiQnCUtm-YTSNkIsyAkfdqiZVbSV0qzDpYdrU7HUhlqzoWUN3cSf70tgp6c&pvsid=244692444996849&tmod=884483725&uas=3&nvt=1&ref=https%3A%2F%2Ftechxplore.com%2Fnews%2F2024-02-ai-tools-dazzling-results-intelligence.html&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C1536%2C816%2C1536%2C695&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&psd=W251bGwsbnVsbCwibGFiZWxfb25seV8xIiwxXQ..&nt=1&ifi=3&uci=a!3&btvi=3&fsb=1&dtd=M

Google-un Əkizləri, sahəni irəli aparmağa kömək edəcək böyük bir rəqibin ortaya çıxmasından xəbər verir. Əlbəttə ki, OpenAI, demək olar ki, GPT-5 üzərində işləyir və onun da multimodal olacağını və əlamətdar yeni imkanlar nümayiş etdirəcəyini gözləmək olar.

Bütün deyilənlər, mən açıq mənbəli və qeyri-kommersiya xarakterli çox böyük multimodal modellərin ortaya çıxmasını görməkdə maraqlıyam, ümid edirəm ki, yaxın illərdə yolda olacaqlar.

Əkizlərin həyata keçirilməsinin bəzi xüsusiyyətlərini də bəyənirəm. Məsələn, Google daha yüngül və birbaşa mobil telefonlarda işləyə bilən Gemini Nano versiyasını elan etdi.

Bu kimi yüngül modellər süni intellekt hesablamalarının ətraf mühitə təsirini azaldır və məxfilik baxımından bir çox üstünlüklərə malikdir və mən əminəm ki, bu inkişaf rəqiblərin buna uyğun gəlməsinə səbəb olacaq.The Conversation tərəfindən təmin edilmişdir

Bu məqalə Creative Commons lisenziyası ilə The Conversation- dan yenidən nəşr edilmişdir . Orijinal məqaləni oxuyun .

Pozitivlikdən qaynaqlanan cazibə qüvvəsi:...

Attosaniyədə zaman şkalasında tutulan...

Bir protein hər iki...

Bu kiçik orqanizm sadəcə...

Vera C. Rubin Rəsədxanasının...

Artemis II Günəş hissəcikləri...