АйтарлықIT

NU ISSAI және DeepSeek: серпінді болашақты ЖИ арқылы қайта құру

Ақпарат ағыны

30 янв. 2025 г. • 3 min read

ISSAI NU суреттерді, мәтінді және дыбысты өңдеугеқабілетті DeepSeek архитектурасынан шабыттанғанмультимодальды сирек модельді құруға ниетті

Қытайлық DeepSeek компаниясы ұсынған жаңа ЖИ үлгілері - DeepSeek-V3 және DeepSeek-R1 - жасандыинтеллект әлеміндегі улкен серпіліс ретінде бағаланды. Кейбір аспектілері бойынша OpenAI үлгілерінен асыптүсетін бұл технологиялар ашық қол жетімді және Кейбірмүмкіндіктері бойынша OpenAI-дан асып түсетінтехнологиялар жалпыға қолжетімді болып, бүкіл әлембойынша ірі технологиялық компаниялар үшін лайықтыбәсеке болды. Nazarbayev University (NU) жанындағыАқылды жүйелер мен жасанды интеллект институты (ISSAI) да Қазақстанның қажеттіліктеріне бейімделгенЖИ шешімдерін әзірлеу үшін осы үлгілерді зерттепжатыр.

NU ISSAI бас директоры, доктор Атакан Варолдыңайтуынша, қытайлық модельді белгілі бір тапсырмағабейімдеу үшін, мысалы, қазақ тілін жақсы түсінуі немесежоғары мамандандырылған салаларда жұмыс істеуіүшін, оны одан әрі дербес оқыту қажет. Қытайлықкомпания үлгіні дәл баптау әдісін ашпады.

“Қазір дүние жүзіндегі көптеген зерттеу топтарыDeepSeek-R1 моделін әрі қарай қалай үйретукеректігін, оның негізінде неғұрлым жетілдірілгеннемесе бейімделген үлгілерді қалай жасау керектігінтүсінуге тырысуда. ISSAI NU зерттеу тобы да осы мақсатқа ұмтылуда; Біздің зерттеушілер үлгінің блок- блокпен бөлшектеп қарастыруда, оның қалай жұмысістейтінін түсіну үшін және осы архитектураныпайдалана отырып, ISSAI генеративті ЖИ үлгілерініңкелесі буынын оқытуды жоспарлауда, - деді доктор Атакан Варол Институттың кейбір жоспарларыменбөлісе отырып.

Жақында институт Oylan тіл-визуалды моделін сынақтанөткізді. Оның мәтіндерді өңдейтін KAZ-LLM-денайырмашылығы - суреттермен және мәтінмен жұмысістейді. Команданың жинақталған тәжірибесімультимодальды әмбебап үлгіні жасауға көмектеседі.

“Мультимодальды сирек генеративті ЖИI моделіндебіз Mixture of Experts деп аталатын тиімді DeepSeekархитектурасын пайдалануды жоспарлап отырмыз.DeepSeek-R1 әзірше тек мәтіндік деректермен жұмысістей алады, бірақ біздің модель, егер сәтті болса, болашақта мәтінді, суретті және дыбысты қабылдайалады. Осылайша, біз кез келген кіріс деректерін өңдейалатын және мазмұнның кез келген түрін жасайалатын әмбебап мультимодальды генеративті ЖИ құралын жасағымыз келеді. Бұл қазіргі уақытта ЖИ жарысының қалаулы мақсаты болып саналады», - дедіпрофессор Варол.

Дегенмен, жаңа үлгілерді жасау жеткіліксіз, сонымен қатар оларды басқару және оларды көпшілікке қолжетімді ету үшін қосымша есептеу қуаты қажет. Мысалы, Oylan үлгісінің пилоттық нұсқасы бір ғанаNVIDIA A100 серверінде жұмыс істеп тұр, бұл бір уақыттатек 20 адамға ғана пайдалануды шектейді.

“Біздің мақсатымыз - алдымен институт үшінресурстарды алу: есептеу қуаты мен операциялықшығындарға қаражат. Содан кейін біз ЖИ жарысынақосылуды және тиімді архитектураны пайдаланаотырып, суретті, мәтінді және дыбысты өңдеудібіріктіретін мультимодальды сирек модель жасаудыжоспарлап отырмыз. Бұл бізге орналастырушығындарын азайта отырып, жасанды генеративтіинтеллект құруға мүмкіндік береді. Бірақ біз осы ауқымды тапсырманың бір бөлігі ғана болыптабылатын модельді жасасақ та, тағы бір маңыздымәселе қалады: мұндай модельдерді оқыту жәнеауқымды пайдалану әлі де есептеу қуатын талапетеді», - деп қосты профессор.

ISSAI-дың KAZLLM моделі Қазақстанға өздерінің тілдікжәне мәдени ерекшеліктеріне бейімделген ірі тілдікүлгілерді жасаған 20-ға жуық елдің қатарына қосылуғамүмкіндік берді. Oylan-ның іске қосылуымен Қазақстанозық лингвистикалық-визуалды ЖИ үлгілерін әзірлеуүшін техникалық тәжірибесі мен интеллектуалдық әлеуеті бар елдердің қатарына қосылды. Суреттерді, мәтінді және дыбысты оңай өңдей алатын сирекмультимодальды ЖИ үлгілері осы жылы пайда боладыдеп күтілуде. Қазақстан осындай технологияға иеелдердің біріне айналса, цифрлық егемендікті сақтауғажәне жаһандық цифрлық кеңістікте бәсекегеқабілеттілікті арттыруға толық мүмкіндігі бар.

TSARKA қолдауымен