Қазақстанда KazLLM үлкен тілдік моделін әзірлеу аяқталды

Қазақстанда KazLLM үлкен тілдік моделін қазақ, ағылшын, орыс және түрік тілдеріндегі 148 миллиард токен негізінде үйрету аяқталды. Модель Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институты (ISSAI) командасымен МЦРИАП және МНВО Қазақстан Республикасы министрліктерінің қолдауы және үйлестіруімен жасалды.

Бұл модель ғылыми қауымдастыққа, стартаптарға және ірі корпорацияларға, соның ішінде кең ауқымды пайдаланушыларға қолжетімді болады. Мемлекет басшысының бастамасына сәйкес, KazLLM тюркітілдес кеңістіктегі табиғи тілді өңдеу технологияларын дамытуға бағытталған TurkLLM жобасын құрудың негізі болмақ. Бұл туралы тиісті келісім ОТГ саммитінде жасалды.

Осы жобаны іске асыруға Тіл Қазына, «НИТ» АҚ, Мақсұт Нарикбаев атындағы университет сияқты лингвистикалық институттар мен ғылыми-өндірістік ұйымдар үлес қосты.

«KazLLM моделін ашық кодпен іске қосу Қазақстанның жасанды интеллект экожүйесін дамытуда маңызды қадам болып табылады. Бұл бастама инновацияларды қолдауға және технологиялық прогреске ықпал ететін ғылыми жетістіктерді ілгерілетуге деген ұмтылысымызды көрсетеді. Бұл озық модель цифрлық теңсіздікті жоюға көмектесіп, әрбір қазақстандық үшін қолжетімді және инклюзивті цифрлық қызметтерді қамтамасыз етеді деп сенемін», – деп атап өтті министр Жаслан Мәдиев.

Модель 148 миллиард токен негізінде дайындалды. 8 миллиард және 70 миллиард параметрлері бар екі нұсқасы жасалды. Олар жасанды интеллект саласындағы жаңа өнімдерді әзірлеуге негіз болады және сапасы мен дәлдігі бойынша ұқсас модельдерден асып түседі.

Алғашқы кезеңде KazLLM әзірлеушілер, стартаптар мен компаниялар үшін ашық қолжетімділікте болады, бұл оның негізінде өнімдер мен қызметтерді құруды ынталандыруға мүмкіндік береді. Әр түрлі жобаларға модельді тез біріктіруге көмектесетін егжей-тегжейлі нұсқаулықтар дайындалды.

«Бұл модель Қазақстанның инновацияларға, тәуелсіздікке және өзінің технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің команда жоғары өнімді жүйелер мен ресурстары шектеулі орталарға оңтайландырылған Meta Llama архитектурасы негізінде 8 миллиард және 70 миллиард параметрлері бар екі KazLLM нұсқасын дайындады. Осылайша, әзірлеушілер біздің модельді күрделі серверлерде де, ноутбуктерде де жүктеп, іске қоса алады», – деді Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институтының директоры, профессор Хусейн Атакан Варол.

Ұлттық тілдік модельді құрудағы негізгі серіктестер Beeline Қазақстан және оның QazCode ИТ-компаниясы болды. Лингвистикалық модельдер, мысалы, Kaz-RoBERTA және шағын тілдік топтарға арналған жасанды интеллект шешімдерін әзірлеу бойынша шетелдік ұйымдармен серіктестікте жұмыс жасау тәжірибесін біріктіре отырып, компаниялар қазақстандықтар үшін инновациялық және қолжетімді модель құруда маңызды рөл атқарды. 8 DGX H100 есептеу қуаты бар серверлерді ұсыну түріндегі қолдау оқыту процесін едәуір жылдамдатып, модельдің мүмкіндіктерін кеңейтті.

Салыстыру үшін: 1 миллион фотосуреттің мұрағатын талдау үшін қарапайым компьютерге бірнеше күн қажет. Ал KazLLM моделін үйрету үшін пайдаланылған 8 DGX H100 сервері бұл тапсырманы бірнеше секундта орындай алады.

«Біздің команда KazLLM моделін әзірлеуге және үйретуге белсенді қатысты. Қазақ тілі ерекшеліктерін ескеретін модельді құру мен 50 күндік есептеулерді қамтитын күрделі процесс контексті жақсырақ түсінуге және пайдаланушылармен сапалы өзара әрекеттесуді қамтамасыз етуге мүмкіндік берді. Тестілеу модельдің техникалық тапсырмаларды тиімді шешетінін және мәдени ерекшеліктерді ескеретінін көрсетті. Біз KazLLM Қазақстан үшін маңызды құралға айналатынына сенімдіміз, бұл тілдік цифрлық кедергіні еңсеруге және аймақтағы цифрлық қызметтердің сапасын жақсартуға көмектеседі», – деп түсіндірді QazCode компаниясының бас директоры Алексей Шаравар.

Ұлттық модель бизнестің чат-боттар, клиенттерді қолдау жүйелерін әзірлеуге, құжат айналымын автоматтандыруға және деректерді талдауға мүмкіндік береді. Мысалы, жергілікті банктер қазақ тіліндегі сұраныстарды өңдеуді жылдамдата алады, ал ритейл процестеріне модельді енгізу арқылы пайдаланушы тәжірибесін жақсартады. Білім беру және ғылыми мекемелер қазақ тілін оқытуға арналған қосымшалар, сондай-ақ ғылыми мәтіндерді талдау және студенттерге көмек көрсету құралдарын жасай алады. Медиа және контент саласында жұмыс істейтіндер жаңалықтар жасауға, аударма сапасын жақсартуға және мәтіндер жазуға арналған құралдарды жасауға мүмкіндік алады.

KazLLM қолдану үшін сілтеме: https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362

TSARKA қолдауымен