Inception и MBZUAI представили SHERKALA – революционную языковую модель для казахского языка

Inception (G42), ведущий разработчик AI-решений, совместно с Университетом Искусственного Интеллекта Мохаммеда бин Зайеда (MBZUAI) и при поддержке Cerebras объявили о запуске SHERKALA – первой высокоточной казахской языковой модели (LLM). Этот инновационный проект направлен на расширение возможностей более 13 миллионов носителей казахского языка, обеспечивая им доступ к передовым технологиям генеративного ИИ.
SHERKALA – модель с 8 миллиардами параметров, обученная на 45 миллиардах слов, с основным фокусом на казахском языке, а также поддержкой английского, русского и турецкого. Она использует Llama 3.1, адаптированную для казахского языка, с расширением токенизатора на 25%, что повышает эффективность понимания и генерации текста. Обучение модели проходило на Condor Galaxy, одном из самых мощных суперкомпьютеров для ИИ, созданном G42 и Cerebras.
Др. Эндрю Джексон, CEO Inception (G42), отметил:
SHERKALA задает новый уровень для казахских языковых моделей, отлично справляясь с пониманием и созданием текстов. Благодаря эффективной работе с токенами и продвинутым диалоговым возможностям, она обходит более крупные модели, включая те, что в несколько раз превышают её по параметрам.
Профессор Преслав Наков, заведующий кафедрой и профессор обработки естественного языка в MBZUAI, заявил:
SHERKALA теперь доступна как open-source модель на Hugging Face: SHERKALA на Hugging Face