В Казахстане завершили разработку большой языковой модели KazLLM
В Казахстане завершено обучение большой языковой модели KazLLM на основе 148 миллиардов токенов на казахском, английском, русском и турецком языках. Модель разработана командой Института Умных Систем и Искусственного Интеллекта (ISSAI) при Nazarbayev University при поддержке и координации МЦРИАП РК и МНВО РК.
Данная модель будет доступна широкому кругу пользователей, включая научное сообщество, стартапы и крупные корпорации. В соответствии с инициативой Главы Государства, KazLLM станет основой для создания более масштабного проекта — TurkLLM, направленного на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соответствующее соглашение было подписано на прошедшем саммите ОТГ.
Свой вклад в реализацию этого проекта внесли такие лингвистические институты и научно-производственные организации, как Тил Казына, АО «НИТ», Maqsut Narikbayev University и др. институты.
Модель была обучена на базе 148 миллиардов токенов. Создано две версии с 8 миллиардами и 70 миллиардами параметров. Они служат основой для разработки новых продуктов в сфере искусственного интеллекта и превосходит аналогичные модели по качеству и точности.
На первом этапе KazLLM будет доступна в открытом доступе для разработчиков, стартапов и компаний, чтобы стимулировать создание продуктов и сервисов на ее основе. Подготовлены подробные инструкции, которые помогут быстро интегрировать модель в различные проекты.
Ключевыми партнерами в создании национальной языковой модели стали Beeline Казахстан и его ИТ-компания QazCode. Объединив усилия и опыт в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп в партнерстве с зарубежными организациями, компании сыграли важную роль в создании инновационной и доступной модели для казахстанцев. Поддержка в виде предоставленного сервера с вычислительными мощностями 8 DGX H100 значительно ускорили процесс обучения и расширили возможности модели.
Для сравнения: обычному компьютеру нужно несколько дней, чтобы проанализировать архив из 1 миллиона фотографий. В то время как 8 серверов DGX H100, используемых для тренировки KAZ-LLM, справятся с этой задачей всего за несколько секунд.
Национальная модель даст возможность бизнесу разработать чат-боты, системы поддержки клиентов, автоматизировать документооборот и проводить анализ данных. Например, локальные банки смогут ускорить обработку запросов на казахском языке, а ритейл — улучшить пользовательский опыт за счет внедрения модели в свои процессы. Образовательные и научные учреждения смогут создать приложения для обучения казахскому языку, а также инструменты для анализа научных текстов и помощи студентам. Для тех, кто занимается медиа и контентом появится возможность генерировать новости, улучшать качество перевода и создавать инструменты для написания текстов.
Ссылка для использования KazLLM: https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362