Большие языковые модели: Революция ИИ и новый этап цифровой эры

Рустем Бигари

29 окт. 2024 г. • 5 min read

В последние годы большие языковые модели (LLM — Large Language Models) стали основой многих инновационных решений в области искусственного интеллекта. Они демонстрируют высокий уровень понимания и генерации текста, открывая новые горизонты для цифровых технологий. В этом контексте актуальной задачей для Казахстана становится создание и развитие больших языковых моделей, способных поддерживать и продвигать казахский язык в цифровом пространстве.

Что такое большие языковые модели?

Большие языковые модели представляют собой искусственные нейронные сети, обученные на огромных объемах текстовых данных. Эти модели могут выполнять широкий спектр задач: от генерации связного текста и ответов на вопросы до перевода, анализа тональности и автоматического реферирования документов. Развитие таких моделей позволяет ИИ приближаться к более естественному взаимодействию с людьми.

Почему важна казахская языковая модель?

Для сохранения языкового и культурного наследия Казахстана крайне важно, чтобы казахский язык был представлен в цифровой среде. Без качественной языковой модели казахский язык рискует остаться на периферии технологических достижений, что усложнит его использование в будущем. Большая казахская языковая модель поможет в решении сразу нескольких задач:

1. Развитие казахоязычных сервисов — от голосовых ассистентов и чат-ботов до поисковых систем.

2. Поддержка образования — создание автоматических переводчиков и коррекционных систем для студентов и преподавателей.

3. Повышение интереса к изучению языка — интеграция казахского языка в популярные приложения и игры.

4. Государственная поддержка и документооборот — автоматизация переводов и анализа официальных документов.

Текущие вызовы при создании казахской модели

Создание полноценной большой модели для казахского языка сопряжено с рядом сложностей. Основные из них:

● Недостаток текстовых данных: Казахский язык представлен в цифровой форме гораздо меньше, чем более распространённые языки, такие как английский или русский.

● Многоязычие населения: В Казахстане широко используется русский язык, что создает конкуренцию и ограничивает спрос на казахоязычные цифровые решения.

● Нюансы морфологии: Казахский язык агглютинативен, что усложняет обработку текста для алгоритмов, привыкших работать с флективными языками.

Успешные примеры и перспективы

Несмотря на вызовы, в Казахстане предпринимаются усилия по развитию казахской языковой модели. Инициативы включают проекты с открытым исходным кодом и участие в глобальных научных коллаборациях. Большая казахская языковая модель может стать не только инструментом для улучшения пользовательского опыта, но и драйвером для инновационного развития экономики.

Среди перспективных направлений использования модели:

● Государственное управление: Автоматический анализ и генерация отчетов на казахском языке.

● Образование: Чат-боты и обучающие системы, адаптированные под культурные и языковые особенности Казахстана.

● Медиа и маркетинг: Генерация уникального контента и автоматический перевод новостных лент.

● Социальные сети и развлечения: Персонализированные рекомендации и улучшение взаимодействия пользователей в мессенджерах.

Путь вперед

Для успешной реализации казахской языковой модели необходимы инвестиции в науку, сотрудничество между государственными органами и частными компаниями, а также активное участие сообщества разработчиков и лингвистов. Становится очевидным, что развитие таких технологий будет способствовать укреплению казахского языка в обществе и его популяризации среди молодежи.

Создание и развитие казахской языковой модели также имеет стратегическое значение для обеспечения цифрового суверенитета страны. В будущем Казахстан сможет не только использовать модели на основе ИИ, но и экспортировать свои решения на другие рынки, демонстрируя пример эффективного интеграции культуры и технологий.

В Казахстане ведется активная работа по созданию и развитию казахской языковой модели, направленной на поддержку и продвижение государственного языка в цифровой среде. Одним из ключевых проектов является IrbisGPT — первая национальная языковая модель с открытым исходным кодом, которая уже доступна для использования. Модель обучалась на 20 гигабайтах данных, включая статьи и новости на казахском языке. Тем не менее, разработчики подчеркивают необходимость в дополнительных данных от государственных органов для дальнейшего совершенствования проекта

Еще одним значимым проектом является KazLLM, разрабатываемый Назарбаев Университетом и АО «Национальные информационные технологии». Цель проекта — создать масштабную модель на основе 100 миллиардов токенов, используя данные из государственных архивов и других источников. Для сбора необходимых текстовых данных планируется национальная кампания на платформе Hugging Face. Первая версия KazLLM ожидается уже к концу 2024 года, а в долгосрочной перспективе проект призван поддерживать не только язык, но и ИИ-инновации в стране

Роль консорциумов в разработке KazLLM

Ключевую роль в развитии больших языковых моделей в Казахстане играют консорциумы — объединения университетов, частных компаний и государственных организаций. Эти партнерства позволяют использовать синергетический подход к созданию инфраструктуры и сбору данных.

В рамках проекта Всемирного банка KazLLM был создан Центр компетенций, объединяющий всех участников консорциума: АО “Национальные информационные технологии”, Центр поддержки цифрового правительства и Тіл-Қазына.

Сбор и подготовка данных

Для разработки KazLLM организован масштабный сбор данных на базе АО «НИТ», которое выделило специальное хранилище данных. На данный момент собрано более 1,5 млрд слов на казахском языке. В процессе сбора задействованы следующие источники:

● 5 языковых НИИ

● 6 прочих НИИ

● 61 университет

● 22 государственных органа

● Частные компании и организации, такие как Документолог, Yandex, Ikomek и Общество «Қазақ тілі».

Для расширения корпуса данных письма направлены во все государственные и квазигосударственные органы, а также в организации, где могут находиться релевантные датасеты, например, Книжную палату и Казахскую энциклопедию.

Проводится работа в Национальной библиотеке, где в электронный формат оцифровываются книги и периодическая литература на казахском языке. Проведен анализ 553 591 файла, включающих 205 481 557 словоупотреблений, с целью их классификации по тематическим категориям. В ходе работы выявлено и расшифровано 3001 аббревиатура и разработан алгоритм деперсонификации данных на основе Named EntityRecognition (NER).

Лингвистический анализ и подготовка токенайзеров

Для лингвистического анализа применены NLP-системы с открытым исходным кодом, такие как UDPipe и Stanza, для токенизации и разметки текстов. Корпус данных включает 153 760 предложений из 1 512 документов, содержащих материалы с платформы eGov.kz. Проведенный анализ подтвердил высокую морфологическую сложность казахского языка: показатель Morphemes per Word (MPW) составил более 2.5, что указывает на сложную структуру слов в языке.

Также был проведен анализ Type-To-Token Ratio (TTR) и Named Entity to Token Ratio (NTR) для оценки лексического разнообразия. По частоте использования лидируют географические названия, юридические термины и контактная информация.

В рамках подготовки модели подобраны и обучены два токенайзера: Moses Tokenizer для предварительной обработки данных и основной токенайзер на основе Byte-Pair Encoding (BPE). Эти токенайзеры оптимизированы под задачи проекта для повышения эффективности обработки данных

Обучение и тестирование модели

Для обучения KazLLM исследованы различные фреймворки и стратегии, включая Axolotl и Unsloth, что позволило ускорить обучение модели. В процессе используются методы дообучения, такие как LoRA и QLoRA. На базе консорциума подготовлена стратегия сбора дополнительных данных и начато обучение модели на LLAMA-3. Ожидается, что модель пройдет тестирование с использованием популярных метрик (BLEU, ROUGEL, METEOR) и наборов данных для проверки функциональности, таких как ARC, BoolQ и MATH.

Эти проекты — лишь начало масштабного плана по развитию ИИ и внедрению его в различные секторы экономики. Государство также создало Комитет искусственного интеллекта и развития инноваций для поддержки подобных инициатив, акцентируя внимание на этичном использовании ИИ и создании условий для роста предпринимательской активности в ИТ-сфере.я

Заключение

Большие языковые модели становятся фундаментом новой цифровой реальности, в которой языки и технологии идут рука об руку. Казахстан, развивая свою собственную казахскую языковую модель, получает уникальную возможность сохранить свое культурное наследие и ускорить технологическое развитие. Этот путь требует усилий, но он обещает принести значительные плоды как для общества, так и для экономики страны.