NU ISSAI изучает DeepSeek и создает свою мультимодальную ИИ-модель

NU ISSAI изучает DeepSeek и создает свою мультимодальную ИИ-модель


Представленные китайской компанией DeepSeek новые модели ИИ — DeepSeek-V3 и DeepSeek-R1— названы прорывом в мире искусственного интеллекта. Технологии, по некоторым возможностям превосходящие OpenAI, выложены в открытый доступ, став вызовом для других разработчиков. Команда ISSAI при NU также изучает платформы, чтобы создать собственные ИИ продукты, адаптированные для потребностей Казахстана. 

Как сообщил Генеральный директор Института умных систем искусственного интеллекта при NU (ISSAI) доктор Атакан Варол, для адаптации последней нашумевшей модели под определенную задачу, например, чтобы она лучше понимала казахский язык или работала в узкоспециализированных областях — нужно дообучать ее самостоятельно. Дело в том, что китайская компания не раскрыла методику тонкой настройки модели. 

“Сейчас многие исследовательские группы по всему миру пытаются понять, как обучить модель DeepSeek-R1 дальше, как создать на ее основе более совершенные или адаптированные модели. Мы также стремимся решить эту задачу, детально разбираем ее блок за блоком, чтобы понять, как она работает, и разработать следующее поколение генеративных ИИ-моделей”, – поделился частью планов Института доктор Атакан Варол.

Недавно институт представил в пилотном режиме модель языкового зрения Oylan, которая в отличие от KAZ-LLM, обрабатывающей текстовые запросы, работает с изображением и текстом. Накопленный командой опыт поможет в создании мультимодальной универсальной модели. 

“В мультимодальной разреженной генеративной ИИ-модели (multimodal sparse model) планируем использовать эффективную архитектуру DeepSeek, так называемую Mixture of Experts, но с важным отличием. DeepSeek-R1 пока может работать только с текстовыми данными, а наша модель в будущем, если мы преуспеем, сможет воспринимать текст, изображения и аудио, а также генерировать текст, изображения и аудио. Таким образом, мы хотим создать универсальный мультимодальный генеративный ИИ-инструмент, способный обрабатывать любые входные данные и генерировать любые типы контента. В данный момент это считается «Святым Граалем» гонки в сфере искусственного интеллекта”, – отметил профессор Варол.

Однако, недостаточно создавать новые модели, нужны также дополнительные вычислительные мощности для управления ими и предоставления доступа широкому кругу людей. К примеру, пилотная версия Oylan работает только на одном сервере NVIDIA A100, ограничивая одновременное использование лишь до 20 человек. 

“Наша цель — сначала получить ресурсы для Института: вычислительные мощности и средства на операционные расходы. Затем мы планируем принять участие в гонке искусственного интеллекта и создать мультимодальную разреженную модель, которая объединит обработку изображений, текста и аудио, используя эффективную архитектуру. Это позволит нам приблизиться к созданию искусственного общего интеллекта (AGI) с более низкими затратами на развертывание. Но даже если мы создадим модель, что лишь часть этой масштабной задачи, остается другая важная проблема: для обучения и масштабного использования таких моделей по-прежнему необходимы вычислительные мощности”, – добавил профессор. 

Создание KAZLLM исследователями ISSAI позволило Казахстану войти в число примерно 20 стран, разработавших крупные языковые модели, адаптированные к своим языковым и культурным особенностям. С недавним запуском Oylan Казахстан присоединился к числу стран, обладающих техническими компетенциями и интеллектуальным потенциалом для разработки передовых языково-визуальных моделей ИИ. Ожидается, что уже в этом году появятся разреженные мультимодальные модели ИИ, способные легко обрабатывать изображения, текст и аудио. Если Казахстан станет одной из стран с такой технологией, то у нее есть все шансы сохранить цифровой суверенитет и повысить конкурентоспособность в глобальном цифровом пространстве.