Рынок AI-инфраструктуры в Казахстане: инсайты и выводы на IT-беш Servercore в Алматы
В декабре в Алматы прошел бизнес-ужин Servercore, традиционный IT-беш, на котором эксперты рынка рассказывают об IT-инфраструктуре и развитии отрасли. В этот раз фокус встречи был на AI/ML-задачах, облачной инфраструктуре с GPU, основных барьерах и готовности рынка Казахстана к новой волне проектов.
За общим столом собрались представители бизнеса Казахстана из разных отраслей и направлений. Среди них CEO, CTO и другие C-level специалисты, которые регулярно сталкиваются с непростым решением: инвестировать в собственное железо и CAPEX или мигрировать в облако. В рамках ужина прошла серия тематических докладов, а также панельная дискуссия с экспертами компании Servercore и приглашенными гостями.

AI-инфраструктура в Казахстане: рынок созрел, но ещё экспериментирует
Панельная дискуссия в рамках встречи началась с простого, но важного вопроса: где сейчас находится рынок AI-инфраструктуры в Казахстане — это уже сформировавшаяся история или всё ещё долгая стадия R&D?
Юрий Капелько, COO Servercore, вспомнил знаменитую кривую ажиотажа вокруг новых технологий: сначала резкий рост и выход на пик завышенных ожиданий, потом понимание реальных возможностей и уже затем выход на плато производительности.
По ощущениям участников, Казахстан сегодня как раз в верхней точке этого пика. Технология кажется всемогущей, вокруг море кейсов и разговоров, но, если смотреть на железо, картинка другая. Обычные серверы без GPU живут у клиентов годами, для обеспечения работы основных бизнес-сервисов. А вот GPU-серверы часто используются рывками: под тесты, пилоты, пару волн экспериментов и затем простаивают, потому что стабильной, предсказуемой нагрузки ещё нет.
В то же время участники сошлись во мнении: этап «давайте просто попробуем» рынок уже прошёл. В Казахстане уже есть продукты с market fit, рабочие модели и реальные клиенты. Просто веса в пользу пилотов всё ещё больше, чем в пользу долгих промышленных проектов.
Актуальные задачи для GPU: не только про обучение
В своём докладе Исмоилжон Иминохунов, Senior Project Manager Servercore, рассказал о том, какие типы нагрузок провайдер сейчас видит чаще всего. Если раньше основной акцент был на обучении моделей, то теперь спектр задач значительно шире.

Во-первых, ML-inference — применение уже обученных моделей: чат-боты, скоринг, антифрод, аналитика, голосовые помощники и другие сервисы реального времени.
Во-вторых, ML-training — обучение моделей на больших датасетах, включая лингвистические.
К этому добавляются и классические GPU-нагрузки: 3D-рендеринг и визуализация, тяжёлая медиа-обработка с эффектами и перекодированием, HPC-симуляции, а также виртуальные рабочие места для специалистов, работающих с ресурсоёмким ПО.
«GPU давно перестали быть исключительно про графику или науку, — объяснил Исмоилжон. — На практике мы видим, что основной драйвер сейчас именно AI-нагрузки, причём чаще речь про inference, чем про бесконечное обучение своих гигантских моделей».
Три живых сценария: от контроля качества до миллионов записей
Исмоилжон привёл три реальных кейса клиентов, которые пришли к Servercore за GPU именно под AI-задачи.
Первый сценарий — контроль качества работы колл-центра. У компании есть собственная модель: она получает запись разговора, переводит её в текст, анализирует по заданным критериям и выставляет оценку оператору. На стороне бизнеса главный параметр — скорость ответа. Если модель обрабатывает запрос слишком долго, это сразу бьет по SLA и общей эффективности.
При детальных расчетах оказалось, что разница между видеокартами не такая очевидная, как кажется. Дорогая A100 и более доступная RTX 4090 на бумаге сильно отличаются по цене, но при реальных тестах стоимость одного ответа у них вышла очень близкой. При этом, если взять ещё более дешёвые карты, время выполнения сильно растёт, а итоговая цена обработки запроса только увеличивается.
«Не всегда самая дешевая или самая дорогая карта даёт минимальную стоимость решения, — подчеркивает спикер. — Считать нужно именно стоимость ответа, а не только прайс на железо».
Второй кейс — автоматизация поддержки через AI-ассистента. Сообщения короткие, ответы тоже, но их очень много. Здесь A100 дала более высокую скорость, примерно в полтора раза быстрее, но за счёт стоимости часа GPU общая цена решения выросла. Команда вместе с провайдером честно выбрала: что нам важнее — выиграть несколько секунд на ответ или всё-таки оптимизировать бюджет? Второй вариант, ожидаемо, оказался в приоритете.
Третий сценарий — транскрибация миллионов записей в месяц. Клиент привык арендовать инфраструктуру по своей привычной стандартной схеме, пока не увидел, что счёт за железо начал стремительно расти. Задача стояла простая: сохранить качество, но радикально снизить стоимость обработки. В сравнении A100, A5000 и T4 неожиданным победителем стала A5000: она давала время выполнения лишь на минуту больше, чем A100, но итоговая стоимость распознавания оказалась примерно в три раза ниже. T4 на старте выглядела дешёвым вариантом, но из-за очень долгого времени выполнения в перерасчёте на миллионы вызовов вышла дороже.
Эти примеры наглядно показывают главный вывод доклада: оптимальный выбор GPU чаще всего находится посередине — между самым дорогим и бюджетным вариантами.
Правильный подход к выбору GPU
Из этого логично вырос другой важный тезис. Прежде чем покупать или арендовать GPU, компании нужно честно ответить себе на несколько базовых вопросов: какой тип данных будет использован (аудио, текст, видео), какие объёмы, сколько одновременных пользователей, какая допустимая задержка, какой тип нагрузки на IT-инфраструктуру ожидается: постоянный или всплески. В Servercore используют подробную анкету, которая позволяет подобрать облачную инфраструктуру и конкретную конфигурацию сервера под задачу клиента.
On-prem против аренды: привычка, деньги и здравый смысл
Отдельный блок дискуссии естественно ушёл в вечный спор: держать всё у себя или привыкать к аренде и облакам. Технический директор PayLink Ерсултанбек Елғонды рассказал, как их компания проходила этот путь. Собственной инфраструктуры изначально не было, и переход в сторону аренды получился естественным:

«Это операционные расходы, их проще регулировать. Продукт только стартует — берём меньше ресурсов. Растёт — масштабируемся. Закупать железо вперёд, не понимая, как полетит продукт, для нас было слишком рискованно».
Он отдельно отметил, что для классических систем вроде 1С и части внутренних сервисов on-prem всё ещё имеет смысл: там понятная, стабильная нагрузка и известный срок жизни систем. Но для AI-нагрузок, у которых сама природа сильно экспериментальная, аренда даёт гораздо больше свободы.
Он также поделился своим опытом: команда в своё время купила собственный GPU-кластер под обучение моделей для транскрибации, организовала стойку, охлаждение, всё как положено. Через полтора года проект похоронили, а дорогое железо так и осталось стоять без дела. Истории такого типа на рынке не редкость: когда бизнес-гипотеза не выстрелила, инфраструктура превращается в простой.
С этим перекликается и общий фон рынка: производители чипов обновляют линейки каждые год–полтора, а амортизация в бухгалтерии по-прежнему 5 лет. Держать старое железо становится всё менее выгодно и с точки зрения производительности, и по энергии. Неудивительно, что большинство в зале, когда их попросили поднять руки, проголосовали за аренду GPU как более логичный вариант на текущем этапе развития рынка.
Барьеры: не только технологии, но и люди, процессы и электричество
Когда разговор перешёл к барьерам, стало понятно, что мешают рынку не только деньги или отсутствие нужных видеокарт.
Во-первых, кадровый вопрос. Несмотря на шум вокруг AI, действительно глубоких специалистов по математике, моделям и архитектуре решений немного.
Элдан Абдрашим, Директор по ИИ в Allosta (ex-Senior AI/ML в Apple и Microsoft) справедливо заметил:

«Когда человек написал промт в ChatGPT и получил ответ, это ещё не AI-экспертиза. Под капотом всё ещё классическая математика, статистика и очень много работы по проверке гипотез».
Пока таких людей мало, рынок обречён на большое количество экспериментальных проектов и ошибок, из которых только часть доживёт до зрелых продуктов.
Во-вторых, внутренние процессы и культура компаний. Даже когда технология уже понятна, её легко задушить на уровне комплаенса, ИБ или закупок. Проще сказать «нет» и «не рисковать», чем взять на себя ответственность. Отсюда медленные согласования, затянутые пилоты и страх вынести данные за пределы привычной серверной.
В-третьих, энергетика, дата-центры и инфраструктура в целом.
Участники обсуждения отмечали, что дело не только в мегаваттах: на пути AI-индустрии стоят и готовность дата-центров, и доступность комплектующих, и возможность в нужных объёмах получать и обслуживать видеокарты, и, конечно, компетенции. При этом общий тон был скорее прагматичным: эти вопросы решаемы, если рынок будет двигаться от экспериментов к понятным проектам с измеримой отдачей.
И здесь прозвучал, пожалуй, главный акцент: самый сильный барьер внедрения AI сейчас не ресурсы как таковые, а недостаточное понимание, где именно AI приносит бизнесу реальную пользу и как окупить затраты на внедрение. Если появляются задачи, которые AI решает заметно эффективнее альтернатив, то и инфраструктура, и «железо», и энергетика начинают подтягиваться уже как часть понятной экономической модели.
На фоне того, что на многих ИИ-конференциях тему «приземления» — от инфраструктуры до окупаемости обходят стороной, здесь её поставили в один ряд с моделями и железом. И это стало одним из самых практичных инсайтов вечера.
Следующий этап AI: рынок остынет, а технология останется
В финале модератор встречи предложил заглянуть вперёд хотя бы на год и спросил, что станет драйвером развития. Ответы были осторожными. Большинство согласились: одного года мало, чтобы понять, лопнет ли пузырь или просто сдуется до разумных размеров.
Часть спикеров провела параллели с эпохой доткомов: тогда тоже была переоценка активов, инвестиции в инфраструктуру и компании, которые в итоге не выдержали. Сейчас похожая картина наблюдается вокруг GPU и дата-центров — кто-то уже рассматривает покупку видеокарт как инвестицию «под сдачу в аренду». Рынок явно перегрет, и всем интересно, на каком уровне он стабилизируется.
При этом участники уверены: ближайшие 3-5 лет AI никуда не исчезнет. Скорее всего, технология уйдёт из режима «вау, давайте сделаем ИИ, потому что модно» в режим инфраструктуры — примерно так же, как когда-то интернет перестал быть фичей и стал базой.

«Наше отношении к ИИ изменится уже через несколько лет. Как и с любыми новыми продуктами, мы все находимся в поиске задач, которые эта технология способна эффективно решать, повышая производительность труда людей. И когда это случится, ИИ станет восприниматься просто как данность и неотъемлемая часть жизни и рабочего процесса. Такой же путь когда-то прошел Интернет», — комментирует Юрий Капелько, COO Servercore.
Отдельным триггером ускорения называли инструменты и биллинг. Как только появятся по-настоящему удобные и безопасные способы делить одну видеокарту между несколькими клиентами, а платить не за всю карту, а за реально потреблённые токены и задачи, порог входа для компаний станет ещё ниже. Для рынка инфраструктуры это будет новым витком развития.
Рынок взрослеет, вопросы становятся честнее
С одной стороны, Казахстан пока ещё не живёт в мире массовых AI-продакшенов. Много гипотез, пилотов, попыток найти свою нишу. С другой — уже есть реальные кейсы, подсчитанная экономика, понимание, какие задачи стоят денег, а какие нет, и довольно честный разговор о том, что без энергии, кадров и понятных правил никакой ИИ сам по себе бизнес не спасёт.
Если совсем коротко, рынок вышел из детского возраста, когда ИИ запускали «ради ИИ», и аккуратно входит во взрослую стадию — про инфраструктуру, деньги и ответственность.