Как Yandex Cloud собирает современную платформу данных — от Data LakeHouse до DataLens


Yandex Cloud представил обновления платформенных сервисов и поделился стратегией развития своих дата-продуктов.

В начале ноября в Алматы прошла конференция Yandex Neuro Scale Kazakhstan — одно из ключевых технологических событий года, посвящённое практическому применению искусственного интеллекта и облачных решений для роста бизнеса. О событии рассказывали здесь

В фокусе этого сюжета — доклады трека Data. Трек был выстроен вокруг прикладных тем: как развивается платформа данных Yandex Cloud, как собрать современный LakeHouse под большие данные, ML и data science, чем полезно обновление PostgreSQL 18 и как корпоративный BI Yandex DataLens меняет порог входа за счёт модели on-premise и нейроинструментов.

Главные инсайты собрали в нашей статье.

Платформа данных Yandex Cloud: ключевые сервисы и развитие


Спикер: Алексей Лузан, архитектор платформы данных, Yandex Cloud

Yandex Cloud последовательно расширяет портфель управляемых сервисов платформы данных вокруг типовых сценариев корпоративного DWH — от источников данных и их передачи до витрин и BI.

«Мы добавляем сервисы под актуальные запросы рынка, а не ради чек-листа функций», — отметил Алексей Лузан.

Такая логика формирует предсказуемый путь от события в источнике до метрики на дашборде при минимуме ручных склеек.

Он подчеркнул важность готовых референс-цепочек и демонстрационных стендов, которые ускоряют пилоты и помогают доказать ценность решений перед масштабированием. Второй акцент — на интеллектуальных помощниках в работе с данными: ИИ-функции в Data Catalog ускоряют разметку метаданных и поиск по ним, а ИИ-ассистент в WebSQL помогает перевести бизнес-вопрос в понятный для движка SQL-запрос. Всё это снижает порог входа для продуктовых и бизнес-команд, сокращая путь от вопроса до показателя.

«Важнее не количество сервисов, а их взаимосвязь. Чем короче и стабильнее цепочка “источники — транспорт — хранилище — витрины/BI”, тем меньше совокупная стоимость владения и время до инсайта», — подчёркивает Лузан.

Data LakeHouse в Yandex Cloud: современный DWH с поддержкой больших данных, ML и data science


Спикеры: Кузьма Лешаков, продуктовый архитектор платформы данных, Yandex Cloud; Вячеслав Жуков, директор департамента данных, АЭРО

LakeHouse — это не модный термин, а инженерный ответ на растущее разнообразие данных и нагрузок, который можно использовать, например, в машинном обучении. Его суть — разделение ресурсов вычисления и хранения, структурирование сырых данных, работа с таблицами через концепцию снимков (неизменяемых версий данных в определённый момент времени), а также соблюдение принципов ACID: атомарности, согласованности, изолированности, надёжности.

В экосистеме Yandex Cloud такая сборка выглядит как комбинация Object Storage и открытого табличного формата (например, Iceberg®), каталога данных (Hive™ Metastore или аналога), Spark™ или Trino для запросов и трансформаций, Airflow® для автоматизации пайплайнов и ClickHouse® для построения витрин.

На примере быстрорастущего ритейла Вячеслав Жуков показал, как LakeHouse помогает работать с десятками источников, потоковыми событиями из веба и мобильных приложений, ежедневными батчами и необходимостью отдельно масштабировать хранение и вычисления. Такой подход даёт предсказуемость состояния данных и атомарность изменений, а также позволяет адаптировать платформу под новые регионы и сезонные пики без перестроения всей инфраструктуры.

Обновление PostgreSQL и возможности версии 18


Спикер: Евгений Ефимкин, руководитель группы SRE, Yandex Cloud

Евгений Ефимкин отметил, что главная цель обновления в облаке — сделать мажорный апгрейд предсказуемым и избавить команды от длительных простоев и рутины. Для обновления используется физический апгрейд, который сокращает время операции и делает процесс более безопасным.

В PostgreSQL 18 несколько важных нововведений. Добавился асинхронный ввод-вывод, который до трёх раз ускоряет дисковые операции. Также появилась встроенная поддержка UUIDv7 для генерации упорядоченных по времени идентификаторов. А процесс обновления стал быстрее за счёт импорта статистики планировщика и параллельных проверок.

Теперь время обновления не растёт пропорционально объёму данных, а риск для прод-сервисов снижается.

«Для бизнеса это означает более быстрый доступ к новым возможностям, а для SRE — меньше форс-мажоров и больше плановой рутины. Чем ближе мажор к обычному регламенту, тем ниже технический долг и выше скорость внедрения изменений», — поясняет Ефимкин. 

WAL-G и MySQL: бэкапим умно, восстанавливаем быстро, управляем просто


Спикер: Николай Антонов, старший разработчик, Yandex Cloud

Николай Антонов подчеркнул, что грамотная стратегия резервирования измеряется не скоростью бэкапа, а временем восстановления при инциденте. В WAL-G основной упор сделан именно на это.

Фокус на всех этапах восстановления: бэкап дешифруется в несколько потоков, а бинлоги применяются с помощью собственного binlog-server, который «прикидывается мастером» и отдаёт нужный диапазон бинлогов для восстановления на момент времени. Данная схема применения бинлогов работает кратно быстрее классической. Дополнительно фильтрация дубликатов при загрузке в S3 устраняет узкие места, возникающие после цепочек переключений.

Экономятся не гигабайты, а часы простоя. Чем меньше ручных действий в стрессовой ситуации, тем ниже вероятность ошибки. Критерий зрелости здесь один — проверенные сценарии восстановления. Быстрый возврат сервиса снижает финансовые и репутационные риски.

DataLens — BI Яндекса внутри вашей компании

Спикер: Глеб Белов, продуктовый архитектор BI, Yandex Cloud

Yandex DataLens — BI-платформа для подготовки, обработки и анализа данных, а также для совместной работы с ними в любой инфраструктуре: облачной, on-premise или гибридной. 

Платформа позволяет подключаться к различным источникам, описывать модели данных, выполнять аналитические вычисления, строить графики и визуализации, собирать дашборды и обеспечивать коллективный доступ к аналитике. 

Главное новшество — нейроаналитик. Он помогает формулировать запросы и переводить формулы в текст, дополняет и генерирует чарты, объясняет таблицы и графики естественным языком. BI перестаёт быть инструментом аналитика и становится инструментом всей команды, ускоряя цикл «вопрос — ответ — действие».

Трек Data на Yandex Neuro Scale показал цельную экосистему Yandex Cloud, где все элементы связаны в единую цепочку. Платформа данных выстраивается так, чтобы минимизировать ручные процессы и ускорить путь от вопроса к метрике.

LakeHouse перестал быть модой и стал инженерным стандартом, обеспечивающим предсказуемость витрин и моделей ML при росте нагрузок. PostgreSQL 18 делает апгрейды частью планового регламента, а WAL-G переносит фокус со скорости бэкапа на скорость восстановления. И всё больше инсайтов позволяет получать бизнесу DataLens, превращая BI из инструмента аналитика в инструмент всей команды.