Как Yandex Cloud собирает современную платформу данных — от Data LakeHouse до DataLens
Yandex Cloud представил обновления платформенных сервисов и поделился стратегией развития своих дата-продуктов.
В начале ноября в Алматы прошла конференция Yandex Neuro Scale Kazakhstan — одно из ключевых технологических событий года, посвящённое практическому применению искусственного интеллекта и облачных решений для роста бизнеса. О событии рассказывали здесь.
В фокусе этого сюжета — доклады трека Data. Трек был выстроен вокруг прикладных тем: как развивается платформа данных Yandex Cloud, как собрать современный LakeHouse под большие данные, ML и data science, чем полезно обновление PostgreSQL 18 и как корпоративный BI Yandex DataLens меняет порог входа за счёт модели on-premise и нейроинструментов.
Главные инсайты собрали в нашей статье.
Платформа данных Yandex Cloud: ключевые сервисы и развитие
Спикер: Алексей Лузан, архитектор платформы данных, Yandex Cloud
Yandex Cloud последовательно расширяет портфель управляемых сервисов платформы данных вокруг типовых сценариев корпоративного DWH — от источников данных и их передачи до витрин и BI.
Такая логика формирует предсказуемый путь от события в источнике до метрики на дашборде при минимуме ручных склеек.
Он подчеркнул важность готовых референс-цепочек и демонстрационных стендов, которые ускоряют пилоты и помогают доказать ценность решений перед масштабированием. Второй акцент — на интеллектуальных помощниках в работе с данными: ИИ-функции в Data Catalog ускоряют разметку метаданных и поиск по ним, а ИИ-ассистент в WebSQL помогает перевести бизнес-вопрос в понятный для движка SQL-запрос. Всё это снижает порог входа для продуктовых и бизнес-команд, сокращая путь от вопроса до показателя.
Data LakeHouse в Yandex Cloud: современный DWH с поддержкой больших данных, ML и data science
Спикеры: Кузьма Лешаков, продуктовый архитектор платформы данных, Yandex Cloud; Вячеслав Жуков, директор департамента данных, АЭРО
LakeHouse — это не модный термин, а инженерный ответ на растущее разнообразие данных и нагрузок, который можно использовать, например, в машинном обучении. Его суть — разделение ресурсов вычисления и хранения, структурирование сырых данных, работа с таблицами через концепцию снимков (неизменяемых версий данных в определённый момент времени), а также соблюдение принципов ACID: атомарности, согласованности, изолированности, надёжности.
В экосистеме Yandex Cloud такая сборка выглядит как комбинация Object Storage и открытого табличного формата (например, Iceberg®), каталога данных (Hive™ Metastore или аналога), Spark™ или Trino для запросов и трансформаций, Airflow® для автоматизации пайплайнов и ClickHouse® для построения витрин.
На примере быстрорастущего ритейла Вячеслав Жуков показал, как LakeHouse помогает работать с десятками источников, потоковыми событиями из веба и мобильных приложений, ежедневными батчами и необходимостью отдельно масштабировать хранение и вычисления. Такой подход даёт предсказуемость состояния данных и атомарность изменений, а также позволяет адаптировать платформу под новые регионы и сезонные пики без перестроения всей инфраструктуры.
Обновление PostgreSQL и возможности версии 18
Спикер: Евгений Ефимкин, руководитель группы SRE, Yandex Cloud
Евгений Ефимкин отметил, что главная цель обновления в облаке — сделать мажорный апгрейд предсказуемым и избавить команды от длительных простоев и рутины. Для обновления используется физический апгрейд, который сокращает время операции и делает процесс более безопасным.
В PostgreSQL 18 несколько важных нововведений. Добавился асинхронный ввод-вывод, который до трёх раз ускоряет дисковые операции. Также появилась встроенная поддержка UUIDv7 для генерации упорядоченных по времени идентификаторов. А процесс обновления стал быстрее за счёт импорта статистики планировщика и параллельных проверок.
Теперь время обновления не растёт пропорционально объёму данных, а риск для прод-сервисов снижается.
WAL-G и MySQL: бэкапим умно, восстанавливаем быстро, управляем просто
Спикер: Николай Антонов, старший разработчик, Yandex Cloud
Николай Антонов подчеркнул, что грамотная стратегия резервирования измеряется не скоростью бэкапа, а временем восстановления при инциденте. В WAL-G основной упор сделан именно на это.
Фокус на всех этапах восстановления: бэкап дешифруется в несколько потоков, а бинлоги применяются с помощью собственного binlog-server, который «прикидывается мастером» и отдаёт нужный диапазон бинлогов для восстановления на момент времени. Данная схема применения бинлогов работает кратно быстрее классической. Дополнительно фильтрация дубликатов при загрузке в S3 устраняет узкие места, возникающие после цепочек переключений.
Экономятся не гигабайты, а часы простоя. Чем меньше ручных действий в стрессовой ситуации, тем ниже вероятность ошибки. Критерий зрелости здесь один — проверенные сценарии восстановления. Быстрый возврат сервиса снижает финансовые и репутационные риски.
DataLens — BI Яндекса внутри вашей компании
Спикер: Глеб Белов, продуктовый архитектор BI, Yandex Cloud
Yandex DataLens — BI-платформа для подготовки, обработки и анализа данных, а также для совместной работы с ними в любой инфраструктуре: облачной, on-premise или гибридной.
Платформа позволяет подключаться к различным источникам, описывать модели данных, выполнять аналитические вычисления, строить графики и визуализации, собирать дашборды и обеспечивать коллективный доступ к аналитике.
Главное новшество — нейроаналитик. Он помогает формулировать запросы и переводить формулы в текст, дополняет и генерирует чарты, объясняет таблицы и графики естественным языком. BI перестаёт быть инструментом аналитика и становится инструментом всей команды, ускоряя цикл «вопрос — ответ — действие».
Трек Data на Yandex Neuro Scale показал цельную экосистему Yandex Cloud, где все элементы связаны в единую цепочку. Платформа данных выстраивается так, чтобы минимизировать ручные процессы и ускорить путь от вопроса к метрике.
LakeHouse перестал быть модой и стал инженерным стандартом, обеспечивающим предсказуемость витрин и моделей ML при росте нагрузок. PostgreSQL 18 делает апгрейды частью планового регламента, а WAL-G переносит фокус со скорости бэкапа на скорость восстановления. И всё больше инсайтов позволяет получать бизнесу DataLens, превращая BI из инструмента аналитика в инструмент всей команды.