Что такое Big Data? Простыми словами о сложном
Термин «Big Data» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть» и «большая руда». Несмотря на то, что термин вводился в академической среде, и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе. Говоря простыми словами, Big Data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы использовать их для конкретных задач и целей. Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.
Big data — социально-экономический феномен
Сегодня Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных. Для простоты понимания представьте супермаркет, в котором все товары лежат в хаотичном порядке. Детские продукты питания стоят на полке рядом с алкогольной продукцией. А сырое мясо — в холодильнике с «молочкой». Big Data расставляет всё по своим местам и помогает вам найти нужный продукт. Фактически, Big Data — это решение проблем и альтернатива традиционным системам управления данными.
Формула 7V
Еще 19 лет назад Дуг Лейни (Doug Laney) из Meta Group издал документ, описывающий основные проблемные зоны, связанные с повышенными требованиями к центральным хранилищам данных на фоне бурного роста e-commerce. Он также сделал прогноз на изменение стратегии IT-компаний в отношении подходов к построению архитектуры решений, связанных с хранением и обработкой информации. В итоге аналитики придумали емкую формулу Big Data — семь важных характеристик, или «7 V»: Volume, Velocity, Variety, Veracity, Variability, Visualization, Value. То есть объем, скорость, разнообразие, достоверность, изменчивость, визуализация, ценность. При этом каждая «V» важна для понимания общей картины.
Меньше всего вопросов вызывают первые три «V»: Volume, Velocity, Variety. Действительно, кто будет спорить, что Big Data — это прежде всего объем, Volume? Объем данных растет по экспоненте: например, самолеты ежегодно генерируют 2,5 млрд ТБ данных с датчиков, установленных в двигателях. При этом, данные постоянно обновляются, генерятся новые, и скорость обновления (Velocity – вторая «V») также важна для того, чтобы считать их «большими». Например, каждую минуту в мире выполняется почти 2,5 миллиона запросов в поисковой системе Google. Задача проектов Big Data заключается в том, чтобы справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.
Третья «V» — Variety или разнообразие. Это означает, что проекты Big Data должны включать данные в самых разных форматах: структурированные и неструктурированные данные, текстовые, графические, данные корпоративной почты или соцсетей, вплоть до видео. Каждый из этих типов данных требует различных типов анализа и подходящих инструментов. Социальные медиа могут помочь владельцам бренда проанализировать настроения клиентов, а сенсорные данные предоставят информацию о том, как чаще всего используется продукт, чтобы применить эти знания для его улучшения.
Еще недавно трех «V» было вполне достаточно. Но мир не стоит на месте, и с развитием новых технологий аналитики выделили еще четыре «V», чтобы избежать недопонимания. Итак, в определение были добавлены Veracity, Variability, Visualization, Value. Рассмотрим каждый из этих пунктов.
Veracity — достоверность: безусловно, эта характеристика является крайне важной, поскольку любой анализ будет совершенно бесполезен, если данные окажутся недостоверными. Более того, нам крайне важно заранее удостовериться, что с данными все ок, ведь их неточность может привести к неправильным решениям. Самый простой пример — контакты с ложными именами и неточной контактной информацией.
Variability — изменчивость: новое веяние в сфере Big Data. Здесь речь идет о том, что значение одних и тех же данных может различаться в зависимости от контекста, например, одни и те же слова в Twitter могут иметь различные значения и отражать разные настроения. Для того чтобы выполнить правильный анализ настроений, алгоритмы должны быть в состоянии понять контекст и быть в состоянии расшифровать точное значение слова в этом контексте.
Visualization — визуализация: это необходимая часть анализа, поскольку именно визуализация делает большие данные доступными для человеческого восприятия. Визуализация больших объемов сложных данных гораздо более эффективна и понятна для человека, чем электронные таблицы и отчеты, полные чисел и формул. Конечно, визуализация в рамках Big Data не означает построение обычных графиков или круговых диаграмм. Возможно, будут построены сложные графики, которые будут включать в себя множество переменных данных, однако они все равно останутся понятными и читаемыми.
Value — ценность: здесь речь идет о том, чтобы извлечь максимум пользы из результатов анализа больших данных. Важно то, как вы будете использовать эти данные и сможете ли превратить свою организацию в продвинутую компанию, которая опирается на идеи, полученные из анализа данных, для принятия решений.
Однако и этих семи «V» недостаточно для понимания сути Big Data: речь идет о том, что все эти семь характеристик должны быть применены к сложной задаче, как правило, с несколькими переменными и нетривиальным условием.
Технология работы Big Data
Пользователи социальных сетей загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.
Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее, а находить и анализировать человеку помогает искусственный интеллект. Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных, и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.
Методы работы с большими данными
Для работы с Big Data необходимо учитывать следующие инструменты: машинное обучение, анализ настроений, анализ социальной сети, ассоциацию правил обучения, анализ дерева классификации, генетические алгоритмы и регрессионный анализ.
Например, вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных». В итоге машинное обучение помогает различать спам в электронной почте, изучать пользовательские предпочтения и давать рекомендации, определять лучший контент для привлечения потенциальных клиентов и многое другое.
В свою очередь, анализ настроений помогает улучшать обслуживание в гостиничной сети, анализируя комментарии гостей. Настраивает стимулы и услуги для удовлетворения потребностей клиента, а также определяет по мнениям в социальной сети, о чем думают клиенты.
Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности. Анализ использовали для того, чтобы увидеть, как люди из разных групп населения формируют связи с посторонними лицами. Выяснить важность и влияние конкретного человека в группе и найти минимальное количество прямых связей для соединения двух людей. Ну, и, конечно же, понять социальную структуру клиентской базы.
Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов. С помощью правил ассоциации продукты в маркете размещаются определенным образом для увеличения продаж. Также правила ассоциаций позволяют извлекать информацию о посетителях веб-сайтов из журналов веб-сервера, делать анализ биологических данных, отслеживать системные журналы для обнаружения злоумышленников и т.д.
Анализ дерева классификации — статистическая классификация, определяющая категории, к которым относится новое наблюдение. Статистическая классификация используется для автоматического присвоения документов категориям, классификации организмов по группам и, например, разработки профилей студентов, проходящих онлайн-курсы.
Генетические алгоритмы, в свою очередь, вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор. Их используют для составления расписания врачей для отделений неотложной помощи в больницах, для расчета оптимальных материалов для разработки экономичных автомобилей, а также для создания «искусственно творческого» контента, такого как игра слов и шутки.
На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой), чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине). Регрессионный анализ используют для определения уровней удовлетворенности клиентов. Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки и как район и размер домов влияют на цену жилья.
Data Mining — сбор и обработка Big Data
Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в «озеро данных». Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.
Хранение и обработка происходит следующими инструментами:
· Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
· HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
· Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.
Реальное применение Big Data
Самый быстрый рост расходов на технологии больших данных происходит в банковской сфере, здравоохранении, страховании, ценных бумагах и инвестиционных услугах, а также в области телекоммуникаций. Три из этих отраслей относятся к финансовому сектору, который имеет множество полезных вариантов для анализа Big Data: обнаружение мошенничества, управление рисками и оптимизация обслуживания клиентов.
Банки и компании, выпускающие кредитные карты, используют большие данные, чтобы выявлять закономерности, которые указывают на преступную деятельность. Из-за чего некоторые аналитики считают, что большие данные могут принести пользу криптовалюте. Алгоритмы смогут выявить мошенничество и незаконную деятельность в крипто-индустрии.
Благодаря криптовалюте, такой как биткойн и эфириум, блокчейн может фактически поддерживать любой тип оцифрованной информации. Его можно использовать в области Big Data, особенно для повышения безопасности или качества информации.
Например, больница может использовать его для обеспечения безопасности, актуальности данных пациента и полного сохранения их качества. Размещая базы данных о здоровье в блокчейн, больница обеспечивает всем своим сотрудникам доступ к единому, неизменяемому источнику информации.
Также как люди связывают криптовалюту с волатильностью, они часто связывают большие данные со способностью просеивать большие объемы информации. Big Data поможет отслеживать тенденции. На цену влияет множество факторов, и алгоритмы больших данных учтут это, а затем предоставят решение.
Перспективы использования Big Data
Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2016 года блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.
Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие. По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги. По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2018 году составила $42 млрд, а в 2027 году — преодолеет отметку в $100 млрд.
По оценкам главного операционного директора Нью-Йоркской академии наук о данных Криса Неймета, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.
Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять, с кем они взаимодействуют в блокчейне.Весь мир активно использует технологию Big Data в банковской сфере, услугах связи и розничной торговле. Эксперты считают, что в будущем технологию активно будут использовать транспортная отрасль, нефтегазовая и пищевая промышленность, а также энергетика. С развитием сетей 5G, вкупе с интернетом вещей (IoT) и анализом больших данных (Big Data) — призваны стать одной из основ цифровой экономики, главной движущей силой искусственного интеллекта.