Какие данные можно считать большими? Чем технологии их обработки и анализа отличаются от тех, которые уже используются? Какие перспективы они открывают перед пользователями? Обсуждению этих вопросов была посвящена организованная CNews Conferences при поддержке CNews Analytics конференция «Большие данные 2015».
Большими данными можно считать всю информацию, которую уже невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиа-данные и случайные объекты. И если с анализом первых существующие сегодня технологии более-менее справляются, то анализ вторых и третьих практически остается непаханым полем для деятельности. А между тем объемы медиа-данных, таких как результаты видеонаблюдения, аэрофотосъемки, цифровая медицинская информация, и случайных объектов, хранящихся в многочисленных архивах и облаках, увеличивается год от года.
Кому и зачем нужны большие данные
Для работы с ними на смену традиционным монолитным системам должны прийти новые решения для массивно-параллельных вычислений, состоящие из нескольких независимых блоков, число которых можно неограниченно увеличивать и отказ одного из которых не приводит к разрушению всей системы, считает Антон Жбанков, ведущий системный архитектор Step Logic. Кроме того, для получения должного эффекта необходим правильный выбор данных для анализа и корректная интерпретация его результатов.
По данным CNews Analytics, наиболее активными заказчиками таких решений являются банки и телеком. Менее заметно количество компаний, которые используют или готовы использовать большие данные, в ТЭК, транспортной отрасли, ритейле и промышленности. Первые примеры использования больших данных появились и в госсекторе. Так, по словам Алексея Яковлева, руководителя управления технической архитектуры программных решений компании ОТР, в этом сегменте постоянно меняется не только модель первичных данных, но и регламенты их сбора и обработки ведомствами. В связи с этим очень актуальным становится создание решения, которое могло бы обрабатывать любую информацию и легко менять алгоритм этой обработки.
Компания ОТР разработала такое решение на базе свободного ПО. Оно состоит из отдельных блоков (объектов, форм, процессов, правил), которые можно использовать и в других приложениях. Изменение настроек не требует навыков программирования и происходит по клику мыши, изменение структуры данных возможно без переписывания кода для уже имеющихся. На сегодняшний день такое решение с успехом используется в Московской области.
Примером применения технологий обработки больших данных с участниками конференции поделился Сергей Бондарев, руководитель направления «Ростелекома». “Границы того, что такое большие данные, сейчас размываются, поэтому для нас правильнее говорить о данных как таковых, и культуре работы с ними. Разрабатываемая Ростелекомом архитектура корпоративного хранилища и стек технологических решений позволит эффективно обрабатывать весь объём требуемых нам данных, без разделения на большие и маленькие”, отметил Сергей Бондарев. По словам представителя Ростелекома, не существует единого правильного решения или продукта для построения эффективного хранилища данных. В каждом конкретном случае архитектура хранилища будет иметь свои особенности, определяемые, в том числе моделью, источниками, и профилю работы с данными. Поэтому крайне важно начинать реализовывать продукты на существующей инфраструктуре или с минимальными вложениями, и только после этого осознанно переходить к выбору целевого решения. Целевая архитектура хранилища Ростелекома строится на озере данных в HDFS , и MPP платформе с применением принципов гибридного хранения и лямбда-архитектуры.
По слова Сергея Шеленцова, руководителя службы интеграции информации и операционной отчетности компании, проект был реализован с нулевыми инвестициями благодаря тому, что для него были использованы невостребованные серверы и свободное ПО.
Архитектура BI
Источник: «Вымпелком», 2015
Сегодня система развернута и успешно используется в России, Казахстане, Узбекистане, Таджикистане, Грузии, Армении. Только в России ее пользователями является около 24 тыс. человек, которые регулярно формируют 1700 видов отчетов на основании данных из 70 источников. Максимальный размер выполненного отчета составил 70 Гб. В течение месяца в системе создается 330 тыс. отчетов, а общее их число уже достигло 17 млн.