Какие данные можно считать большими? Чем технологии их обработки и анализа отличаются от тех, которые уже используются? Какие перспективы они открывают перед пользователями? Обсуждению этих вопросов была посвящена организованная CNews Conferences при поддержке CNews Analytics конференция «Большие данные 2015».

страницы:

Большими данными можно считать всю информацию, которую уже невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиа-данные и случайные объекты. И если с анализом первых существующие сегодня технологии более-менее справляются, то анализ вторых и третьих практически остается непаханым полем для деятельности. А между тем объемы медиа-данных, таких как результаты видеонаблюдения, аэрофотосъемки, цифровая медицинская информация, и случайных объектов, хранящихся в многочисленных архивах и облаках, увеличивается год от года.

Кому и зачем нужны большие данные

Для работы с ними на смену традиционным монолитным системам должны прийти новые решения для массивно-параллельных вычислений, состоящие из нескольких независимых блоков, число которых можно неограниченно увеличивать и отказ одного из которых не приводит к разрушению всей системы, считает Антон Жбанков, ведущий системный архитектор Step Logic. Кроме того, для получения должного эффекта необходим правильный выбор данных для анализа и корректная интерпретация его результатов.

По данным CNews Analytics, наиболее активными заказчиками таких решений являются банки и телеком. Менее заметно количество компаний, которые используют или готовы использовать большие данные, в ТЭК, транспортной отрасли, ритейле и промышленности. Первые примеры использования больших данных появились и в госсекторе. Так, по словам Алексея Яковлева, руководителя управления технической архитектуры программных решений компании ОТР, в этом сегменте постоянно меняется не только модель первичных данных, но и регламенты их сбора и обработки ведомствами. В связи с этим очень актуальным становится создание решения, которое могло бы обрабатывать любую информацию и легко менять алгоритм этой обработки.

Компания ОТР разработала такое решение на базе свободного ПО. Оно состоит из отдельных блоков (объектов, форм, процессов, правил), которые можно использовать и в других приложениях. Изменение настроек не требует навыков программирования и происходит по клику мыши, изменение структуры данных возможно без переписывания кода для уже имеющихся. На сегодняшний день такое решение с успехом используется в Московской области.

Примером применения технологий обработки больших данных с участниками конференции поделился Сергей Бондарев, руководитель направления «Ростелекома». “Границы того, что такое большие данные, сейчас размываются, поэтому для нас правильнее говорить о данных как таковых, и культуре работы с ними. Разрабатываемая Ростелекомом архитектура корпоративного хранилища и стек технологических решений позволит эффективно обрабатывать весь объём требуемых нам данных, без разделения на большие и маленькие”, отметил Сергей Бондарев. По словам представителя Ростелекома, не существует единого правильного решения или продукта для построения эффективного хранилища данных. В каждом конкретном случае архитектура хранилища будет иметь свои особенности, определяемые, в том числе моделью, источниками, и профилю работы с данными. Поэтому крайне важно начинать реализовывать продукты на существующей инфраструктуре или с минимальными вложениями, и только после этого осознанно переходить к выбору целевого решения. Целевая архитектура хранилища Ростелекома строится на озере данных в HDFS , и MPP платформе с применением принципов гибридного хранения и лямбда-архитектуры.

По слова Сергея Шеленцова, руководителя службы интеграции информации и операционной отчетности компании, проект был реализован с нулевыми инвестициями благодаря тому, что для него были использованы невостребованные серверы и свободное ПО.

Архитектура BI


Источник: «Вымпелком», 2015

Сегодня система развернута и успешно используется в России, Казахстане, Узбекистане, Таджикистане, Грузии, Армении. Только в России ее пользователями является около 24 тыс. человек, которые регулярно формируют 1700 видов отчетов на основании данных из 70 источников. Максимальный размер выполненного отчета составил 70 Гб. В течение месяца в системе создается 330 тыс. отчетов, а общее их число уже достигло 17 млн.

страницы: