Какие новые технологии появились на рынке больших данных

Большие данные — уже не просто модная тема для дискуссий, а множество реальных проектов, приносящих бизнесу немалую пользу. Проекты в области больших данных стоят недешево. Поэтому очень важно не ошибиться при выборе технологии и просчитать все возможные риски. Об этом говорили участники секции «Большие данные» CNews Forum 2020.

страницы:

Алексей Сидоров: Типичный проект виртуализации данных окупается менее чем за шесть месяцев

Как правило, для обработки данных их сначала собирают в едином хранилище. Однако делать это все сложнее, потому что объемы растут экспоненциально. Гораздо более перспективной стратегией является виртуализация данных, рассказал Алексей Сидоров, директор по управлению данными и главный евангелист Denodo.

CNews: Каковы особенности виртуальных данных?

Алексей Сидоров: Большинство схем интеграции данных подразумевают использование средств извлечения, преобразования и загрузки данных (ETL) или аналогичных им инструментов. Принципы ETL были предложены в 1970-х годах, и хотя за прошедшее время построенные на их основе процессы значительно усовершенствованы и разработаны во многих вариантах, они по-прежнему состоят из трех основных этапов: данные извлекаются из источников, преобразуются в структуру и формат, соответствующие целевой системе, в которую должны быть переданы (в хранилище операционных данных, витрину данных и т. п.) и загружаются в эту целевую систему.

Однако в последние годы ландшафт данных заметно усложнился, а растущая потребность в извлечении ценной информации из консолидированных данных сделала очевидными недостатки средств ETL. Перенос данных — не всегда лучший подход, поскольку он предполагает создание нового репозитория и его дорогостоящее сопровождение, осуществляемое большой группой специалистов.

В крупных организациях ежедневно могут выполняться тысячи процессов ETL, синхронизированных при помощи скриптов, которые в случае необходимости трудно изменить.

Поскольку в рамках процессов ETL данные предоставляются в пакетном режиме по расписанию, пользователям приходится какое-то время ждать их отправки. Доставку пакетов можно ускорить путём изменения настроек, но обеспечить мгновенную передачу данных по запросу все равно не удастся. Как правило, процессы ETL выполняются по ночам.

Процессы ETL не справляются с обработкой современных гигантских объемов информации, куда входят и сложные типы данных, например поминутные сведения о транзакциях и потоки показаний всевозможных датчиков.

Интеграционная стратегия, основанная на виртуализации данных, подразумевает совершенно иной подход: не перенос данных на новое место для их консолидации, а формирование в режиме реального времени представления консолидированных данных, которые физически остаются в своих источниках.

CNews: Какие специфические задачи приходится решать при их обработке?

Алексей Сидоров: Передовые решения для виртуализации данных формируют уровень доступа к ним, предназначенный для использования в масштабах всей организации и обеспечивающий универсальное подключение ко всем ее ключевым источникам данных. Сотрудники, нуждающиеся в доступе к информации, делают запрос к уровню виртуализации, который извлекает необходимые данные из конкретных источников. Беря на себя функции обеспечения доступа, уровень виртуализации скрывает от пользователей лишние технические подробности, в том числе местонахождение и формат данных, предоставляя возможность задавать любые вопросы, получать на них ответы и не думать том, насколько сложны низкоуровневые механизмы, применяемые для решения тех или иных задач.

Важно отметить, что при виртуализации данных репликация не производится, поэтому уровень виртуализации не содержит данных: на нем находятся только метаданные, необходимые для доступа к различным источникам. Уровень виртуализации данных отличается малой ресурсоемкостью и простотой реализации, но это далеко не все его преимущества. В частности, он позволяет легко внедрить общекорпоративную систему управления доступом к данным вместо того, чтобы реализовывать такие системы для каждого источника данных в отдельности. Кроме того, он выполняет функции центрального узла, к которому разработчики могут подключать API для доступа к различным источникам данных, имеющим разную степень структурированности.

В настоящее время виртуализация является самой передовой стратегией интеграции данных. Подобно традиционным решениям для интеграции, уровень виртуализации выполняет функции преобразования и контроля качества данных, одновременно обеспечивая работу в режиме реального времени с меньшими затратами, более высокой скоростью доступа и большей гибкостью. Виртуализация позволяет либо полностью заменить традиционные процессы и системы интеграции данных на основе витрин и хранилищ данных, либо дополнить их новыми возможностями.

CNews: Какие способы решения этих задач предлагает ваша компания?

Алексей Сидоров: Платформа виртуализации данных Denodo обеспечивает абстрагирование и предоставляет сервисы данных, легко интегрируемые с первоначальными и промежуточными источниками данных, ПО промежуточного слоя, приложениями (облачными и локальными) и различными устройствами.

Перечислю несколько важных фактов о платформе Denodo. Сопровождение платформы обходится дешевле по сравнению с традиционными средствами интеграции. Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создаётся уровень абстракции данных, что исключает дополнительные затраты на репликацию и хранение.

Виртуализация ускоряет процессы управления данными. Не нужно ждать результатов в течение нескольких часов или дней: при виртуализации нужная информация предоставляется в режиме реального времени.

Виртуализация обеспечивает максимальную производительность. В обычных системах производительность нередко снижается из-за ожидания передачи данных. Платформа виртуализации данных подключается непосредственно к источникам и предоставляет ценную информацию в режиме реального времени.

Платформа виртуализации предоставляет защищенную систему корпоративного управления данными. Путем организации централизованного узла доступа ко всем видам информации и метаданных предприятия можно обеспечить управление безопасностью, корпоративное управление данными и мониторинг производительности.

Виртуализация обеспечивает высокую рентабельность инвестиций. Типичный проект виртуализации данных окупается менее чем за шесть месяцев после внедрения. По сравнению с традиционными методами интеграции данных сокращение сроков окупаемости составляет 50-80%.


страницы: