Интерес к большим данным заставляет компании создавать целые «озера данных». К сожалению, уровень их использования оставляет желать лучшего. Однако ситуация постепенно меняется: все больше владельцев данных понимают, что делиться ими значительно выгоднее, чем хранить за десятью замками. Об этом говорили участники организованной CNews Conferences конференции «Большие данные и аналитика 2021».
Как работать с большими данными
«Отношение к большим данным меняется, — начал свое выступление Алексей Сидоров, главный евангелист и директор по управлению данными Denodo. — Теперь это не просто хранилища разнообразной информации. Все поняли, что делиться данными выгоднее, чем просто их собирать». В тоже время, ИТ продолжает пытаться собрать в единый репозиторий все данные, упорно разбегающиеся по хранилищам, озерам, облакам и устройствам граничных вычислений. Но как в таком случае с ними работать?
Существуют разные типы данных: операционные, аналитические, потоковые. Они используются для анализа и формирования отчетности, создания сервисов на базе искусственного интеллекта, обрабатываются в режиме реального времени при оценке текущего состояния объектов. Единственная возможность объединить их — это создание ресурса, куда можно временно загружать необходимую для обработки информацию. Речь идет о виртуальных платформах управления данными, таких как Data Mesh.
Централизованная архитектура Data Mesh
Источник: Denodo, 2021
Data Mesh дает возможность решать любые задачи, связанные с обменом и анализом данных. Виртуализация является ключевой технологией для построения современной архитектуры, обеспечивает гибкость и сокращает время предоставления данных для бизнеса до 10 раз, скрывает сложную, постоянно меняющуюся инфраструктуру от конечных пользователей и позволяет внедрять новые технологии, форматы и протоколы, не вызывая перебоев.
Данные, которые формируют всевозможные датчики, можно передавать в ЦОД, продолжил тему Андрей Мотренко, менеджер по развитию решений Департамента больших данных и безопасности компании Atos в России и СНГ. Но когда возникает необходимость обрабатывать их максимально быстро, на помощь приходят периферийные вычисления.
Эксперт привел несколько примеров использования периферийных вычислений при обработке данных, поступающих с видеокамер. Например, в ритейле с их помощью можно анализировать действия посетителей, оптимизировать пространство, контролировать процесс сканирования и взвешивания, предотвращать кражи, управлять очередью и парковкой. В банковской сфере анализировать работу сотрудников, определять VIP-клиентов, контролировать безопасность. На транспорте проводить осмотр железнодорожных путей и вагонов, планировать их ремонт.
Масштабируемые решения для задач видеоаналитики
Источник: Atos, 2021
Андрей Мотренко рассказал о том, как решает задачу видеоаналитики Atos. Например, на 310 АЗС Tesco в Великобритании решение Atos позволило обеспечить безопасность в автоматическом (ночью) и полуавтоматическом (днем) режимах. Удаленный мониторинг осуществляется третьей стороной. Уведомления поступают в случае наличия проблем со здоровьем персонала, безопасностью или затруднений в точке продажи.
Выступление Никиты Пустовойтова, генерального директора DataUnicorn, было посвящено теме Data Science — обработке и анализу данных с помощью машинного обучения. Data Science используется при разработке новых алгоритмов и технологий, особенно если факт создания технологии очень важен для бизнеса. Еще одно направление — использование Data Science в операционных процессах, позволяющее достаточно быстро сократить издержки и увеличить прибыль.
Одно из ключевых направлений Data Science в бизнесе — это клиентская аналитика. Технология помогает определить целевую аудиторию, выявить потребности каждого клиента, назначить наиболее подходящего сотрудника, который будет отвечать за работу с ним, предсказать уход клиента и оценить, какие меры по его удержанию стоит предпринять.
Потенциальные проблемы Data Science в стыковке с бизнесом
Источник: DataUnicorn, 2021
Никита Пустовойтов подчеркнул, что результаты анализа должны иметь измеримую бизнес-выгоду. То есть показатели, которые планируется получить благодаря использованию машинного обучения, должны превосходить существующие. Кроме того, необходимо учитывать, что за время проекта может измениться окружающая реальность. А значит внедряемую модель и данные, на которых она основана, надо постоянно контролировать и при необходимости корректировать.
Алексей Талденков, руководитель по развитию AI и ML-решений компании ADV, рассказал об обработке потоковых данных и применении моделей ML в реальном времени. По его словам, потоковая обработка повышает предсказательную силу моделей ML за счет использования самых актуальных данных. Время между событием и принятием решения существенно сокращается благодаря обработке в реальном времени. Также непрерывная обработка данных способствует сокращению времени внедрения (time to market) моделей ML в эксплуатацию.
Он рекомендовал использовать Fabrique.ai — программный продукт на основе архитектуры OLEP, позволяющий в реальном времени обрабатывать потоковые данные и исполнять модели ML. В основе решения лежат атомарные операции, из которых выстраиваются сложные сценарии обработки данных и исполнения моделей. Продукт автоматизирует жизненный цикл ML моделей.
Стадии жизненного цикла моделей ML
Источник: ADV, 2021
«Это приводит к росту скорости принятия решений, повышению предсказательной силы ML-моделей и быстрому выводу их на рынок, предотвращению ошибочных предсказаний, — дополняет Сергей Кедров, руководитель направления скоринга, машинного обучения и предиктивной аналитики ADV. — Дата-аналитики могут быстрее проводить эксперименты и отрабатывать гипотезы. Решение позволяет быстро и просто вводить в эксплуатацию новые версии моделей, исполнять их в режиме наблюдения или тестирования. Для сотрудников ИТ-службы ИТ упрощается процесс мониторинга, оптимизации и прогнозирования использования вычислительных ресурсов».
«Повторяющиеся принятия решений необходимо оптимизировать алгоритмически», — говорит Владимир Бакланов, руководитель аналитического департамента «Вымпелком». Для того, чтобы упростить работу разработчиков, в компании провели собеседования и одновременно изучили архитектуру платформы. Таким образом были выявлены проблемные точки. После этого появилась возможность создания self-service BI — новой модели разработки, базирующейся на новой архитектуре.
Теперь к ней может автоматически подключиться любой, если он соответствует заранее прописанным требованиям. Пользователь автоматически получает доступ к определенному списку ресурсов. В случае необходимости он может обратиться в единую службу поддержки и задать там любые вопросы.
«Наша задача — сделать так, чтобы любой сотрудник мог легко и просто получить доступ к данным и пользоваться ими», — говорит Владимир Бакланов. Теперь аналитики компании могут легко обмениваться дашбордами, обсуждать их. Для них организовано обучение, разработаны шаблоны диаграмм и другие инструменты, они могут воспользоваться рекомендациями экспертов в области анализа данных.
Большие данные в финсекторе
Юрий Сирота, старший вице-президент, руководитель департамента анализа данных и искусственного интеллекта банка «УралСиб», отметил, что цифровые экосистемы позволяют отказаться от посредников при оказании услуг. Сегодня небанковские компании стремятся оказывать банковские услуги, для этого у них существует солидная клиентская база. А значит, банки должны искать новые ниши и возможности для развития.
Многие банки пытаются масштабировать data-driven подход на все виды деятельности, но сталкиваются с организационными и технологическими проблемами. Среди них отсутствие стратегии, в том числе и в области использования талантов, устаревшая операционная модель, сложности управления данными, концентрация усилий на отдельных сценариях. Кроме того, системам часто не хватает мощности для поддержки вычислительных требований и обработки данных в реальном времени.
Юрий Сирота особо отметил проблему управления данными. «Многие создают «кладовки данных», не зная, что с ними потом делать, — говорит он. — Надо сразу заниматься развитием управления данными и их безопасностью». Для того, чтобы наладить data-driven подход, Юрий Сирота рекомендовал оценить, как стратегические цели банка (рост, прибыльность, взаимодействие с клиентами, инновации) могут быть материально обеспечены за счет ряда технологий данных и искусственного интеллекта, уравновесить краткосрочные проекты, приносящие ценность для бизнеса быстро, с итеративным наращиванием долгосрочных возможностей, определить области, в которых требуются ключевые сдвиги: инвестиции в технологии и новые таланты, и провести организационные изменения.
Сергей Карпович, управляющий директор департамента анализа данных и моделирования, лидер стрима «Источники данных» ВТБ, рассказал, что основными направлениями развития работы с данными в банке являются геоаналитика, сегментация на основе потребительской активности, графовая аналитика и платформы обмена данными и моделями.
В качестве примера он привел геоаналитическую платформу, с помощью которой можно планировать размещение офисов продаж банка или наружной рекламы. Анализ больших данных, в том числе кассовых чеков, которые хранятся у операторов фискальных данных, дал возможность сформировать на карте слои, указывающие, где проживают или работают люди, имеющие высокие доходы, интересующиеся ипотекой, приобретением новостроек и т.д.
Кластеризация по категориям покупок: вся Россия
Источник: ВТБ, 2021
Сергей Карпович отметил, что надо развивать площадки, где можно объединить данные из разных источников с тем, чтобы максимально тагетировать клиентов. Такие платформы уже создают ВТБ, «Сбер» и другие крупные компании.
Сергей Алешкин, руководитель по Data Science «Согаз», отметил, что при выборе компании клиенты в 80% случаев ориентируются не на бренд, а на реальное качество услуг. Именно поэтому надо постоянно анализировать взаимоотношения с клиентами на каждом этапе сотрудничества. 30% страховых компаний России уже применяют технологии искусственного интеллекта. Чаще всего он используется для проведения скоринга при предстраховой проверке, выявления мошеннических убытков, прямых продаж страховых продуктов, проведении кампаний целевого маркетинга и кросс-продаж продуктов и услуг существующим клиентам.
Например, анализ существующих кейсов показал, что применение искусственного интеллекта в кросс-продажах клиентам ОСАГО позволяет существенно повысить их эффективность. Так, при проведении кросс-продаж традиционным способом полис добровольного страхования приобретали только 4% владельцев ОСАГО. Среди отобранных искусственным интеллектом клиентов этот показатель достигает 40%. В целом, трудозатраты на кросс-продажи снижаются в 40 раз. А средний рост сборов по продуктам добровольного страхования в результате использования AI увеличился на 15%.
Сергей Кравченко, Ex-руководитель разработки BI Росгосстрах, отметил, что основная задача BI-подразделения в компании — сделать так, чтобы данные были доступны всем сотрудникам. Только тогда они смогут решать задачи на основе одной и той же исходной информации. Но для этого надо организовать обучение и серьезно заняться популяризацией использования данных: пока люди этого боятся. «Скоро умение работать с данными будет таким же необходимым требованием, как умение работать с компьютером», — говорит Сергей Кравченко.
Он рассказал о том, что еще в 2018 г. в Росгосстрахе все данные собирались вручную и хранились в Excel-таблицах. В компании была создана единая аналитическая платформа, на которую загружаются данные из разных информационных систем. Затем на их основе формируется отчетность. Сегодня на платформе реализовано около 2000 аналитических панелей, ее используют более 6000 человек, работающих в 30 направлениях.
Большие данные в ритейле и на производстве
Тигран Саркисов, директор по работе с данными Х5 Retail Group, рассказал, что компания становится цифровым многоканальным ритейлером. Она активно развивает платформу больших данных. Квалифицированных кадров, способных реализовывать необходимые бизнесу проекты, катастрофически не хватает. По этой причине в Х5 Retail Group решили пойти по пути внедрения концепции самообслуживания: пользователи получат простой и безопасный доступ к данным и смогут самостоятельно формировать необходимую аналитику.
Стратегия внедрения самообслуживания уже разработана. Пока она ориентирована на бизнес-аналитиков, но со временем распространится и на сотрудников, работающих «в полях». Запущен пилот по обеспечению доступа к рекомендациям о проведении промо-акций. Сейчас этой работой занимаются специалисты головного офиса. В ходе пилота сотрудники на местах получили возможность самостоятельно добавлять необходимые данные, например, прогноз погоды, и таким образом получать результаты с учетом локальных особенностей.
На сегодняшний день более 300 бизнес-пользователей уже работают в концепции самообслуживания. Трудозатраты на получение аналитики значительно сократились, а уровень удовлетворенности пользователей растет.
Эдуард Жучков, директор по цифровым инновациям и большим данным IDS Borjomi International, отметил, что в настоящее время существует множество источников данных, которые могут быть полезны производителю: это данные от торговых сетей, операторов фискальных данных, мобильных операторов. Их можно или купить, или получить через портал поставщика в торговой сети. На основе анализа этой информации можно принимать управленческие решения, говорит Эдуард Жучков.
В качестве примера он привел анализ рекламных компаний, особенно тех, которые проходят в офлайн-режиме. Большие данные дают возможность оценить, сколько компания заработала благодаря тому или иному маркетинговому мероприятию, и при необходимости скорректировать его. Еще одно важное направление — таргетирование аудитории по самым разным параметрам: владельцы собак, сторонники ЗОЖ и т.д. на основе данных телеком- и интернет-компаний. Для этого в компании развивают Data-driven Marketing Platform – решение, которое осуществляет сбор, хранение, систематизацию, визуализацию и использование персональных пользовательских и маркетинговых данных в различных платформах под разные задачи в едином интерфейсе.
Большие данные и социнициативы
Эдуард Маас, директор проектов Центра цифрового развития АСИ, рассказал о поддержке, которую Агентство стратегических инициатив оказывает социально ориентированным проектам. «Сегодня большие данные у всех на слуху и активно применяются в бизнесе, — отметил он. — Но социальным проектам, где отсутствует прямая коммерческая выгода, технологии часто недоступны».
Цифровые решения 2020
Источник: АСИ, 2021
Центр цифрового развития АСИ готов предложить им доступ к инфраструктуре, разнообразные сервисы, в том числе сервис поиска активных участников сообществ и партнеров, работа с контентом и вовлечение, обогащение, обмен данными, а также поддержку и тиражирование лучших решений.