Бизнес больше не обсуждает, стоит ли переезжать в облака — государственные и коммерческие компании активно это делают и полагают, что иногда даже ставка на публичное облако оправдывает себя. На организованной CNews Conferences и CNews Analytics конференции «Облачные технологии 2021» обсуждали, как использовать облачные среды с наибольшей выгодой, учесть все минусы и не попасться в ловушку скрытых расходов.
Петр Предтеченский: Как разобраться во всем многообразии облачных сервисов?
Обработка данных — сложный и трудоемкий процесс. Лучше всего использовать для этого облачные платформы, которые можно взять в аренду на определенный срок, протестировать, а потом удалить, заплатив только за реально потребленные ресурсы. Об одной из таких платформ SberCloud.Advanced рассказали Петр Предтеченский, руководитель направления по работе с корпоративными клиентами, и Иван Яковлев, продуктовый менеджер AI Cloud компании SberCloud.
CNews: Какие проблемы возникают при обработке данных?
Петр Предтеченский: Одна из проблем, с которой сталкивается бизнес, заключается в том, что данные поступают из разных источников и в разных форматах. Прежде чем с этими данными можно будет начинать работать, их, возможно, потребуется привести к единому формату и поместить в единое хранилище, например, КХД — корпоративное хранилище данных. Другая проблема может заключаться в том, что не всегда можно заранее предсказать, как и куда будет развиваться бизнес, с какими данными придется работать через год-два и, соответственно, какую платформу лучше выбрать для хранения и обработки данных.
Иван Яковлев: Направление больших данных имеет свои особенности, которые отличаются от традиционных наборов данных – прежде всего, конечно, это размер выборки и разнородность/неоднородность данных. Кроме того, у больших объемов данных есть уникальные особенности, такие как накопленный шум, ложная корреляция, случайная эндогенность – все эти моменты возникают из-за высокой размерности. Дополнительно стоит отметить уже не технические, а юридические аспекты. Речь об обработке данных, требующих обеспечения соответствующих классов защищенности данных и соответствия инфраструктуры.
CNews: Как наиболее эффективно организовать обработку данных?
Петр Предтеченский: К сожалению, нет универсального рецепта, как лучше и эффективнее всего выбрать наилучшее решение и организовать загрузку данных в выбранную платформу. Можно предположить, что у каждого клиента процесс будет немного отличаться от аналогичных процессов других клиентов. Важно, чтобы каждый клиент мог найти свой, оптимальный именно для него, вариант реализации этого процесса.
Одним из важнейших преимуществ облаков является возможность очень быстро получать вычислительные ресурсы как по модели IaaS, так и готовые ИТ-платформы по модели PaaS. Кроме того, в облаках приличных провайдеров оплата происходит только за фактически используемые ресурсы. Это означает, что можно взять какой-то ресурс на небольшой срок, протестировать возможности этой платформы, а потом удалить ее, заплатив только за те несколько часов или дней, когда платформа фактически работала.
Эти возможности и такой подход к оплате за ресурсы позволяют очень быстро и условно недорого (прежде всего, с точки зрения вычислительных ресурсов, человеческие ресурсы никто не отменял) проверить различные платформы и подходы к хранению и анализу данных в облаках. Иными словами, сам принцип облаков позволяет быстро познакомиться с разными платформами, «пощупать» их, погонять на реальных данных и выбрать наиболее подходящий вариант.
Нужно отметить, что продвинутые облака предлагают массу сервисов для хранения и обработки данных, а также для загрузки данных из внешних систем. Казалось бы, тут может возникнуть еще одна проблема: как разобраться во всем многообразии облачных сервисов, выбрать наилучшие варианты и выстроить оптимальный процесс загрузки данных? Но тут все оказывается очень просто благодаря сказанному выше. Возможности использования публичных облаков быстро получать ресурсы и платформы, а также платить лишь за фактическое потребление позволяют быстро и дешево проверить множество вариантов и остановиться на самых подходящих и эффективных.
CNews: Какие возможности предоставляет SberCloud?
Петр Предтеченский: Облако SberCloud.Advanced предлагает широкий набор сервисов, которые могут использоваться для хранения различных типов данных: это реляционные и документоориентированные базы данных, корпоративное хранилище данных, кластеры Hadoop, объектное хранилище и ряд других.
Вместе с сервисами для хранения данных SberCloud.Advanced предлагает множество способов загрузки самых разных данных в эти хранилища. В первую очередь хотелось бы отметить сервис «бессерверных» вычислений FunctionGraph. С его помощью можно реализовать практически любой алгоритм обработки данных и их последующей загрузки в какое-либо хранилище на любимом языке программирования: Python, Go, Java и некоторых других.
Если по каким-то причинам требуется избежать программирования в явном виде, то облако SberCloud.Advanced может предложить сервис DAYU (Data-As-You-Use), построенный на базе Apache Sqoop. Сервис DAYU обладает вполне дружелюбным графическим интерфейсом, с помощью которого можно очень быстро настроить ETL-процесс (Extract-Transform-Load). Он будет получать потоковые или пакетные данные снаружи облака, каким-то образом трансформировать их (например, выполняя задачу по анонимизации некоторых полей), а затем помещать обработанные данные в одно из многочисленных доступных облачных хранилищ.
Нельзя не отметить, что в облаке SberCloud.Advanced с помощью сервиса MRS (MapReduce Service) клиенты имеют возможность создавать выделенные и легко масштабируемые кластеры Hadoop с возможностью выбора лишь необходимых компонентов экосистемы Hadoop. Это может стать отличным выбором для тех клиентов, которые работают с большими данными в разных форматах. Если же выделенный кластер Hadoop избыточен на данном этапе, то можно запускать задания по обработке больших данных, расположенных в разных хранилищах, с помощью сервиса DLI (Datalake Insight). Он представляет собой «бессерверный» Apache Spark. Сервис DLI также примечателен тем, что он тарифицируется только за фактическое время выполнение задания и за объем фактически обработанных данных.
Наконец, если перед клиентом стоит задача миграции внешних баз данных в облако SberCloud.Advanced, то тут прекрасно подойдет сервис DRS (Data Replication Service), с помощью которого можно в реальном времени и без простоев перенести в облако популярные реляционные базы данных MySQL и PostgreSQL, а также документоориентированную MongoDB.