Как новая платформа помогла «Росгосстраху» улучшить качество данных для бизнес-процессов
В сентябре в «Росгосстрахе» в промышленную эксплуатацию ввели критически важную платформу, которая пришла на смену американской Pentaho Data Integration. О том, как проходила разработка и внедрение нового оркестратора для управления процессами обработки данных, CNews рассказали заместитель директора департамента анализа и моделирования СК «Росгосстрах» Виктор Бушмин, а также представители вендора — компании «Синимекс»: руководитель отдела по анализу данных Родион Мартынов и менеджер по работе с ключевыми клиентами Максим Жаров.
CNews: Виктор, скажите, смена иностранного ПО на отечественное — сугубо дань тренду на импортозамещение или не только? И как вы искали вендора, что было важно при выборе ИТ-партнера?
Виктор Бушмин: Мы не искали замену именно инструменту Pentaho. Дело в том, что бизнес-процессы в «Росгосстрахе» основаны на данных, ими пользуются продавцы, управляющие портфелями по различным продуктам. В течение последних лет произошел лавинообразный рост данных, также рос бизнес самой страховой компании, многие процессы и ИТ-решения нуждались в масштабировании. Одновременно с этим возникли ограничения по использованию иностранного ПО, наблюдались редкие сбои процесса обработки данных, что влияет на возможность оперативного принятия решений и администрирования бизнес-задач компании.
Тогда обратились в компанию «Синимекс», с которой по направлению анализа данных работаем с 2019 года. Мы попросили коллег подключиться и посмотреть на то, как обрабатываются данные внутри контура «Росгосстраха» сейчас: какие данные попадают в систему грязными, дублирующими друг друга, какие не попадают вообще, где происходит сбой в обработке. В качестве технического задания мы представили вендору прототип, который был написан методом вайб-кодинга. Этот скрипт уже решал проблему, но надо было поставить процесс на промышленные рельсы. Нам нужна была система на открытом коде, разработанная на Python, чтобы соблюдались все требования о документировании этого решения, чтобы оно было максимально шаблонизировано и любому было понятно, откуда данные попадают, как обрабатываются системой, и как добавлять новые узлы, новые колонки. Мы должны учитывать требования группы ВТБ, в которую входит «Росгосстрах», регулятора и федеральных законов. Необходимо было обеспечить такой уровень документирования решения, чтобы при смене контрагента, например, по результатам очередной закупки услуг, новый ИТ-партнёр мог быстро разобраться с решением, и бизнес-процессы не прерывались.
Основной наш запрос был на повышение производительности и отказоустойчивости процесса поставки данных для ключевых бизнес-процессов. Замену Pentaho решено было построить на уровне, доступном для специалистов Data Science, которые будут с ним работать и поддерживать его функционал. Было важно, чтобы именно бизнес-подразделения, а не ИТ, могли самостоятельно развивать новое решение. Мое мнение заключается в том, что ни один ИТ-специалист не сможет так глубоко, как бизнес-команда, понять, зачем и как формируются данные.
Разработка реализована на Python, благодаря чему удалось переработать архитектуру, устранив необходимость во множестве временных таблиц и сложных SQL-скриптов. В начале текущего года мы получили новое решение, после чего проводилась масштабная работа по сверке данных и устранению выявленных несоответствий и узких мест, а с сентября система перешла в промышленную эксплуатацию, то есть это значит, что действующая система заменила Pentaho в ИТ-ландшафте «Росгосстраха» в части процессов подготовки данных.
CNews: Какие задачи решает система от компании «Синимекс»?
Виктор Бушмин: Все, касающиеся сбора, обработки и анализа данных. Мы уверены, что новое решение позволит повысить отказоустойчивость, усовершенствовать работу с данными. Мы сможем видеть ретроспективу: откуда данные поступают, как преобразуются и где хранятся.
Система помогает нам улучшить качество обслуживания клиентов. Полнота данных о клиенте, объекте страхования, истории наших отношений с клиентом очень важны. Предварительный расчет стоимости ОСАГО или КАСКО должен предоставить выгодную цену для клиента, которая при последующих уточнениях сильно не изменится. Учитываются самые разные факторы о клиенте: водительский стаж, количество аварий и т.д. То есть клиент указывает о себе минимум данных, а точные и актуальные данные нам позволяют подобрать выгодные предложения. Это возможно потому, что система принятия решений и верификации проверяет историю клиента на широком объеме доступных данных. Платформа гарантирует качество информации, мы можем меньше об этом беспокоиться.
CNews: Внедрение нового ПО заняло несколько месяцев. Насколько сложна система в обслуживании и администрировании?
Виктор Бушмин: Мы собираемся полностью самостоятельно управлять решением. Квалификации инженеров данных на это должно хватить, особенно если привлечь в помощь ИИ и корпоративных чат-ботов. Коллеги из компании «Синимекс» будут на втором и третьем уровнях поддержки нового решения, помогут освободить наших сотрудников от каких-то рутинных задач, связанных с администрированием системы. Что касается простоты системы, то нам было важно, чтобы наши коллеги из продаж, операционной деятельности, маркетинга в любой момент могли увидеть в BI-системе и отчетах, как идут продажи, как работают маркетинговые акции, где стоит дополнительно поработать над продуктами. При этом массив данных у нас огромный, важно, чтобы они не дублировались, попадали в систему моделирования или принятия решений достоверными и актуальными. С переходом на платформу компании «Синимекс» мы увидели в наших процессах точки роста и развития, смогли расширить нашу палитру рабочих данных.
До внедрения платформы у нас не было инструмента, гарантирующего отсутствие искажений данных при трансформациях. Мы долго не выводили новую платформу в промышленную эксплуатацию, потому что тщательно сверяли качество данных, обработанных в Pentaho и в новой системе. Постепенно обнаруживали новые ограничения и подводные камни, которые не были учтены в первоначальном прототипе. Мы постепенно добавляли новые потоки данных и дошли до обработки 24 таблиц суммарно на пять тысяч полей. У нас минимальный порог при проверке датасета — от миллиона до 10 миллионов строк. Соответственно, весь процесс сверки данных достаточно продолжительный. Но в сентябре мы вывели проект в промышленную эксплуатацию, и он доказал свою работоспособность.
CNews: Родион, каким образом вы устранили необходимость во временных таблицах и сложных SQL-скриптах? Какие технологии и паттерны применялись для реализации ETL-процессов?
Родион Мартынов: В процессе работы над проектом мы должны были провести рефакторинг самого процессинга, то есть не просто повторить предыдущее решение, а сделать его улучшенную версию. Для этого мы погрузились во все нюансы процессинга. Важно было понять, какой смысл для бизнеса имеет та или иная цифра. Необходимо было увидеть за каждой цифрой бизнес-процесс. При разработке платформы мы вникли в контекст и природу данных. И в ряде случаев перепроверяли и сохраняли точные цифры без округления вплоть до 12-го знака после запятой.
Мы выбрали модульный подход к оркестратору, запускающий Python-скрипты в формате направленного ациклического графа. Это не монолит, не микросервисы, а многокомпонентная система с взаимозависимостями.
Мы пошли по пути создания модульности, то есть отказались от обработки миллиона или десяти миллионов записей одномоментно. Массив данных система как бы режет по кусочкам и обрабатывает каждый из них в отдельности. Мы создали отдельный слой, внутреннюю базу данных, которая находится внутри нашей системы и обрабатывает исключительно результаты ее процессинга. Это позволяет увидеть, какие изменения происходили с каждой из цифр огромного массива данных на всех этапах обработки.
Также компания «Синимекс» перенесла бизнес-логику в понятные и легко поддерживаемые ETL-процессы, что улучшило качество данных. Новое решение не только повысило производительность обработки данных в системе корпоративного хранилища данных (КХД) «Росгосстраха», но и упростило сопровождение за счёт отказа от избыточной логики и дублирующих элементов. Работа с данными из разных источников была централизована в едином инструменте, что обеспечило целостность и управляемость процессов.
CNews: Каким компаниям подойдет данное решение от компании «Синимекс»?
Максим Жаров: Сегодня синхронизация данных уже перестала быть модным трендом и стала обыденностью. Инструменты для обработки данных, такие как DTE (Data Transformation Engine), стали массовыми, поэтому наше решение — это не что иное, как кастомная сборка для конкретной задачи, а не стандартный продукт.
Раньше такие решения рассматривались только для крупных предприятий как «Росгосстрах», но в последнее время реалии изменились. Мы видим рост клиентов из среднего бизнеса — для нас это новинка, поскольку они раньше не могли предоставить нужный объем данных или взаимодействовать на нужном для реализации проекта уровне. Благодаря открытому исходному коду и облачным провайдерам появились условные решения, позволяющие и в компаниях сегмента среднего бизнеса строить архитектуру, близкую к крупным игрокам.
В целом, если обобщить, то решение подходит, во-первых, крупным компаниям с госучастием. Платформа не просто реализована российской компанией, но и выполнена на отечественной операционной системе с применением отечественных баз данных. Это решение не должно иметь даже потенциальных ограничений в любых компаниях, в том числе и, как «Росгосстрах», относящихся к субъектам критической информационной инфраструктуры (КИИ). Во-вторых, видится, что платформа актуальна финансовому сектору, у которого даже микроуровень принятия решений связан с анализом большого количества цифр. Наконец, помимо крупных государственных и частных компаний, платформа может быть актуальна для среднего и, возможно, даже малого бизнеса, обладающего большим массивом данных. Сегодня все больше организаций проходят процесс цифровизации и выстраивают бизнес-процессы и бизнес-логику решений на основе больших данных.
CNews: Можно ли сказать, что новая платформа стала для «Росгосстраха» инструментом управления бизнесом?
Виктор Бушмин: Не нужно иметь богатое воображение, чтобы понять, что в финансовой и страховой сферах неправильно прочитанные данные могут привести к огромным убыткам. Ведь они задействованы и в прогнозировании, и в предотвращении мошеннических схем. Система от компании «Синимекс» для нас — как панель управления бизнесом. Точно также, как водитель, глядя на стрелки спидометра, датчики бензина, тормозной жидкости или масла в двигателе, принимает решение о дальнейших действиях при управлении автомобилем, так и компания на основе данных принимает конкретные бизнес-решения.
■ Рекламаerid:2W5zFHa14GYРекламодатель: ООО «СИНИМЕКС ДАТА ЛАБ»ИНН/ОГРН: 9705115085/1187746139635Сайт: https://cinimex.ru





