Разделы

Бизнес Интернет ИТ в госсекторе Техника

Данные переписи населения будут «чистить» с помощью специальных алгоритмов

В ходе первого этапа Всероссийской переписи населения были собраны данные о 99% жителей страны. Эта цифра включает в себя данные из разных источников, включая переписчиков и Портал госуслуг. Теперь начинается этап «очистки» данных и удаление дубликатов, за который будет отвечать запущенная Росстатом BI-система.

Данные о россиянах направили на обработку

В России завершился первый этап Всероссийской переписи населения (ВПН-2020, которая первоначально должна была пройти в 2020 г.). Формально было 99% от оценочной численности населения. Как пояснил глава Росстата Павел Малков, эта цифра получения путем прямого сложения из всех источников: от переписчиков, портала Госуслуг, специализированного контингента (военные части, тюрьмы) и административных данных (используются для дополнения собранной информации).

По словам Малкова, теперь собранная информация будет обрабатываться, в том числе с целью убрать дублирующие и «грязные» данные. Первые оперативные данные о численности населения будут опубликованы в конце января 2022 г., а полные итоги – до конца 2022 г.

ВПН-2020 стала первой переписью, при проведении которой использовались цифровые технологии. Переписчики вместо традиционных ходили с планшетами, также переписаться можно было с помощью Портала госуслуг.

Перепись на планшетах

Оператором цифровизации переписи был назначен «Ростелеком». Он закупил для переписчиков 360 тыс. планшетов, работающих на базе отечественной операционной системы «Аврора» (компания-разработчик «Аврора» также находится под контролем «Ростелекома»). Сами планшеты также отечественного производства, они собраны на заводах «Аквариус» в Шуе (Ивановская область) и «Байтэрг» в Москве.

per600.jpg
Начинается этап «очистки» данных переписи и удаление дубликатов, за который будет отвечать запущенная Росстатом BI-система

На планшетах установлено специальное приложение для проведения переписи с переписным листом и картографическим сервисом. Кроме того, планшеты поддерживают дистанционое управление, а доступ к сторонним приложения и интернет-ресурсам для переписчиков закрыт. «Ростелеком» потратил на закупку планшетов 7,2 млрд руб., а Росстат заплатил «Ростелекому», 8,95 млрд руб. за услуги по закупке планшетов, разработке ПО, поддержку сервисов удаленного управления и т.д.

Кроме того, «Ростелеком» разработал для Росстата автоматизированную систему (АС) ВПН стоимостью 560 млн руб. Система объединила в себе средства для автоматизации работ по всем этапам проведения переписи, включая обработку сведений о населении (в том числе сканирование и распознавание машиночитаемых бланков), ввод данных через интернет, функционирование мобильных устройств, проведение кодирования и формально-логистического контроля, формирование базы данных переписи, получение итоговых таблиц, проведение мониторинга всех этапов переписи и формирование необходимых данных для визуализации хода подготовки и проведение ВПН-2020.

Система бизнес-аналитики и «очистка» данных

Также Росстат применяет для проведения переписи систему бизнес-аналитики Contur-BI, лицензию на использованию которой ведомство приобрело у компании «Контур-Компонентс» за 16 млн руб. Система состоит из трех модулей. В первом модуле хранятся данные о подготовке к переписи, во втором – данные о ходе сбора сведений о населении, в третьем – визуальная информация о процессе обработки уже собранных материалов (как с помощью планшета, так и с помощью Портала госуслуг), в третьем модуле - визуальная информация о процессе обработки уже собранных материалов.

BI-система будет отвечать и за «очистку»у данных, полученных в ходе переписи. Наличие несколько источников информации и привело к задвоению полученных результатов: например, человек мог самостоятельно переписаться через пункты переписи, а его родственники переписать его через Портал госуслуг. Задача «очистки» полученных данных осложняется тем, что перепись была анонимна.

«Очистка данных представляет из себя выявление и удаление дублей, заполнение пропущенных полей, исправление ошибок в типах данных (например, число содержит символ), исправление или удаление недостоверных значений (возраст составляет 999 лет или несуществующий адрес), - пояснил CNews гендиректор «Контур – Компонентс» Владимир Некрасов. - Большая часть таких ошибок не допускается программой ввода данных, для этого в ней есть правила формально-логистического контроля, но часть ошибок может быть выявлена только постконтролем».

«BI является конечным инструментом, в контексте очистки данных – это инструмент эксперта, в нем многие ошибки становятся видны мгновенное, например, неверные адреса, пустоты группируются и становятся очевидными с первого взгляда, - продолжает Некрасов. - Используя функционал матанализа (среднее квадратическое отклонение, дисперсия), можно выявлять аномальные отклонения. Также для контроля качества данных используются многомерные правила условного форматирования, когда неверные или подозрительные числа выделяются цветом или символом».

Мнения экспертов

Эксперты считают реалистичной решение задача «очистки» полученных в ходе переписи данных. «С технической точки зрения очистка от дублей собранной информации возможна, даже при условии работы с анонимными данными переписи, - полагает представитель «ИКС Холдинга» Юлия Остроухова. - Есть наборы информации, которые позволяют, с учетом достаточности выборки, определять дубликаты. Конечно, это работа с вероятностями, но вероятность будет очень высокой при совпадении, например, даты рождения, адреса и пола».

Эксперты также отмечают все возрастающий спрос на BI-системы. «Большими объемами данных лучше управлять с помощью профессиональных средств автоматизации: многие алгоритмы разрабатывать еще много лет назад для операторов связи для лучшей оптимизации трафика и дискового пространства в памяти, - говорит доцент кафедры информатики РЭУ им. Г.В. Плеханова Александр Тимофеев. - Сейчас в большей степени процесс обработки и фильтрации данных усложняется с каждым годом. Тренд года – управление данными и систематизация: всем уже не интересно погружаться в «болото данных».

«В этой связи появляется спрос на BI-системы, платформы, - продолжает Тимофеев. - Вырос спрос на функционал: возможность делиться источниками данных, передавать данные из BI-платформы другим системам, удалять согласованно данные, уведомлять. Управление качеством данных (DQM) также становиться важным как запрос на упрощение работы с неструктурированными данными, а также потребность в предиктивной и предписывающей аналитике».

Как будет осуществляться процесс публикации полученных в ходе переписи данных

По словам Владимира Некрасова, публикация результатов переписи будет выполняться несколькими способами: книги с множеством публикационных таблиц для вечного хранения, онлайн публикация итогов в интерактивных информационных панелях, микроданные для исследователей. BI платформа будет использована для публикации итогов в виде аналитических итогов и информационных панелей. В них итоги будут отображаться в виде интерактивных карт, графиков, разнообразных диаграмм. Это позволит пользователю быстро и глубоко понимать структуру и динамку населения страны во всех возможных разрезах.

Также исследователям будет доступен инструмент работы с микроданными, в котором они смогут выполнять незапланированные запросы, получать итоги в новых сочетаниях разрезов, выгружать как результаты расчетов, так и произвольные наборы данных для анализа в собственных программах. «Этот инструмент тоже будет сделан на BI-платформе, его важными частями являются алгоритмы деперсонификации, которые гарантируют защиту персональных данных, а также инструменты распределенных вычислений, которые нужны для того, чтобы работа в браузере с несколькими сотнями миллионов уникальных записей (анкетами трех переписей населения) была не только технически возможна, но и комфортна», - продолжает Некрасов.

Игорь Королев

Подписаться на новости Короткая ссылка