Цифровая платформа Счетной палаты Российской Федерации

Заказчик
Счетная палата Российской Федерации
Руководитель проекта со стороны заказчика
Сроки выполнения проекта
Ноябрь, 2018 - Октябрь, 2019
Масштаб проекта
36000 человеко-часов
300 автоматизированных рабочих мест
Цели
Стратегия развития Счетной палаты РФ на 2018-2024 годы определяет приоритетные направления развития для реализации новых задач с учетом цифровизации информационного обеспечения деятельности Счетной палаты по осуществлению внешнего государственного аудита (контроля) на новом качественном уровне, где особо выделена задача создания цифровой инфраструктуры для поддержки аудита и аналитической деятельности.
На основании Стратегии Департаментом цифровой трансформации Счетной палаты разработана и утверждена Концепция цифровизации Счетной палаты РФ, которая определяет формат построения Цифровой платформы и рабочего места «Цифрового инспектора». С их помощью будет возможно расширить список используемых для аудита источников данных и повысить их качество, применять современные методы управления информацией, снижать трудоемкость традиционных видов аудита и обеспечивать развитие стратегического аудита за счет создания инструментов риск-ориентированных и аналитических моделей и применения современных методов предиктивной аналитики.
В рамках реализации Концепции цифровизации в Счетной палате создается Цифровая платформа – программно-аппаратный комплекс, предоставляющий возможности дата-аналитикам иметь в своем распоряжении необходимые данные и на их основании с помощью инструментария Цифровой платформы обрабатывать их, получая риск-ориентированные модели, аналитические модели, визуальные инструменты и т. д.


Уникальность проекта

1. Данные собираются из неопределенного заранее перечня источников всех возможных типов и этот перечень может со временем расширяться – в связи с этим необходимо было решить вопрос оптимального способа хранения разнородной информации, ее очистки, обработки, связывания данных из различных источников. 2. Источники данных создаются различными системами, по большей части вне Счетной палаты. Данные во внешних информационных системах построены на справочниках своей структуры и в результате связи между данными из различных источников не очевидны. Так же в качестве источников данных много файлов со машиночитаемой и машинно нечитаемой информацией, которые так же требуется привести к единому виду, распознать и связать с остальными данными. 3. Неготовность большинства конечных пользователей смотреть на данные по-новому, через аналитические модели и визуальные инструменты; неумение пользоваться этим инструментарием.
Использованное ПО
1. Python
2. MongoDB
3. Apache AirFlow
4. Arenadata Hadoop
5. Arenadata DB
6. Metabase
7. Pentaho BI

Сложность реалиазации
1. Неопределенное количество разнотипных источников данных.
2. Слабые и не всегда очевидные связи между источниками данных.
3. Проблема с качеством данных.
4. Сложности с выбором программного обеспечения. В связи с лицензионными рисками использование западного проприетарного ПО не желательно, а ПО Open Source не всегда полностью удовлетворяет требованиям.
5. Сложности в поиске сотрудников с необходимыми знаниями.
6. Долгий срок согласования и процесса госзакупки оборудования.
7. Неготовность большей части сотрудникам к работе в новом, цифровом, формате.

Описание проекта

Цифровая платформа позволяет сократить трудоемкость производства продуктов Счетной палаты и повысить их качество за счет внедрения новых аналитических возможностей и добавления новых источников данных.


Цифровая платформа Счетной палаты включает в себя:

  • ·хранилище данных – так называемое «Озеро данных»;
  • витрины данных – срезы, представляющие собой массивы тематической, узконаправленной информации, ориентированные на пользователей одной конкретной рабочей группы;
  • системы визуализации и аналитики на Open Source инструментах Pentaho BI и Metabase, которые позволяют представить уже созданные витрины данных в виде текстовой информации, графиков, диаграмм, структурных схем, таблиц, карт;
  • автоматизированные системы сбора и обработки предназначены для сокращения трудоемкости производства продуктов Счетной палаты и повышения их качества за счет внедрения новых технологий, аналитических возможностей и добавления новых источников данных и автоматической обработки этих данных.

«Озеро данных» состоит из следующих основных компонентов:

  • Хранилище сырых данных (Arenadata Hadoop)
  • Системы загрузки данных (Apache AirFlow, Python)
  • Хранилище метаданных (MongoDB)
  • Хранение витрин данных и промежуточных таблиц (Arenadata DB)

Технология хранения и обработки данных в озере строится по принципу виртуализации данных на основе семантического стека технологий, т.е. физически данные хранятся в хранилище сырых данных, но имеют дополнительно слой метаданных по модели RDF, описывающий структуру хранения данных и их связи. Получение данных происходит с помощью языка запросов SPARQL.


«Сырые» данные хранятся в файлах формата JSON с дополнительной служебной информацией. Файлы формата JSON выбраны по причине их независимости от структуры источника.


Автоматизированная информационная система «Единая проектная среда» (АИС ЕПС).

Основной целью взаимодействия Участников со Счетной палатой посредством АИС ЕПС является предоставление Участником в электронном виде сведений, запрашиваемых Счетной палатой в рамках проведения оперативного анализа исполнения и контроля за организацией исполнения федерального бюджета в текущем финансовом году, последующего аудита (контроля) и иных проверок путем поведения контрольных, экспертно-аналитических и иных мероприятий.


Пилотный проект «Цифровой департамент» Департамент цифровой трансформации Счетной палаты РФ проводит совместно с Департаментом аудита социальной сферы и науки.

Цель проекта: разработать технологии, позволяющие:

  1. кратно снизить трудовые и временные затраты ресурсы на рутинные операции традиционного аудита,
  2. повысить качество данных, обеспечить их надежность, полноту и единый формат.

Один из результатов – создание системы построения аналитической записки анализа бюджета ФОМС, что позволяет в автоматическом режиме получить данные из необходимых источников, сформировать витрину данных и, с помощью специально разработанного шаблона и программы-шаблонизатора, формировать предзаполненную данными аналитическую записку.


Аналитическая модель «Анализ профиля бедности в Ростовской области»

Цель: предоставить современный инструмент для контроля снижения уровня бедности в два раза до 2024 года (Указ Президента Российской Федерации от 07.05.2018 № 204) Ожидаемый результат: создание информационного ресурса, содержащего полные данные о получателях мер социальной поддержки, необходимых для:
  • проведения оценки реального уровня и структуры бедности,
  • анализа причин бедности граждан и семей,
  • создание региональных реестров граждан с доходами ниже прожиточного минимума,
  • развитие системы социальной помощи и её предоставления исходя из принципов адресности.
В результате создан прототип, позволяющий, при подключении к нему в качестве источника реальных данных ФНС, ПФР и других госорганов, построить набор аналитических представлений для анализа профиля бедного гражданина и бедной семьи.

Прототип представлен в виде преднастроенной виртуальной машины. Решение является масштабируемым и открытым, с современным интерфейсом и возможностью гибко манипулировать данными.



География проекта
Россия, Москва
Дополнительные презентации:
Проект создания цифровой платформы Счетной палаты РФ.pdf
Коментарии: 4
  • Денис Жидков
    Рейтинг: 26
    Независимый эксперт
    03.11.2019 19:15

    Целесообразно ли было бы создать единую цифровую платформу для Счетной Палаты и других организаций государственного аудита с дальнейшим переходом подотчетных организаций в федеральном масштабе на совместимые формы цифровой отчетности? Реально ли это и в какие сроки это можно было бы реализовать? Было бы это финансово целесеобразно в конечном итоге?

    • Михаил Петров Денис
      Рейтинг: 298
      Счетная палата Российской Федерации
      Директор департамента цифровой трансформации
      12.11.2019 14:06

      Да.
      Да, но про сроки говорить бессмысленно пока нет определения объема задачи.
      Да.

  • Александр Реут
    Рейтинг: 80
    ГЛАВУПДК ПРИ МИД РОССИИ
    Директор департамента информационных технологий
    09.12.2019 13:59

    День добрый! Интересует на сколько эффективно и легко удалось научится людям работать на "Язык R"? Так же интересует сравнение с AnyLogic, если такое возможно.

    • Михаил Петров Александр
      Рейтинг: 298
      Счетная палата Российской Федерации
      Директор департамента цифровой трансформации
      19.12.2019 16:12

      Добрый день!
      У нас уже были люди, которые знали R, поэтому не могу ответить насколько "эффективно и легко удалось научиться". Как говорят, R достаточно легок в освоении.
      "Сравнение с AnyLogic" - сорри, чего? R? оно все совершенно про разное... или с нашей платформой? ответ, в общем-то, тот же )))

Предметная область
Отрасль
Управление