Создание централизованной системы сбора, обработки, хранения и распространения статистических данных

Заказчик
Федеральная служба государственной статистики (Росстат)
Руководитель проекта со стороны заказчика
ИТ-поставщик
ЗАО «КРОК инкорпорейтед»​
Год завершения проекта
2018
Сроки выполнения проекта
Декабрь, 2014 — Сентябрь, 2018
Масштаб проекта
400000 человеко-часов
8000 автоматизированных рабочих мест
Цели
1) Повышение согласованности выходных данных, получаемых в процессе обработки форм регулярных статистических наблюдений.
2) Повышение скорости реакции процесса сбора и обработки данных регулярных статистические наблюдений на изменения в методологии.
3) Получение воспроизводимого процесса формирования выходных данных на основе первичных.
4) Повышение управляемости и прозрачности процесса сбора и обработки статистических данных.
5) Приведение к единой нормативно-справочной информации (НСИ) задач регулярных статистических наблюдений.
6) Централизация обработки данных.
7) Организация централизованного хранения первичных данных работ производственного плана.

Уникальность проекта

Производственный план Росстата насчитывает большое количество работ, выполнение которых, с учетом разницы часовых поясов в России, должно проводится круглосуточно.  Процесс сбора, обработки, и предоставление статистической информации в Правительство и другим пользователям не должно было прерываться.

В короткие сроки выполнена задача проектирования и реализации систем. В условиях оперативного сбора и обработки статистической информации произведен бесшовный переход на новую систему без остановки производственного процесса.

Кроме того, при переходе на новую централизованную Систему выполнялась задача по изменению методологии расчета статистических данных, связанной с переходом на новые версии общероссийского классификатора видов экономической деятельности (ОКВЭД 2) и общероссийского классификатора продукции по видам экономической деятельности (ОКПД 2). Методология стала сложнее, но в тоже время более совершенной, отвечающей современным требования государственной статистики.

Была выполнена задача по обеспечению «прозрачности» расчета данных. Теперь любую полученную цифру можно быстро проверить и проследить её путь от сбора первичных данных до рассчитанных и опубликованных показателей.
Одновременно с внедрением системы происходило изменение организационно-штатной структуры Росстата. Укрупнялись и сливались территориальные органы Росстата, передавались и перераспределялись их полномочия и зоны ответственности.

Также уникальным является масштаб проекта: количество зарегистрированных пользователей – 8092. Более 200 специалистов КРОК участвовали в разработке. Охвачено 85 ТОГС, более 2000 РОГС.
Использованное ПО
Сервер приложений Microsoft Internet Information Services, входящий в поставку ОС Microsoft Windows Server, в качестве среды для исполнения web-приложений
ОС Windows Server для узлов серверов приложений, СУБД и модуля первичной обработки отчетов
ОС SuSE Linux Enterprise Server для узлов модуля кеширования и программных балансировщиков нагрузки
На уровне сервера функционирует web-сервер MS IIS и контент-сервер EMC Documentum 6.7 SP2.
Клиентский уровень состоит из web-приложения на HTML-5 и JavaScript.
Система индексирования и поиска Elasticsearch в качестве основы для модуля кеширования подсистемы хранения данных
В качестве базы данных для хранения информации была выбрана нереляционная база данных Cassandra.
Кластер Cassandra состоит из 33 серверов. Каждый сервер включает в себя 10 SSD-дисков, по 800 ГБ на каждом сервере.
В качестве базы данных для проведения выбран Oracle. Кластер Oracle состоит из 4 серверов, по 1024 ГБ оперативной памяти на каждом сервере.
Описание проекта
Росстат имеет трехуровневую организационную структуру, объединенную единой информационно-вычислительной системой (ИВС Росстата): 1. Федеральный уровень (ЦА и ГМЦ Росстата) осуществляет обработку данных федерального уровня; 2. Региональный уровень (Территориальные органы государственной статистики (ТОГС); 3. Районный уровень (районные и межрайонные отделы статистики (РОГС)). Ранее на каждом уровне организации имелись собственные объекты информационной вычислительной системы, контролировать которые было чрезвычайно сложно. Руководством Росстата был взят курс на проведение процесса централизации всей вычислительной сети. В ходе реализации проекта были созданы и модернизированы информационные системы, автоматизирующие процессы сбора, обработки и предоставления итоговых статистических данных: • Единая система сбора и обработки статистической информации ИВС Росстата (далее – ЕССО) в части электронного сбора - автоматизирует деятельность сотрудников Росстата, связанную с выполнением задач сбора от респондентов и обработки первичных статистических данных, предусмотренных федеральным планом статистических работ; • Система ведения нормативно-справочной информации (далее – НСИ) - предназначена для централизованного ведения, обработки и представления пользователям и смежным информационным системам нормативно-справочной информации. Это достигается путём формирования и ведения единой базы данных НСИ, обеспечения ее полноты, целостности и непротиворечивости. • Система подготовки электронных экономических описаний ИВС Росстата (далее – СПЭЭО) - позволяет осуществлять подготовку метаданных, описывающих федеральные статистические наблюдения в установленном формате, включая формализацию алгоритмов на каждом этапе обработки данных по формам федерального статистического наблюдения (далее – ФСН). • Централизованная система обработки данных ИВС Росстата (далее ЦСОД) - является наиболее массивным компонентом и по сути ядром вычислительной сети. ЦСОД предназначен для обработки данных регулярных статистических наблюдений. • Единое хранилище данных (далее – ЕХД) - является единым источником достоверной информации по всем собранным и рассчитанным статистическим показателям Росстата. ЕХД обеспечивает историческое хранение данных, расчёт расчётных статистических показателей, предоставление хранимых данных внешним системам для формирования отчётных форм . Одним из направлений модернизации было следование мировым тенденциям: - переход на технологии с открытым кодом - использование мировых технологий BigData. Сложная распределенная система, рассчитанная на хранение и обработку больших массивов данных. Хранилище системы построено на основе NoSQL-решения и может масштабироваться в очень широких пределах. - обеспечение работоспособности и отказоустойчивости программных комплексов - использование электронной подписи
География проекта
География проекта - вся Россия. Территориальные органы статистики: 85 подразделений. Районные органы статистики: более 2 000 подразделений. Центральный аппарат – город Москва.
Дополнительные презентации:
Презентация_о_проекте_Росстат_КРОК.pptx
Функциональная структура.jpg
Коментарии: 4

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Александр Артюхов
    Рейтинг: 95
    АО "Организация "Агат"
    Руководитель проекта
    26.12.2018 17:50

    Здравствуйте!
    Большой и сложный инфраструктурный проект, связанный с большим спектром изменений, далеко выходящих за инфраструктурные рамки. Между тем в описании есть ряд моментов, вызывающих вопросы.
    1. Проект длился без малого 4 года. Между тем в "уникальности" идёт ссылка на короткие сроки. Можно ли поконкретнее, в какие сроки "... выполнена задача проектирования и реализации систем", и почему они были установлены такими?
    2. Требует разъяснений фраза "выполнялась задача по изменению методологии расчета статистических данных". В какой мере в новой методологии учитываются десятками лет наработанные методологии и данные в связи с новыми изменениями? Нет ли риска оказаться в одночасье с оторванными "от исторических корней" показателями?

    • Михаил Бурдаков Александр
      Федеральная служба государственной статистики (Росстат)
      Начальник управления информационных ресурсов и технологий
      28.12.2018 14:45

      Здравствуйте! Спасибо за интерес к проекту!
      1.Стояла задача, за один год получить работающую Систему с необходимым набором функциональных возможностей, которые бы обеспечили полный цикл обработки первичных статистических данных по формам федеральных статистических наблюдений (ФСН). Для того, чтобы уложиться в срок, этап проектирования и разработки был завершен за 44 недели, далее проводились испытания Системы в опытно-промышленном режиме. Год выполнялась опытно-промышленная эксплуатация, задачей которой была верификация выполненной формализации форм ФСН и результата их обработки по сравнению с результатами, полученными в старой системе. В дальнейшем выполнялся поэтапный процесс модернизации и развития функциональных и технических возможностей ЦСОД по следующим направлениям:
      -развитие функциональный возможностей ЦСОД под нужды новых форм ФСН, обработка которых переводится в ЦСОД;
      -повышение автоматизации взаимодействия структурных подразделений всех уровней Росстата, задействованных в обработке данных в ЦСОД;
      -унификация процессов сбора и контроля первичных статистических данных;
      -расширение функциональных возможностей по формированию оперативных (нерегламентных) запросов к данным;
      -расширение функциональных возможностей обработки данных, включая формирование выгрузок во внешние системы-потребители;
      -предоставление возможности автоматизированной обработки данных на региональном уровне;
      -и другие направления.
      2. Речь идет об изменении методологии, связанной с переходом на централизованную схему сбора, обработки и распространения статистических данных. Т.е. непосредственно методология получения (расчета) статистических показателей не изменялась.
      Потребовалась дополнительная регламентация и унификация всей деятельности в рамках централизуемых процессов. Например, потребовалось внесение изменений в методологию в части:
      -использования единой нормативно-справочной информации на всех этапах производства статистических данных;
      -использования единых метаданных (формализованных правил обработки), на основе которых выполняется обработка данных в ЦСОД на всех уровнях Росстата;
      -централизации хранилища получаемых статистических показателей для формирования выгрузок во внешние системы-потребители;
      -и другие.

  • Александр Балабанов
    Рейтинг: 310
    Айсберри
    CDO
    04.01.2019 23:20

    Михаил приветствую! Интересный, значимый проект! Если честно - то предполагал, что реализованное ИТ-решение существует в РОССТАТЕ уже задолго до 2014 года... ан нет... Непосредственно реализовывал аналогичный проект в коммерческой организации - поэтому знаком со всем изнутри. Несколько вопросов: 1. Самая больная тема в подобных проектах Централизованное управление НСИ. Прокомментируйте - каким образом выстроены процессы управления НСИ - кто является Владельцем, сколько человек участвуют в данном процессе, каковы их роли? Какая система является Мастер-системой? Сколько времени потрачено на постановку НСИ? 2. Какова интеграционная составляющая проекта? 3. Каким образом обеспечивается сопровождение и развитие ИТ-решения - собственный Центр компетенций или Аутсорсинг? 4. Каковы объемы Хранилища на сегодняшний день? 5. Как гарантируется качество данных в Хранилище, в НСИ?

  • Анна Коробова
    Рейтинг: 10
    Префектура Зеленоградского АО г.Москвы
    начальник отдела информатизации
    05.01.2019 19:34

    Добрый день, Михаил! Масштаб проекта впечатляет!
    Поясните пжл. как в проекте применен мировой опыт использования BigData? Есть ли планы развития нейронных сетей для обработки и извлечения данных в составе ЦСОД ?

Предметная область
Отрасль
Управление