Внедрение системы анализа больших данных РФС

Заказчик
Российский Футбольный Союз
Руководитель проекта со стороны заказчика
ИТ-поставщик
Российский Футбольный Союз
Год завершения проекта
2021
Сроки выполнения проекта
Сентябрь, 2020 - Октябрь, 2021
Масштаб проекта
2000 человеко-часов
Цели

Построения аналитической системы полного цикла для сбора, хранения и обработки информации из структурированных, слабо структурированных и неструктурированных источников.

Система позволяет проводить интеграцию с различными источниками данных, в том числе возможность загружать и обрабатывать данные, доступные в сети интернет и описывающие публичные события, связанные с соревнованиями по футболу и другими аспектами предметной области.

Система позволяет хранить данные в формате источника, для обеспечения возможности разбора исторических данных, в случае потребности в ранее не используемых показателях.

Уникальность проекта

В рамках проекта ставилась задача реализовать инструмент сбора и анализа данных, не уступающий решениям, которые используются ведущими игроками Телекома, Ретейла и Банковской отрасли. В рамках проекта удалось внедрить гибкую аналитическую среду полного цикла позволяющую собирать, хранить, обрабатывать данные и визуализировать результаты через BI инструмент. Решение строится на базе облачной инфраструктуры, и распределенной экосистемы решений Apache Hadoop, что позволяет гибко управлять вычислительными ресурсами и объемом зарезервированного дискового пространства без капитальных вложений в инфраструктуру. Основной объем хранимой информации составляют данные о субъектах футбола и футбольных событиях.
Использованное ПО

В рамках реализации решения используется инфраструктура облачной среды Яндекс.Облако.

Архитектура решения включает следующие блоки:

- Система хранения и обработки первично загруженных данных на основе экосистемы Hadoop (HDFS, Spark, Hive и другие инструменты)

- Реляционная база данных MySQL

- Реализация ETL на базе pyspark и python3

- Реализация краулера на базе python3

- BI Инструмент Tableau

Сложность реализации

Сложность реализации проекта заключалась в:

- подготовке и внедрении целостного решения, состоящего из технологических продуктов различных разработчиков

- разработке логической и физической структур реляционной базы данных, т.к. отраслевой стандарт, в отличие от многих других областей, отсутствует

- подключению технологически и структурно различных источников данных и выработка подходов к регламенту загрузки (в том числе выделению дельты изменений)

Описание проекта

До начала проекта в компании отсутствовало хранилище данных и инструменты, позволяющие собирать и хранить информацию из различных систем. В рамках проекта ставилась цель построения системы, которая смогла бы обеспечить выполнение всего спектра задач по сбору, хранению, анализу данных и формированию отчетности.

На базе внедренного инструмента удалось реализовать следующие процессы:

1) интеграция новых источников (прямое подключение к БД, API, парсинг/краулинг)

  • на данный момент произведена интеграция с 11 источниками, в том числе учетные системы РПЛ, ФНЛ1, ФНЛ2

2) хранение исторических данных, как в формате источника, так и в заранее подготовленных структурах базы данных

  • на момент подачи заявки система содержит примерно 2.5 Тб данных из различных источников

3) подготовка отчетов по требованию (ad-hoc)

  • процесс подготовки ad-hoc отчетности запущен, регулярно готовятся разовые отчеты для различных подразделений компании

4) разработка регулярных отчетов и BI отчетов

  • в рамках проекта разработано шесть BI отчетов для различных подразделений компании

География проекта
Все футбольные соревнования на территории РФС
Коментарии: 8
  • Михаил Петров
    Рейтинг: 756
    Счетная палата Российской Федерации
    Директор департамента цифровой трансформации
    15.11.2021 18:54

    привет!))
    а с какими данными система работает? что она дает бизнесу?

    • Дмитрий Фёдоров Михаил
      Рейтинг: 678
      Российский Футбольный Союз
      Директор департамента цифровых технологий
      15.11.2021 23:51

      Привет! Данные как базовые общедоступные - которые есть в протоколах матча (составы, замены, карточки, голы и тд), так и где возможно расширенные, то что называется фитнес данные. За счёт того что данные сквозные между всеми официальными соревнованиями, это позволяет проследить где и сколько игроки провели на поле и в каких амплуа, что позволяет сделать выводы относительно готовности молодых игроков для сборных, например.

      • Михаил Петров Дмитрий
        Рейтинг: 756
        Счетная палата Российской Федерации
        Директор департамента цифровой трансформации
        15.11.2021 23:58

        спасибо!

  • Александр Маркин
    Рейтинг: 815
    ГБУ «Безопасный регион»
    Начальник отдела программного сопровождения Ситуационного центра Губернатора Пензенской области
    23.11.2021 16:31

    Привет! О каких данных идет речь "слабо структурированных и неструктурированных источников" и как они используются?

    • Дмитрий Фёдоров Александр
      Рейтинг: 678
      Российский Футбольный Союз
      Директор департамента цифровых технологий
      03.12.2021 15:09

      Если говорить о слабоструктурированных и неструктурированных данных, то можно выделить 2 основных массива:
      - Текстовые документы и данные на естественном языке (русский и английский). Мы собираем данные из открытых источников и используем ряд инструментов (в том числе регулярные выражения), для анализа контекста, расстановки тегов и поиска ключевых слов в текстовых массивах.
      - Результаты работы краулеров и парсеров в сети интернет (html). Эти данные используются как для обогащения/уточнения данных из других источников (например данные об одном и том-же матче получаем из нескольких публичных источников), так и для прямого обогащения наших знаний о проходящих мероприятиях уровня массового и любительского футбола, информацию о которых организаторы нам не передают.

  • Максим Часовиков
    Рейтинг: 2234
    Центр цифровой экономики МГУ
    Ведущий специалист
    22.12.2021 19:26

    да, проект любопытный, и это может явиться первым шагом для проверки гипотез. В том числе по реакциям болельщиков и поиска внешних факторов, влияющих на игру футболистов. Только не следует забывать, что наличие корреляции не говорит о наличии причинно-следственных связей.

  • Виктор Булгаков
    Рейтинг: 175
    ООО Gridfore
    Директор по развитию бизнеса
    28.12.2021 06:45

    Достойный отраслевой проект, поздравляю с реализацией!
    Решить задачу обработки текстовых неструктурированных данных в промышленном масштабе – большой, кропотливый труд. В этой связи поделитесь пожалуйста опытом:
    1. Какой корпус русского языка для текстового анализа вы брали за основу?
    2. Сколько релизов за последний год удалось реализовать?
    3. Довольны ли опытом работы с Яндекс.Облако – какие уроки удалось получить?

  • Дмитрий Турчановский
    Рейтинг: 1020
    Зарубежнефть
    Заместитель начальника Управления информационных технологий
    08.01.2022 18:04

    Добрый день. Любопытный проект. Интересен опыт использования облака, нет ли ни каких ограничений со стороны ФОИВ по использованию обласных технологий для вас, каим образом организовано резервирование, там же или на собственной площадке? Есть ли рассчитанные измеримые показатели эффективности от использования системы до и после проекта с учетом, предполагаю, больших эффектов от ранее использованные неструктурированных данных.

Год
Предметная область
Отрасль
Управление