-
526
Заявлено проектов
-
443
Опубликовано проектов
-
164
Оставлено комментариев
-
1485
Количество голосов
-
22
Дней до окончания голосования
Обучение ИИ-моделей на облачных серверах
-
Руководитель проекта со стороны заказчика
-
Категория
-
Номинация
-
Цели
Тегирование материалов — неотъемлемая часть работы любой медиакомпании. В РБК ее выполняли вручную — редакторы прописывали 2–3 тега для каждого материала. В результате база данных тегов разрослась и появилось много дублей и тегов, повторяющих друг друга по смыслу. В связи с этим возникало несколько трудностей:
-
Количество тегов неконтролируемо увеличивалось
-
Появились дубли и синонимичные теги
-
Редакторы стали тратить больше времени на разметку материалов
-
Из-за большого числа тегов сложнее стало выбирать релевантные
Основная задача совместного проекта РБК и Рег.ру — разработка решения для автоматизированного тегирования материалов на РБК.
-
-
Сроки выполнения
июль, 2024 — октябрь, 2024 -
Год завершения проекта
2024
-
Масштаб проекта
50 автоматизированных рабочих мест -
Результаты
Автоматизация рутинного процесса. Внедрение нейросети позволило сократить время на рутинные задачи по тегированию и освободить ресурсы для более творческой работы. Благодаря использованию нейросети для тегирования, значительно снизили влияние человеческого фактора. Время тегирования одного материала экстремально сократилось и составило по замерам 0,03 секунды, а точность тегирования — 99%.
Повышение глубины внимания и улучшение рекомендательных алгоритмов. В будущем использование нейросети для правильной разметки позволит упростить управление контентом для создания более персонализированных рекомендаций.
Снизили затраты на первичные эксперименты с ИИ за счет использования облака. Одна из ключевых проблем разработки нейросетей — высокая стоимость видеокарт. Аренда облака на начальных этапах разработки и проверки гипотез выгоднее разворачивания собственных стендов.
Масштабирование. Облачные ресурсы легко масштабировать с ростом количества проектов.
-
Уникальность проекта
Обучили ИИ-модель тегирования материалов на русском языке, которая значительно облегчает работу редакторов и уменьшает риск ошибки (человеческого фактора). Использование облака Рег.ру позволило оптимизировать ресурсы и сократить время на дообучение нейросети.
-
Использованное ПО
OpenStack-KVM, видеокарта Nvidia А5000, архитектура T5.
-
Решение из каталога Global CIO
В проекте не используются решения из каталога Global CIO
-
Сложность реализации
Первичные тесты проводили на собственной видеокарте RTX 3050 — обучение нейросети заняло 8 дней. Перенос в облако позволил оптимизировать ресурсы и сократить время на дообучение всего до 14–15 часов.
-
Описание
Разработка проекта проходила в несколько этапов:
1. Выбор модели
При выборе модели одним из главных критериев было понимание русского языка. За основу взяли Open Source решение — T5, так как в ней используется более современный токенайзер.
2. Эксперименты с обучением
Разработали отдельный сервис для подготовки «чистого» датасета, на основе которого будет учиться модель. Первичное обучение на домашней видеокарте заняло восемь дней непрерывной работы. Для оптимизации ресурсов процесс переобучения решили провести в облаке. Команда Рег.ру подготовила тестовый стенд для проведения эксперимента.
3. Тестирование гипотез
Для перепроверки использовали уже существующие материалы «РБК Трендов», «РБК Отраслей» и «РБК Life», размеченные редакторами, — публикации загружали в нейросеть и сравнивали результаты машины и человека.
4. Внедрение в производство
ИИ-модель интегрировали в редакционные процессы с помощью промежуточного решения в виде телеграм-бота. В дальнейшем решение будет интегрировано в админку для помощи редакторам.
-
География проекта
РФ
-
Заказчик
РБК
-
ИТ-поставщик
Рег.ру
Комментировать могут только авторизованные пользователи.
Предлагаем Вам войти в систему или зарегистрироваться.