Обучение ИИ-моделей на облачных серверах

Заказчик:
РБК
Руководитель проекта со стороны заказчика
Поставщик
Рег.ру
Год завершения проекта
2024
Сроки выполнения проекта
июль, 2024 — октябрь, 2024
Масштаб проекта
50 автоматизированных рабочих мест
Цели

Тегирование материалов — неотъемлемая часть работы любой медиакомпании. В РБК ее выполняли вручную — редакторы прописывали 2–3 тега для каждого материала. В результате база данных тегов разрослась и появилось много дублей и тегов, повторяющих друг друга по смыслу. В связи с этим возникало несколько трудностей:

  1. Количество тегов неконтролируемо увеличивалось

  2. Появились дубли и синонимичные теги

  3. Редакторы стали тратить больше времени на разметку материалов

  4. Из-за большого числа тегов сложнее стало выбирать релевантные

Основная задача совместного проекта РБК и Рег.ру — разработка решения для автоматизированного тегирования материалов на РБК.

Результаты

Автоматизация рутинного процесса. Внедрение нейросети позволило сократить время на рутинные задачи по тегированию и освободить ресурсы для более творческой работы. Благодаря использованию нейросети для тегирования, значительно снизили влияние человеческого фактора. Время тегирования одного материала экстремально сократилось и составило по замерам 0,03 секунды, а точность тегирования — 99%.

Повышение глубины внимания и улучшение рекомендательных алгоритмов. В будущем использование нейросети для правильной разметки позволит упростить управление контентом для создания более персонализированных рекомендаций.

Снизили затраты на первичные эксперименты с ИИ за счет использования облака. Одна из ключевых проблем разработки нейросетей — высокая стоимость видеокарт. Аренда облака на начальных этапах разработки и проверки гипотез выгоднее разворачивания собственных стендов.

Масштабирование. Облачные ресурсы легко масштабировать с ростом количества проектов.

Уникальность проекта

Обучили ИИ-модель тегирования материалов на русском языке, которая значительно облегчает работу редакторов и уменьшает риск ошибки (человеческого фактора). Использование облака Рег.ру позволило оптимизировать ресурсы и сократить время на дообучение нейросети.

Использованное ПО

OpenStack-KVM, видеокарта Nvidia А5000, архитектура T5.

Сложность реализации

Первичные тесты проводили на собственной видеокарте RTX 3050 — обучение нейросети заняло 8 дней. Перенос в облако позволил оптимизировать ресурсы и сократить время на дообучение всего до 14–15 часов.

Описание проекта

Разработка проекта проходила в несколько этапов:

1. Выбор модели

При выборе модели одним из главных критериев было понимание русского языка. За основу взяли Open Source решение — T5, так как в ней используется более современный токенайзер.

2. Эксперименты с обучением

Разработали отдельный сервис для подготовки «чистого» датасета, на основе которого будет учиться модель. Первичное обучение на домашней видеокарте заняло восемь дней непрерывной работы. Для оптимизации ресурсов процесс переобучения решили провести в облаке. Команда Рег.ру подготовила тестовый стенд для проведения эксперимента.

3. Тестирование гипотез

Для перепроверки использовали уже существующие материалы «РБК Трендов», «РБК Отраслей» и «РБК Life», размеченные редакторами, — публикации загружали в нейросеть и сравнивали результаты машины и человека.

4. Внедрение в производство

ИИ-модель интегрировали в редакционные процессы с помощью промежуточного решения в виде телеграм-бота. В дальнейшем решение будет интегрировано в админку для помощи редакторам.

География проекта

РФ

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.