ML против фрода: как алгоритмы выявляют мошенников

24 марта 2025

Мошенничество на маркетплейсах – это не только поддельные товары и фиктивные скидки. Фродеры используют куда более сложные схемы: от загрузки нерелевантных изображений до накрутки отзывов и бонусных баллов. Контролировать такие нарушения вручную становится невозможным, особенно на крупных платформах с миллионами товаров.

Именно поэтому компании инвестируют в автоматизированные ML-решения, которые позволяют выявлять нарушения, снижать нагрузку на модераторов и минимизировать ложные блокировки добросовестных пользователей. Системы компьютерного зрения анализируют изображения, NLP-модели выявляют несоответствия в текстах, а алгоритмы аномалий находят подозрительное поведение пользователей. Как эти технологии работают вместе, какие вызовы возникают при их применении и как компании решают проблему ложных срабатываний? Разбираемся вместе с приглашенными экспертами:

Приглашенный гость и автор кейса:

Петр Лукьянченко, руководитель Департамента машинного обучения, ecom.tech (ex. Samokat.tech.

Эксперты эфира:

Наталья Кузьменко, Член совета антифрод ВкусВилл.
Андрей Шелюх, лид исследований и разработки в направлении DS/ML систем антифрод «ДатаЛаб».
Максим Сиротенко, руководитель ИБ в направлении веб-разработки, ведущий веб-разработчик, Детский мир.

Кейс: Система автоматической модерации изображений в ecom.tech

На дискуссии был представлен опыт разработки ML-системы для автоматической модерации изображений на маркетплейсе МегаМаркет (ecom.tech). Ежедневно через платформу проходит более 600 тысяч заказов, а каждый товар содержит в среднем 5 фотографий. Ручная проверка такого объема контента невозможна – для этого ранее требовалось около тысячи модераторов.

Команда ecom.tech разработала комбинированную систему машинного обучения, которая выявляет запрещенные изображения, блокирует контент с водяными знаками и QR-кодами, а также проверяет соответствие изображений описанию товара. Для отдельных категорий товаров точность классификации достигает 98%, что позволило многократно сократить штат модераторов при сохранении высокого качества проверки.

О том, как именно устроена эта система и какие конкретные технологии применяются, расскажут наши эксперты.

Автоматическая модерация: какие технологии применяются?

Машинное обучение в антифроде строится на трех ключевых подходах:

Классификация изображений – анализ загружаемых фото на наличие запрещенного контента. Используется двухуровневый анализ: легковесные модели в real-time блокируют очевидные нарушения, а сложные алгоритмы в отложенном режиме проверяют детали.
Анализ текстов – NLP-модели (например, RoBERTa) сравнивают описание товара, изображения и отзывы, выявляя несоответствия. Это помогает предотвращать фрод, связанный с подменой информации.
Выявление аномалий в поведении пользователей – скоринговые системы анализируют действия клиентов, отслеживая подозрительные схемы, например, накрутку бонусов или массовые фейковые отзывы.

Некоторые маркетплейсы идут дальше и комбинируют методы. Например, одна из тестируемых моделей сначала создает текстовое описание изображения, а затем сопоставляет его с карточкой товара. Это повышает точность детекции несоответствий.

Больше о том, когда эффективны традиционные алгоритмы, а в каких случаях требуется гибридный подход, читайте в полной версии статьи на Компас CIO .

Оптимизация ML-моделей: от точности к скорости

Внедрение ML в антифроде – это не только вопрос точности, но и скорости обработки данных. Чем быстрее система анализирует поток информации, тем меньше у мошенников шансов на успешные манипуляции. Системы должны оперативно реагировать на новые схемы мошенничества, не создавая избыточной нагрузки на серверы.

Чтобы достичь баланса между быстродействием и глубиной анализа, маркетплейсы используют двухуровневую систему обработки:

Легковесные модели анализируют трафик в режиме real-time, мгновенно блокируя очевидные нарушения (например, водяные знаки или QR-коды на изображениях).
Тяжеловесные модели выполняют углубленный анализ в отложенном режиме, выявляя сложные паттерны несоответствий между изображениями, текстами и поведением пользователей.

Однако работа нейросетей требует больших объемов качественных данных: чем лучше обучающий датасет, тем выше эффективность алгоритмов.

Максим Сиротенко рассказывает, как их команда улучшила производительность:

«Мы сначала использовали традиционные алгоритмы, но позже перешли на нейронные сети. Они работают быстрее, но требуют качественных датасетов. Мы собрали их, обучили модель, и теперь наш классификатор работает на двух ядрах процессора, обрабатывая 217 000 пользователей».

О том, какие компромиссы между скоростью и точностью приходится учитывать при разработке антифрод-систем, читайте в полном материале на Компас CIO.

Метрики и контроль качества ML-моделей

Любая ML-модель требует точной оценки эффективности. В антифроде ключевая задача – найти баланс между детекцией мошенничества и минимизацией ложных срабатываний. Если алгоритм слишком строгий, он может блокировать добросовестных пользователей, а если слишком мягкий – пропускать фродеров.

Для измерения эффективности используются стандартные метрики машинного обучения: Precision, Recall, F1-score, False Positive Rate (FPR) и False Negative Rate (FNR). Однако в антифрод-системах важны не только технические показатели, но и бизнес-метрики. Например, в маркетплейсах анализируется влияние фрода на качество контента, отзывы и программы лояльности и, конечно, на продажи – так называемая метрика «плохой прибыли».

Еще один важный аспект – валидация модели. Со временем ее точность может снижаться из-за изменения паттернов мошенничества. Поэтому компании внедряют системы мониторинга и тестирования.

Чтобы модели оставались эффективными, важно регулярно проводить валидацию и мониторинг их работы.

Андрей Шелюх объясняет подход его команды:

«Мы используем дашборды, которые отслеживают ключевые показатели модели. Если видим ухудшение метрик, оперативно дообучаем модель или проверяем, все ли в порядке с исходными данными».

Больше о том, как маркетплейсы выстраивают системы валидации и тестирования антифрод-алгоритмов, в полной версии материала на Компас CIO

***

Борьба с фродом на маркетплейсах – это постоянная гонка между мошенниками и алгоритмами детекции. Машинное обучение позволяет автоматизировать модерацию контента, выявлять новые схемы мошенничества и снижать нагрузку на модераторов.

Ключевые технологии антифрода включают:

Классификацию изображений для выявления запрещенного контента.
NLP-модели для анализа текстовых несоответствий.
Скоринговые алгоритмы для обнаружения подозрительных паттернов поведения.
Оптимизацию ML-моделей для быстрого анализа и точной детекции.

Какие компромиссы приходится учитывать при разработке антифрод-систем? Как маркетплейсы борются с ложными срабатываниями? И какие технологии станут основой для антифрода в будущем? Читайте об этом полной версии материала в подписке Компас CIO.

7984