ML против фрода: как алгоритмы выявляют мошенников
Мошенничество на маркетплейсах – это не только поддельные товары и фиктивные скидки. Фродеры используют куда более сложные схемы: от загрузки нерелевантных изображений до накрутки отзывов и бонусных баллов. Контролировать такие нарушения вручную становится невозможным, особенно на крупных платформах с миллионами товаров.
Именно поэтому компании инвестируют в автоматизированные ML-решения, которые позволяют выявлять нарушения, снижать нагрузку на модераторов и минимизировать ложные блокировки добросовестных пользователей. Системы компьютерного зрения анализируют изображения, NLP-модели выявляют несоответствия в текстах, а алгоритмы аномалий находят подозрительное поведение пользователей. Как эти технологии работают вместе, какие вызовы возникают при их применении и как компании решают проблему ложных срабатываний? Разбираемся вместе с приглашенными экспертами:
Приглашенный гость и автор кейса:
- Петр Лукьянченко, руководитель Департамента машинного обучения, ecom.tech (ex. Samokat.tech.
Эксперты эфира:
- Наталья Кузьменко, Член совета антифрод ВкусВилл.
- Андрей Шелюх, лид исследований и разработки в направлении DS/ML систем антифрод «ДатаЛаб».
- Максим Сиротенко, руководитель ИБ в направлении веб-разработки, ведущий веб-разработчик, Детский мир.
Кейс: Система автоматической модерации изображений в ecom.tech
На дискуссии был представлен опыт разработки ML-системы для автоматической модерации изображений на маркетплейсе МегаМаркет (ecom.tech). Ежедневно через платформу проходит более 600 тысяч заказов, а каждый товар содержит в среднем 5 фотографий. Ручная проверка такого объема контента невозможна – для этого ранее требовалось около тысячи модераторов.
Команда ecom.tech разработала комбинированную систему машинного обучения, которая выявляет запрещенные изображения, блокирует контент с водяными знаками и QR-кодами, а также проверяет соответствие изображений описанию товара. Для отдельных категорий товаров точность классификации достигает 98%, что позволило многократно сократить штат модераторов при сохранении высокого качества проверки.
О том, как именно устроена эта система и какие конкретные технологии применяются, расскажут наши эксперты.
Автоматическая модерация: какие технологии применяются?
Машинное обучение в антифроде строится на трех ключевых подходах:
- Классификация изображений – анализ загружаемых фото на наличие запрещенного контента. Используется двухуровневый анализ: легковесные модели в real-time блокируют очевидные нарушения, а сложные алгоритмы в отложенном режиме проверяют детали.
- Анализ текстов – NLP-модели (например, RoBERTa) сравнивают описание товара, изображения и отзывы, выявляя несоответствия. Это помогает предотвращать фрод, связанный с подменой информации.
- Выявление аномалий в поведении пользователей – скоринговые системы анализируют действия клиентов, отслеживая подозрительные схемы, например, накрутку бонусов или массовые фейковые отзывы.
Некоторые маркетплейсы идут дальше и комбинируют методы. Например, одна из тестируемых моделей сначала создает текстовое описание изображения, а затем сопоставляет его с карточкой товара. Это повышает точность детекции несоответствий.
Больше о том, когда эффективны традиционные алгоритмы, а в каких случаях требуется гибридный подход, читайте в полной версии статьи на Компас CIO.
Оптимизация ML-моделей: от точности к скорости
Внедрение ML в антифроде – это не только вопрос точности, но и скорости обработки данных. Чем быстрее система анализирует поток информации, тем меньше у мошенников шансов на успешные манипуляции. Системы должны оперативно реагировать на новые схемы мошенничества, не создавая избыточной нагрузки на серверы.
Чтобы достичь баланса между быстродействием и глубиной анализа, маркетплейсы используют двухуровневую систему обработки:
- Легковесные модели анализируют трафик в режиме real-time, мгновенно блокируя очевидные нарушения (например, водяные знаки или QR-коды на изображениях).
- Тяжеловесные модели выполняют углубленный анализ в отложенном режиме, выявляя сложные паттерны несоответствий между изображениями, текстами и поведением пользователей.
Однако работа нейросетей требует больших объемов качественных данных: чем лучше обучающий датасет, тем выше эффективность алгоритмов.
Максим Сиротенко рассказывает, как их команда улучшила производительность:
«Мы сначала использовали традиционные алгоритмы, но позже перешли на нейронные сети. Они работают быстрее, но требуют качественных датасетов. Мы собрали их, обучили модель, и теперь наш классификатор работает на двух ядрах процессора, обрабатывая 217 000 пользователей».
О том, какие компромиссы между скоростью и точностью приходится учитывать при разработке антифрод-систем, читайте в полном материале на Компас CIO.
Метрики и контроль качества ML-моделей
Любая ML-модель требует точной оценки эффективности. В антифроде ключевая задача – найти баланс между детекцией мошенничества и минимизацией ложных срабатываний. Если алгоритм слишком строгий, он может блокировать добросовестных пользователей, а если слишком мягкий – пропускать фродеров.
Для измерения эффективности используются стандартные метрики машинного обучения: Precision, Recall, F1-score, False Positive Rate (FPR) и False Negative Rate (FNR). Однако в антифрод-системах важны не только технические показатели, но и бизнес-метрики. Например, в маркетплейсах анализируется влияние фрода на качество контента, отзывы и программы лояльности и, конечно, на продажи – так называемая метрика «плохой прибыли».
Еще один важный аспект – валидация модели. Со временем ее точность может снижаться из-за изменения паттернов мошенничества. Поэтому компании внедряют системы мониторинга и тестирования.
Чтобы модели оставались эффективными, важно регулярно проводить валидацию и мониторинг их работы.
Андрей Шелюх объясняет подход его команды:
«Мы используем дашборды, которые отслеживают ключевые показатели модели. Если видим ухудшение метрик, оперативно дообучаем модель или проверяем, все ли в порядке с исходными данными».
Больше о том, как маркетплейсы выстраивают системы валидации и тестирования антифрод-алгоритмов, в полной версии материала на Компас CIO
***
Борьба с фродом на маркетплейсах – это постоянная гонка между мошенниками и алгоритмами детекции. Машинное обучение позволяет автоматизировать модерацию контента, выявлять новые схемы мошенничества и снижать нагрузку на модераторов.
Ключевые технологии антифрода включают:
- Классификацию изображений для выявления запрещенного контента.
- NLP-модели для анализа текстовых несоответствий.
- Скоринговые алгоритмы для обнаружения подозрительных паттернов поведения.
- Оптимизацию ML-моделей для быстрого анализа и точной детекции.
Какие компромиссы приходится учитывать при разработке антифрод-систем? Как маркетплейсы борются с ложными срабатываниями? И какие технологии станут основой для антифрода в будущем? Читайте об этом полной версии материала в подписке Компас CIO.