Machine learning и кибербезопасность

15 мая 2020

Как работает machine learning применительно к кибербезопасности? Всем ли компаниям доступны эти методы? Что является главным конкурентным преимуществом machine learning по сравнению с традиционными инструментами? Обо всем том рассуждает бизнес-консультант по безопасности Cisco Systems Алексей Лукацкий.

В области кибербезопасности не так много проектов, которые можно реализовать в поисках той или иной вредоносной активности. Искусственный интеллект (ИИ) может использоваться как мишень, когда злоумышленник подменяет датасеты, либо манипулирует моделями и алгоритмами, чтобы было принято некорректное решение. То есть злоумышленники атакуют не персональные данные, не какие-то автоматизированные системы, не критическую инфраструктуру, а непосредственно машинное обучение, чтобы система приняла неверное решение. Иногда ИИ используется как инструмент хакеров. Эта тема сегодня достаточно популярна, и она больше всего известна в контексте дипфейков, когда создаются различные личности, похожие на настоящие, и либо ради забавы, либо ради еще чего-то выкладывается в интернет.

Если же говорить об ИИ как инструменте информационной безопасности, следует вспомнить, что при традиционном подходе, когда используются файрволлы, антивирусы, DLP и другие традиционные средства защиты, они ориентируются на борьбу с чем-то заранее известным. А machine learning и, в более широком смысле, искусственный интеллект работает по другому принципу. Мы заранее обучаем систему, после чего она начинает выдавать нам вердикт по новым, ранее не известным данным: плохое это или хорошее поведение, файл, запрос в интернет, активность пользователя, программы и так далее. Традиционный подход сегодня начинает давать сбой. Если раньше, еще несколько лет назад, хорошее и плохое мы могли поделить в пропорции 45/45, и только 10% оставалось на непонятную активность, которая происходит в инфраструктуре, то сегодня ситуация поменялась: 10% явно вредоносного, 20-25% явно нормального, и остальные 60-65% — неизвестного. И для этой неопределенной активности мы и начинаем применять machine learning. Идея заключается в том, чтобы выявлять что-то неизвестное, опираясь на имеющиеся алгоритмы знания, связанные с известной вредоносной или, наоборот, с нормальной активностью.

Когда мы говорим о machine learning применительно к кибербезопасности, надо учитывать три компонента. Первое, с чего начинается machine learning — это датасет. Это некая обучающая выборка, данные, на которых обучается модель, и от качества которых будет зависеть эффективность работы с той или иной системой ИБ. И здесь возникает ключевая проблема, почему не все компании могут выстроить самостоятельную систему защиты на основе machine learning. Она заключается в том, что нужны действительно огромные объемы данных. При этом датасеты совершенно различны и от них зависит качество работы. У кого будет лучше датасет, тот и выиграет этот рынок.

Поэтому, несмотря на прогнозы экспертов, что датасеты будут появляется в публичном доступе, это едва ли похоже на правду. Еще несколько лет они будут представлять мощное конкурентное преимущество.

Второй элемент любого МЛ — это признаки. Надо объяснить системе, что это за файл, что вот его атрибуты: дата создания файла, вот его владелец, работа в конкретной разрядной системе и прочее. К одному веб-запросу можно создать более 600 признаков, а для файла их может быть около 800. После этого можно начать обучать систему.

И, наконец, на третьем этапе можно подступиться к алгоритмам, которые будут использоваться для размеченного датасета. Простые шаблоны, сигнатуры здесь не помогут, потому что они ориентированы на борьбу с чем-то известным. Статистические методы подходят лучше, они позволяют находить какие-то вещи, но это все еще не machine learning. Machine learning — это то, что неизвестно сейчас и не было известно заранее. В этом отличие machine learning от статистики, хотя грань между ними весьма тонка.

Алгоритмы анализа поведения бывают самыми разными. Сегодня существует более 100 различных моделей, используемых в информационной безопасности. И универсального алгоритма не существует, к сожалению. Разные алгоритмы позволяют решать разные задачи для разных данных и для разных типов угроз.

В заключение надо отметить,что, чтобы система работала хорошо, необходимо ее регулярно переобучать на новых датасетах, иначе она будет работать некорректно.

Презентация

Читать еще:

#ИскуственныйИнтеллект #безопасность

5662