Ученые из T-Bank AI Research открыли, как искусственный интеллект принимает решения на разных этапах вычислений
Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research разработали новый метод под названием SAE Match, который показывает, как работают механизмы принятия решений искусственного интеллекта (ИИ) и почему модель делает то или иное заключение в процессе вычисления. Благодаря открытию ученых из T-Bank AI Research, в перспективе можно будет влиять на ответы ИИ, повышая их точность и качество.
С помощью нового метода можно отслеживать, как ИИ генерирует ответы, и вовремя скорректировать их. Это первый шаг на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность.
Результаты исследования будут представлены на международной конференции по обучению представлений (ICRL), которая пройдет в Сингапуре с 24 по 28 апреля 2025. Это одна из главных конференция в области машинного обучения и искусственного интеллекта уровня А*.
Суть открытия
Метод SAE Match относится к области интерпретируемости искусственного интеллекта. Главная цель этой области — сделать работу ИИ более прозрачной и понятной для человека, чтобы можно было отслеживать, как модель обрабатывает информацию и почему она принимает те или иные решения, и впоследствии повысить точность ответов.
Современные языковые модели (LLM) состоят из нескольких слоев, каждый из которых использует результат предыдущего. Таким образом модель старается улучшить свои предсказания слой за слоем. Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений. Эксперименты на ряде моделей показали, что он помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети. Это делает поведение ИИ более предсказуемым и понятным.
Метод SAE Match позволяет заглянуть внутрь модели и понять, как меняются концепции от слоя к слою. Это дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов.
Уникальность метода SAE Match
- Простая и прозрачная интерпретация работы модели
Метод позволяет заглянуть внутрь языковой модели и понять, как она «думает» на разных этапах вычислений. Это упрощает анализ работы ИИ и делает его более предсказуемым. - Доступность и низкие требования к ресурсам
SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ. Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных. - Повышение уровня доверия и безопасности ИИ
Метод позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление. Это поможет создавать более безопасные и этичные решения на базе искусственного интеллекта. - Вклад в дальнейшее развитие интерпретируемости
Методика SAE Match открывает новые горизонты для научных исследований и разработки гибридных архитектур ИИ, сочетающих высокое качество интерпретации и скорость работы.
Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research:
«Наша задача не только сделать модели лучше, но и понять, как они работают изнутри. Представьте ИИ-ассистента, с которым общаются дети. Вдруг он начинает выдавать недостоверную или даже грубую информацию. Сейчас изменить его поведение – сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели. SAE Match – это первый шаг к созданию более прозрачного и надежного искусственного интеллекта, которому можно доверять. И мы планируем продолжить исследования в направлении интерпретируемости ИИ».