Ученые из T-Bank AI Research повысили безопасность и точность ответов ИИ до 15%
Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research создали методику обучения больших языковых моделей (LLM). Она основана на существующих методах Trust Region, применяемых в различных областях ИИ. Новый подход позволяет улучшить качество ответов искусственного интеллекта до 15% по пяти различным показателям.
Результаты исследования были признаны мировым научным сообществом и представлены на международной конференции по обучению представлениям (ICRL), которая проходит в Сингапуре с 24 по 28 апреля 2025. Это одна из главных конференция в области машинного обучения и искусственного интеллекта уровня А*.
Суть открытия
В ходе экспериментов исследователи протестировали новый метод на таких метриках, как Alpaca Eval 2.0 и Arena Hard, которые оценивают способность модели к вежливому общению, решению сложных задач и обобщению знаний. В тестах на бенчмарке AlpacaEval 2.0 метод показал улучшение качества ответов ИИ с 2.3 до 15.1 процентных пунктов по сравнению с классическими подходами – модели стали давать полезные и уместные ответы значительно чаще. Это означает, что виртуальные ассистенты, чат-боты и другие ИИ-системы, использующие этот метод, смогут работать точнее и эффективнее.
Чтобы избежать этого, ученые из T-Bank AI Research предложили периодически обновлять «настройки по умолчанию» модели. Предложенный метод позволяет модели отмечать ключевые «ориентиры» на своем пути, что помогает избежать отклонений и быстрее достичь целевой точки. В отличие от стандартных подходов, где модель использует фиксированные начальные параметры, Trust Region предусматривает динамическое изменение этой опорной точки двумя способами:
● Мягкое обновление: небольшие изменения незначительно применяются на каждом шаге обучения.
Эксперименты показали, что эти обновления помогают моделям давать более понятные и безопасные ответы. Например, модели с Trust Region, обученные на задаче сокращения длинных текстов, улучшили качество на 10-15% по сравнению с традиционными методами. Особенно заметно, что модели меньше путаются в сложных задачах и лучше следуют инструкциям от пользователя.
Основные преимущества нового метода:
● Улучшение качества: Тексты, сгенерированные моделью с применением метода Trust Region, показали лучшие результаты по пяти ключевым параметрам: точность, связность, стиль, логика рассуждений и информативность. Согласно данным внутреннего исследования, качество текстов по этим критериям превосходило результаты, полученные с использованием традиционных методов оптимизации.
● Снижение эффекта избыточной оптимизации: Модели меньше «зацикливались» на случайных ошибках и избегали выдачи странных текстов, которые могут появляться при обучении на узкопрофильную задачу.
● Простота реализации. Метод отличается простой реализацией и высокой совместимостью с уже существующими подходами. Его можно легко интегрировать в любой код алгоритмов адаптации языковых моделей, использующие «исходные настройки» в качестве опорной точки при оптимизации.
В перспективе метод Trust Region будет играть значимую роль в развитии более эффективных языковых моделей и создании основы для новой парадигмы в развитии ИИ.
Борис Шапошников, руководитель научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research:
«Наш новый подход позволяет сохранять баланс между способностями модели решать новую узкую задачу и общим пониманием картины мира, что открывает возможности для создания более гибких и адаптивных моделей. Это направление еще далеко не исчерпано — у ученых остается большое пространство для дальнейших исследований ИИ и улучшений, которые могут привести к новым прорывам в оптимизации языковых моделей и их применении в реальном мире».
Метод размещен в открытой библиотеке Т-Банка Turbo Alignment для адаптации и обучения языковым моделей.