ИИ не видит: российские исследователи оценили способность нейросетей понимать геометрию

На ежегодной конференции AAAI по искусственному интеллекту в Сингапуре российская исследовательская группа представила новый тест для ИИ. С его помощью можно оценить способность нейросетей понимать геометрию. Исследователи предлагают использовать решение как новый способ оценки знаний и понимания геометрии ИИ-моделями. Это позволит расширить перечень задач, которые можно будет доверить нейросетям.

Группа исследователей из лаборатории FusionBrain Института AIRI, Центрального университета и других российских университетов разработали новый тест NoReGeo, призванный оценить способность ИИ понимать пространственные отношения без использования алгебраических вычислений и способностей моделей к рассуждениям. С помощью теста ученые оценили более 45 ИИ-моделей, чтобы выявить их пространственную «слепоту».

Исследовательская команда лаборатории FusionBrain Института AIRI, в состав которой вошел студент Центрального университета Иван Загорулько, представила результаты исследования на 40-й ежегодной конференции по искусственному интеллекту AAAI-26 уровня А*[1], которая проходила в Сингапуре с 20 по 27 января.

Актуальность и практическая значимость

Существующие геометрические тесты оценивают способность ИИ с помощью алгебраических вычислений и умения моделей рассуждать. Такой подход не позволяет достоверно оценить, насколько глубоко модель может понимать пространственные взаимоотношения между объектами, а без этого невозможен полноценный переход ИИ в физический мир. Сегодня модели интегрируются для решения задач в самых разных отраслях, в том числе медицине, робототехнике, строительстве – где важна геометрическая точность и способность воспринимать пространство.

Нейросети обучают новым навыкам. Растет их количество и сложность, и вместе с тем актуальным становится создание способа оценки их возможности не только уметь решать математические задачи, но и ориентироваться в пространстве. Например, при анализе ситуации на дороге, по которой едет беспилотный автомобиль, важно определять расстояние между машинами, понимать, что может произойти при ускорении авто. Анализируя чертежную документацию, ИИ должен находить ошибки и разницу между запланированным описанием здания и итоговым чертежом.

Суть исследования

Исследователи разработали тест NoReGeo, который проверяет интуитивное геометрическое восприятие модели: например, лежит ли точка внутри фигуры или пересекаются ли две прямые. Тест состоит из 2,5 тысяч задач, охватывающих 25 тем из курса школьной геометрии. Вопросы в NoReGeo могут быть представлены только в в виде текста или вместе с изображением (например, визуализированнойый координатной плоскостью и точками на ней). При решении задачи модели необходимо выдать ответ за один шаг, не используя рассуждения.

В ходе исследования было протестировано более 45 современных моделей, включая ведущие открытые и закрытые большие языковые модели (LLM) и визуально-языковые модели (VLM). Результаты показали, что даже лучшие модели существенно уступают навыкам человека: максимальная точность достигает лишь 65% среди всех 2,5 тыс. задач NoReGeo. Лучше всего с геометрическими задачи решили Phi-3.5 Vision и GPT-4.1. Хуже всего себя проявили языковые модели семейства LLaMA и DeepSeek (точность не более 23%), а среди визуально-языковых моделей – LLaVA-1.5 (7B) и InstructBLIP (точность до 25%).


Примеры задач из теста NoReGeo: текст, текст с координатами и текст с визуализацией координат

Сложнее всего моделям справляться с задачами численного типа, требующими точных координатных вычислений: например, нахождение точки пересечения двух отрезков или вычисление площади фигуры по координатам. Легче всего ИИ справились с классификационными задачами, основанными на оценивание геометрических свойств: например, определением симметрии или параллельности линий.


Пример результатов решения ИИ-моделями текстовых задач с визуализацией координат из теста NoReGeo

Таким образом, по итогам тестирования NoReGeo, исследователи сделали вывод, что современные ИИ-модели ограничены в восприятии геометрических концепций. Стоит отметить, что дообучение моделей лишь незначительно повышает их способность решать геометрические задачи и не позволяет достигнуть человеческого уровня.

Иван Загорулько, студент 2 курса бакалавриата Центрального университета, соавтор научного открытия: «Мы уже переходим в эпоху генеративных моделей, которые активно применяются не только для анализа информации и генерации контента, но и в задачах моделирования, проектирования и управления сложными системами. Однако тестирование, проведённое нашей исследовательской группой, показывает, что геометрическое понимание в таких моделях чаще всего несовершенно: они могут написать диссертацию, пройти экзамен по праву или написать код, однако не понимают таких простых для каждого из нас вещей как “стол стоит слева от двери”. Сегодня из-за того, что модели не всегда ориентируются в пространстве, ИИ не может автономно управлять роботами, проектировать здания, анализировать медицинские снимки – требуется донастройка для точности действий».

Андрей Кузнецов, к.т.н., директор Лаборатории FusionBrain Института AIRI: «Для расширения потенциала применения ИИ необходимо развивать модели таким образом, чтобы они научились видеть формы и понимать пространство. Так как предложенный инструмент обладает высокой точностью определения уровня восприятия модели через задачи разного типа, он позволит разработчикам оценить, в чем именно нужна доработка и как усилить модели. Подход и механика теста NoReGeo может лечь в основу создания международного стандарта оценки геометрического восприятия нейросетей, что позволит перейти на новый уровень интеграции ИИ в нашу жизнь. Ведь если мы говорим о переходе от LLM к моделям понимания мира, то пространственное понимание является одной из самых важных задач для ИИ в настоящее время».

Карина Гургенова, руководитель Центра сопровождения научной деятельности и академических партнерств Центрального университета: «Студенты Центрального университета погружаются в мир науки в рамках лабораторий и исследовательских центров, которые создаются совместно с академическими партнерами. Работа над реальными задачами и индустриальными вызовами открывает не только возможности для проведения практикоориентированных исследований, но и позволяет принимать участие в ведущих международных научных конференциях. Для нас личное представление научного открытия в Сингапуре – знак признания успехов наших студентов и партнерских проектов на мировом уровне».


[1] Согласно международной системе, которая ранжирует крупные конференции по computer science, конференции типа A* – это конференции высшего уровня, во внимание берется цитируемость статей, процент принятых публикаций, авторитет участников и экспертность организаторов. Конференции уровня A* считаются лучшими и наиболее престижными в мировой науке.

Предметная область
Отрасль
Управление (роль)
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.