Skip to main content

Apple планирует представить собственную версию искусственного интеллекта, начиная с iOS 18.1 – изображение предоставлено Apple

Новая статья ученых Apple в области искусственного интеллекта показала, что движкам, основанным на больших языковых моделях, таких как Meta и OpenAI, все еще не хватает базовых навыков рассуждения.

Группа предложила новый тест GSM-Symbolic, чтобы помочь другим измерить способности к рассуждению различных моделей большого языка (LLM). Их первоначальное тестирование показало, что небольшие изменения в формулировках запросов могут привести к существенно разным ответам, что подрывает надежность моделей.

Группа исследовала «хрупкость» математических рассуждений, добавляя к своим запросам контекстную информацию, которую может понять человек, но которая не должна влиять на фундаментальную математику решения. Это привело к разным ответам, чего не должно было случиться.

«В частности, снижается производительность всех моделей. [even] когда в тесте GSM-Symbolic изменяются только числовые значения в вопросе», — написала группа в своем отчете. «Кроме того, хрупкость математических рассуждений в этих моделях [demonstrates] что их эффективность значительно ухудшается по мере увеличения количества предложений в вопросе».

Исследование показало, что добавление даже одного предложения, которое, как кажется, содержит релевантную информацию к заданному математическому вопросу, может снизить точность окончательного ответа до 65 процентов. «На этом фундаменте просто невозможно создать надежных агентов, где изменение одного или двух слов неуместным образом или добавление небольшого количества ненужной информации может дать вам другой ответ», — говорится в исследовании.

Отсутствие критического мышления

Конкретным примером, иллюстрирующим проблему, была математическая задача, требующая подлинного понимания вопроса. Задача, разработанная командой, под названием «GSM-NoOp» была похожа на математические «словесные задачи», с которыми может столкнуться ученик начальной школы.

Запрос начинался с информации, необходимой для формулирования результата. «В пятницу Оливер собирает 44 киви. Затем в субботу он собирает 58 киви. В воскресенье он собирает вдвое больше киви, чем в пятницу».

Затем в запрос добавляется предложение, которое кажется релевантным, но на самом деле не относится к окончательному ответу, отмечая, что из киви, собранных в воскресенье, «пять из них были немного меньше среднего». В запрошенном ответе просто спросили: «Сколько киви у Оливера?»

Примечание о размере некоторых киви, собранных в воскресенье, не должно иметь никакого отношения к общему количеству собранных киви. Однако модель OpenAI, а также модель Llama3-8b от Meta вычли из общего результата пять киви меньшего размера.

Ошибочная логика была подтверждена предыдущим исследованием 2019 года, которое могло надежно запутать модели ИИ, задав вопрос о возрасте двух предыдущих защитников Суперкубка. Добавляя предысторию и сопутствующую информацию об играх, в которых они играли, а также о третьем человеке, который был защитником в другой игре в чашу, модели давали неправильные ответы.

«Мы не обнаружили никаких доказательств формального рассуждения в языковых моделях», — заключили в новом исследовании. Поведение LLMS «лучше объяснить сложным сопоставлением с образцом», которое, как показало исследование, «настолько хрупко, что [simply] изменение имен может изменить результаты».