В исследовательской статье объясняется, как устроен Apple Intelligence и какие шаги предпринимает компания для обеспечения безопасности моделей.
В статье также дается представление о масштабе и сложности возможностей искусственного интеллекта на устройствах, отмечая, что базовая модель, которая полностью работает на iPhone, iPad или Mac, имеет около трех миллиардов параметров…
Статья, обнаруженная Джоном Грубером, была опубликована пару недель назад.
Мы представляем базовые языковые модели, разработанные для поддержки функций Apple Intelligence, включая модель с ~3 миллиардами параметров, разработанную для эффективной работы на устройствах, и большую серверную языковую модель, разработанную для частных облачных вычислений. [Apple, 2024b].
Эти модели разработаны для эффективного, точного и ответственного выполнения широкого спектра задач. В этом отчете описывается архитектура модели, данные, используемые для обучения модели, процесс обучения, как модели оптимизируются для вывода и результаты оценки. Мы подчеркиваем наше внимание к ответственному ИИ и тому, как принципы применяются на протяжении всей разработки модели.
Проактивный поиск проблемного материала
Одна из больших проблем с генеративным ИИ заключается в том, что, поскольку он был обучен на широком спектре пользовательского контента в Интернете, он может в конечном итоге повторить худшее, что есть в человечестве. Apple заявляет, что она активно стремится выявлять и исключать проблемный материал.
Мы постоянно работаем над тем, чтобы избежать увековечения стереотипов и системных предубеждений в наших инструментах и моделях ИИ. Мы принимаем меры предосторожности на каждом этапе нашего процесса, включая проектирование, обучение модели, разработку функций и оценку качества, чтобы определить, как наши инструменты ИИ могут быть использованы не по назначению или привести к потенциальному вреду. Мы будем постоянно и активно улучшать наши инструменты ИИ с помощью отзывов пользователей […]
Кроме того, были предприняты значительные усилия по исключению ненормативной лексики, небезопасных материалов и личной информации из общедоступных данных.
Тестирование с помощью триггерных фраз
Один из конкретных подходов заключается в преднамеренном тестировании моделей с использованием фраз-триггеров, которые с большой вероятностью вызовут неприемлемые реакции, а затем в применении процесса дезактивации для их исключения.
Apple утверждает, что делает это с помощью лицензированных ею наборов данных, а также с веб-сайтами, сканируемыми Applebot.
Проверка выходных данных на соответствие ценностям Apple
Затем Apple применяет процесс, известный как постобучение, который по сути представляет собой проверку результатов с целью их проверки и точной настройки.
Мы проводим обширные исследования методов постобучения, чтобы привить предварительно обученным моделям AFM возможности следования инструкциям общего назначения и ведения разговора. Наша цель — обеспечить соответствие этих возможностей модели основным ценностям и принципам Apple, включая нашу приверженность защите конфиденциальности пользователей и наши принципы Responsible AI.
Четыре критерия для оценки человеком
Для сравнения различных результатов используется человеческая оценка, при этом рецензентам предлагается оценить их по ряду критериев:
- Точность
- Полезность
- Безвредность
- Презентация
Затем эти оценки используются для дальнейшего улучшения понимания моделью того, что она стремится произвести.
Красная команда
Компания также использует подход, известный как «red teaming», который фактически является тестированием на проникновение для моделей ИИ. Он использует сочетание человеческих и автоматизированных атак, чтобы попытаться найти уязвимости в модели.
Red teaming — это принципиально творческое начинание, требующее от red teamers использования комбинаций векторов атак для проверки известных уязвимостей модели и попытки обнаружить новые. Векторы атак, используемые при взаимодействии с языковыми моделями, включают джейлбрейки/инъекции подсказок, методы убеждения [Zeng et al., 2024]и языковые особенности, которые, как известно, вызывают неправильное поведение модели (например, сленг, переключение кодов, эмодзи, опечатки).
Мы применяем как ручную, так и автоматическую ред-тимизацию. [Ganguli et al., 2022] для выявления потенциально неизвестных режимов отказа выровненных моделей. Более поздние работы [Touvron et al., 2023] предполагают, что автоматизированные процессы потенциально способны генерировать даже более разнообразные подсказки, чем люди, ранее считавшиеся «золотым» стандартом для сбора данных.
В статье подробно рассматривается этот и многие другие вопросы.
Фото Кевина Ку на Unsplash