Skip to main content

Siri недавно пыталась описать изображения, полученные в сообщениях при использовании CarPlay или функции уведомлений об объявлениях. В типичном стиле Siri эта функция работает непоследовательно и дает неоднозначные результаты.

Тем не менее, Apple продвигается вперед, обещая ИИ. В недавно опубликованной исследовательской работе гуру искусственного интеллекта Apple описывают систему, в которой Siri может делать гораздо больше, чем просто пытаться распознать то, что находится на изображении. Лучшая часть? Компания считает, что одна из ее моделей справляется с этими тестами лучше, чем ChatGPT 4.0.

 

В документе (ReALM: Эталонное разрешение как языковое моделирование) Apple описывает то, что может повысить полезность голосового помощника с расширенными возможностями языковой модели. ReALM учитывает как то, что у вас на экране, так и какие задачи активны. Вот отрывок из статьи, описывающей эту работу:

1. Объекты на экране: это объекты, которые в данный момент отображаются на экране пользователя.

2. Объекты разговора. Это объекты, имеющие отношение к разговору. Эти сущности могут поступать из предыдущего хода пользователя (например, когда пользователь говорит «Позвони маме», контактом для мамы будет соответствующий рассматриваемый объект) или от виртуального помощника (например, когда агент предоставляет пользователю список мест или сигналов тревоги на выбор).

3. Главноеовые объекты: это соответствующие объекты, возникающие из фоновых процессов, которые не обязательно могут быть непосредственной частью того, что пользователь видит на своем экране или его взаимодействия с виртуальным агентом; например, звонящий будильник или фоновая музыка.

Если все работает хорошо, это похоже на рецепт более умной и полезной Siri. Apple также уверена в своей способности выполнить такую ​​задачу с впечатляющей скоростью. Бенчмаркинг сравнивается с ChatGPT 3.5 и ChatGPT 4.0 от OpenAI:

В качестве еще одного базового уровня мы используем варианты ChatGPT GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) и GPT-4 (Achiam et al., 2023), доступные на 24 января 2024 г., с контекстное обучение. Как и в нашей настройке, мы стремимся заставить оба варианта прогнозировать список сущностей из доступного набора. В случае GPT-3.5, который принимает только текст, наш ввод состоит только из приглашения; однако в случае GPT-4, который также имеет возможность контекстуализации изображений, мы предоставляем системе снимок экрана для задачи эталонного разрешения на экране, что, по нашему мнению, помогает существенно повысить производительность.

Так как же работает модель Apple?

Мы демонстрируем значительные улучшения по сравнению с существующей системой с аналогичной функциональностью для различных типов ссылок, при этом наша самая маленькая модель получила абсолютный прирост более 5% для ссылок на экране. Мы также сравниваем GPT-3.5 и GPT-4: наша самая маленькая модель демонстрирует производительность, сравнимую с GPT-4, а наши более крупные модели существенно превосходят ее.

Говоришь, значительно превосходит его? В статье частично делается следующий вывод:

Мы показываем, что RealLM превосходит предыдущие подходы и работает примерно так же, как современный LLM сегодня, GPT-4, несмотря на то, что он содержит гораздо меньше параметров, даже для экранных ссылок, несмотря на то, что он находится исключительно в текстовой области. Он также превосходит GPT-4 для пользовательских высказываний, специфичных для предметной области, что делает RealLM идеальным выбором для практической системы разрешения ссылок, которая может существовать на устройстве без ущерба для производительности.

На устройстве без ущерба для производительности кажется ключевым для Apple. Надеемся, что следующие несколько лет разработки платформы будут интересными, начиная с iOS 18 и WWDC 2024 10 июня.