Categories: iOSiPhone

Ferret-UI может помочь Siri понять интерфейсы приложений iOS

Хорек в дикой природе [Pixabay/Michael Sehlmeyer]

Ferret LLM от Apple может помочь Siri понять расположение приложений на дисплее iPhone, потенциально расширяя возможности цифрового помощника Apple.

Apple работает над многочисленными проектами машинного обучения и искусственного интеллекта, которые она могла бы представить на WWDC 2024. В только что опубликованном документе теперь кажется, что некоторые из этих работ могут помочь Siri понять, как выглядят приложения и сама iOS.

Статья, выпущенная Корнеллским университетом в понедельник, называется «Ferret-UI: обоснованное понимание мобильного пользовательского интерфейса с помощью мультимодальных программ магистратуры». По сути, это объясняет новую мультимодальную модель большого языка (MLLM), которая потенциально способна понимать пользовательские интерфейсы мобильных дисплеев.

Название Ferret изначально появилось в результате мультимодальной программы LLM с открытым исходным кодом, выпущенной в октябре исследователями из Корнельского университета, работающими с коллегами из Apple. В то время Феррет мог обнаруживать и понимать различные области изображения для выполнения сложных запросов, например, для определения вида животного в выбранной части фотографии.

Развитие LLM

В новой статье Ferret-UI объясняется, что, хотя в использовании MLLM и наблюдаются заметные успехи, им все еще «не хватает способности понимать и эффективно взаимодействовать с экранами пользовательского интерфейса (UI)». Ferret-UI описывается как новый MLLM, предназначенный для понимания экранов мобильного пользовательского интерфейса и оснащенный «возможностями обращения, обоснования и рассуждения».

Часть проблемы, с которой сталкиваются LLM при понимании интерфейса мобильного дисплея, заключается в том, как он вообще используется. Часто в портретной ориентации это означает, что значки и другие детали могут занимать очень компактную часть дисплея, что затрудняет понимание машинами.

Чтобы помочь в этом, у Ferret есть система увеличения, позволяющая масштабировать изображения до «любого разрешения», чтобы сделать значки и текст более читабельными.

Пример Ferret-UI, анализирующего дисплей iPhone

Для обработки и обучения Феррет также делит экран на две меньшие части, разрезая экран пополам. В документе говорится, что другие LLM, как правило, сканируют глобальное изображение с более низким разрешением, что снижает способность адекватно определять, как выглядят значки.

Добавление значительного количества данных для обучения привело к созданию модели, которая может в достаточной степени понимать запросы пользователей, понимать природу различных элементов на экране и предлагать контекстуальные ответы.

Например, пользователь может спросить, как открыть приложение «Напоминания», и ему будет предложено нажать кнопку «Открыть» на экране. Следующий запрос о том, может ли 15-летний подросток использовать приложение, может проверить возрастные рекомендации, если они видны на дисплее.

Вспомогательный помощник

Хотя мы не знаем, будет ли он интегрирован в такие системы, как Siri, Ferret-UI предлагает возможность расширенного контроля над таким устройством, как iPhone. Понимая элементы пользовательского интерфейса, он дает возможность Siri выполнять действия для пользователей в приложениях, самостоятельно выбирая графические элементы внутри приложения.

Также есть полезные приложения для слабовидящих. Такой LLM мог бы быть более способен подробно объяснить, что происходит на экране, и потенциально выполнять действия для пользователя без необходимости делать что-либо еще, кроме как попросить, чтобы это произошло.

Recent Posts

Некоторые пользователи TikTok теперь могут загружать длинные 60-минутные видеоролики.

TikTok взвешивает серьезные изменения в типе контента, который он обслуживает, о чем свидетельствует новый тест,…

Обзор Keychron Q1 HE – настройка, производительность, стоимость

  Keychron Q1 HE отлично смотрится на столе и прекрасно лежит под рукой. Keychron Q1…

Samsung, сколько творчества нужно, чтобы пародировать рекламу Apple?

На прошлой неделе Apple выпустила рекламу своего нового iPad Pro, которая вызвала широкую критику. В…

Рабочий погиб в результате взрыва на стройке TSMC в Аризоне

TSMC инвестирует $40 млрд в заводы в Аризоне Рабочий погиб после того, как попал в…

Приложение Intel Thunderbolt Share клонирует функцию Mac, а затем сообщает, что она недоступна для Mac

Intel с гордостью анонсировала Thunderbolt Share — способ соединить два ПК с Windows вместе, чтобы…