Skip to main content

Источник фона HAL 9000: Warner Bros.

Будущие устройства Apple, возможно, смогут использовать обнаружение движения для чтения по губам и, таким образом, запускать Siri без использования микрофона для постоянного прослушивания команд.

Если вы достаточно взрослый, идея о том, что Siri может читать по губам в любом случае, сразу и с тревогой напомнила Артуру Кларку и Стэнли Кубрику «2001: Космическая одиссея». Будем надеяться, что если Apple использует этот фильм 1968 года, то это потому, что компьютер HAL 9000 обладал превосходными навыками распознавания голоса.

Для сравнения, Siri гораздо труднее надежно и последовательно понимать голосовые команды, но, честно говоря, она еще не пыталась убить экипаж космического корабля. Это качели и балансы.

Тем не менее, возможно, предоставление Siri дополнительного аспекта, такого как обнаружение движений рта и головы, могло бы повысить ее точность. Недавно обнародованная патентная заявка под названием «Обнаружение ключевых слов с использованием распознавания движения» направлена ​​на это, но есть и нечто большее.

«[Data] поступает от датчика движения, например, записывает движение пользователя, когда пользователь произносит голосовой ввод», — говорится в патентной заявке. «Определяется, соответствует ли часть данных движения эталонным данным для набора из одного или несколько слов (например, слово или фраза)».

«Кроме того, голос [only] системы управления могут привести к ложноположительным ответам, — отметила Apple, — если аудиодатчик улавливает окружающий шум или речь непреднамеренного пользователя».

В патентной заявке подробно описывается, как движения рта можно сравнивать с предыдущими данными, когда Siri или устройство пытается найти совпадение.

Деталь из патента, показывающая, как обнаружение движения можно сравнить с предыдущими данными, чтобы определить, что кто-то говорит.

Деталь из патента, показывающая, как обнаружение движения можно сравнить с предыдущими данными, чтобы определить, что кто-то говорит.

Но это не совсем для улучшения Siri, и это не признак того, что Apple планирует некоторые устройства без микрофонов. Вместо этого Apple предполагает, что такое обнаружение движения может означать возможность отключения микрофонов, которые устройство использует для постоянного прослушивания «Siri» или «Привет, Siri».

«[Continuously] обнаружение и обработка аудиоданных расходуют энергию и вычислительную мощность, даже если пользователь не использует активно голосовое управление», — говорит Apple.

«Когда пользователь говорит, его рот, лицо, голова и шея двигаются и вибрируют», — продолжает он. «Датчики движения, такие как акселерометры и гироскопы, могут обнаруживать эти движения, расходуя при этом относительно небольшую мощность по сравнению с аудиодатчиками, такими как микрофоны».

Обнаружение движения сейчас и сравнение его с предыдущими записями, по-видимому, может работать, когда говорят «Эй, Сири» или какую-то другую обычную команду. например «Следующий трек». Когда голосовая команда менее распространена, например «Эй, Сири, открой двери отсека для капсул», тогда, конечно, обнаружение движения не сработает.

Но пока обнаружение движения достаточно быстрое, обнаружение того, что пользователь сказал «Siri», должно означать, что устройство способно вовремя включить микрофоны, чтобы уловить остальные голоса.

Помимо ссылки на акселерометры и гироскопы, в патентной заявке Apple не уделяется много времени обсуждению устройств, которые можно использовать для реализации этого предложения.

Однако это чтение по губам с помощью обнаружения движения, а не с помощью камер и прямой видимости. Таким образом, особенно в сочетании с iPhone, это обнаружение движения теоретически может работать с AirPods, а также, например, с Apple Vision Pro.

Эта заявка на патент принадлежит двум изобретателям, в том числе Мадху Чинтхакунте. Предыдущая работа Чинтакунты для Apple включает в себя патент на то, что Siri автоматически договаривается и звонит от вашего имени.