Skip to main content

Если вы еще не смотрели вчерашнее мероприятие OpenAI, настоятельно рекомендую это сделать. Главной новостью было то, что последняя модель GPT-4o без проблем работает с любой комбинацией текста, аудио и видео.

Это включает в себя возможность «показать» приложению GPT-4o запись экрана другого приложения, которую вы снимаете — и именно эту возможность компания продемонстрировала в довольно безумной демонстрации обучения искусственному интеллекту для iPad…

 

GPT-4о

OpenAI заявила, что «о» означает «омни».

GPT-4o («o» от «omni») — это шаг к гораздо более естественному взаимодействию человека с компьютером: он принимает в качестве входных данных любую комбинацию текста, звука и изображения и генерирует любую комбинацию выходных текста, аудио и изображений.

Он может реагировать на аудиовход всего за 232 миллисекунды, в среднем 320 миллисекунд, что аналогично времени реакции человека(откроется в новом окне) в разговоре. […] GPT-4o особенно лучше воспринимает изображение и звук по сравнению с существующими моделями.

Даже голосовой аспект имеет большое значение. Раньше ChatGPT мог принимать голосовой ввод, но перед работой с ним преобразовывал его в текст. GPT-4o, напротив, фактически понимает речь, поэтому полностью пропускает этап преобразования.

Как мы отмечали вчера, бесплатные пользователи также получают множество функций, которые ранее были доступны только платным подписчикам.

Демо-версия инструктора по искусственному интеллекту для iPad

Одной из возможностей, продемонстрированных OpenAI, была способность GPT-4o наблюдать за тем, что вы делаете, на экране iPad (в режиме разделенного экрана).

В примере показано, как ИИ обучает ученика, решившего математическую задачу. Можно услышать, что изначально GPT-4o понял проблему и хотел немедленно ее решить. Но новую модель можно прервать, и в этом случае студенту было предложено помочь решить ее самому.

Еще одна возможность, наблюдаемая здесь, заключается в том, что модель утверждает, что обнаруживает эмоции в речи, а также может выражать эмоции сама. На мой вкус, в демо-версии это было несколько преувеличено, и это отражено здесь: ИИ, возможно, немного снисходителен. Но это все настраивается.

По сути, каждый студент в мире мог бы иметь частного репетитора с такими способностями.

Насколько это будет реализовано Apple?

Мы знаем, что искусственный интеллект является основным направлением iOS 18 и что компания завершает сделку по внедрению функций OpenAI на устройства Apple. Хотя в то время это было описано как предназначенное для ChatGPT, теперь вполне вероятно, что на самом деле речь идет о доступе к GPT-4o.

Но мы также знаем, что Apple работает над собственными моделями искусственного интеллекта, имея собственные центры обработки данных, использующие собственные чипы. Например, Apple работает над своим собственный способ позволить Siri понимать экраны приложений.

Таким образом, мы не знаем точно, какие возможности GPT-4o компания внедрит в свои устройства, но эта кажется настолько идеальной для Apple, что я должен поверить, что она будет включена. Это действительно использование технологий для расширения прав и возможностей людей.