Skip to main content

Хорек в дикой природе [Pixabay/Michael Sehlmeyer]

Исследователи, работающие в Apple и из Колумбийского университета, в октябре незаметно выдвинули мультимодальную программу LLM с открытым исходным кодом — исследовательский релиз под названием «Ferret», который может использовать области изображений для запросов.

Внедрение Github в октябре по большей части прошло незамеченным, без каких-либо объявлений или помпы по поводу его внедрения. Код для Ferret был выпущен вместе с Ferret-Bench 30 октября, а выпуск контрольных точек был представлен 14 декабря.

Хотя поначалу он не привлек особого внимания, в субботу этот релиз стал большим событием для исследователей искусственного интеллекта, сообщает VentureBeat. Барт Де Витте, оператор некоммерческой организации, занимающейся искусственным интеллектом в медицине, отправлено в X о «пропущенном» выпуске, назвав его «свидетельством приверженности Apple эффективным исследованиям в области искусственного интеллекта».

Выпуск Ferret в открытый исходный код осуществляется по некоммерческой лицензии, поэтому в текущем виде он не может быть коммерциализирован. Однако всегда существует вероятность того, что он каким-либо образом будет использован в будущем продукте или услуге Apple.

Твит от октября, исследователь Apple AI/ML Чжэ Ган объясняет использование Ferret как системы, которая может «ссылаться и обосновывать что угодно где угодно и с любой степенью детализации» в изображении. Это также можно сделать, используя любую форму области внутри изображения.

Проще говоря, модель может исследовать область, нарисованную на изображении, определять внутри нее элементы, которые будут полезны пользователю в запросе, идентифицировать ее и рисовать ограничивающую рамку вокруг обнаруженного элемента. Затем он может использовать этот идентифицированный элемент как часть запроса, на который затем может ответить обычным образом.

Например, выделив изображение животного на изображении и спросив LLM, что это за животное, он может определить вид существа и определить, что пользователь имеет в виду отдельное животное из группы. Затем он может использовать контекст других объектов, обнаруженных на изображении, чтобы предложить дальнейшие ответы.

Этот релиз важен для исследователей, поскольку он показывает, что Apple стремится быть более открытой в своей работе с искусственным интеллектом, а не своей обычной скрытной позицией.

У Apple также есть проблема с инфраструктурой, поскольку, хотя она работает над увеличением количества принадлежащих ей серверов искусственного интеллекта, на данный момент у нее может не быть доступных масштабов для совместной работы, например, с ChatGPT. Хотя Apple могла бы сотрудничать с другими фирмами для расширения своих возможностей, другой путь — сделать то, что она только что сделала, а именно выпустить модель с открытым исходным кодом.

В одном интересном элементе из релиза Github R/Apple из Reddit заметил, что Ferret «обучен на 8 графических процессорах A100 с 80 ГБ памяти». Учитывая историю Apple с поддержкой графических процессоров Nvidia, это было воспринято как редкое признание производителя графических процессоров.