Исследователи, работающие в Apple и из Колумбийского университета, в октябре незаметно выдвинули мультимодальную программу LLM с открытым исходным кодом — исследовательский релиз под названием «Ferret», который может использовать области изображений для запросов.
Внедрение Github в октябре по большей части прошло незамеченным, без каких-либо объявлений или помпы по поводу его внедрения. Код для Ferret был выпущен вместе с Ferret-Bench 30 октября, а выпуск контрольных точек был представлен 14 декабря.
Хотя поначалу он не привлек особого внимания, в субботу этот релиз стал большим событием для исследователей искусственного интеллекта, сообщает VentureBeat. Барт Де Витте, оператор некоммерческой организации, занимающейся искусственным интеллектом в медицине, отправлено в X о «пропущенном» выпуске, назвав его «свидетельством приверженности Apple эффективным исследованиям в области искусственного интеллекта».
Выпуск Ferret в открытый исходный код осуществляется по некоммерческой лицензии, поэтому в текущем виде он не может быть коммерциализирован. Однако всегда существует вероятность того, что он каким-либо образом будет использован в будущем продукте или услуге Apple.
Твит от октября, исследователь Apple AI/ML Чжэ Ган объясняет использование Ferret как системы, которая может «ссылаться и обосновывать что угодно где угодно и с любой степенью детализации» в изображении. Это также можно сделать, используя любую форму области внутри изображения.
Проще говоря, модель может исследовать область, нарисованную на изображении, определять внутри нее элементы, которые будут полезны пользователю в запросе, идентифицировать ее и рисовать ограничивающую рамку вокруг обнаруженного элемента. Затем он может использовать этот идентифицированный элемент как часть запроса, на который затем может ответить обычным образом.
Например, выделив изображение животного на изображении и спросив LLM, что это за животное, он может определить вид существа и определить, что пользователь имеет в виду отдельное животное из группы. Затем он может использовать контекст других объектов, обнаруженных на изображении, чтобы предложить дальнейшие ответы.
Представляем Ferret, новый MLLM, который может ссылаться и обосновывать что угодно, где угодно и с любой степенью детализации.
https://t.co/gED9Vu0I4y
1 Ferret позволяет указать область изображения любой формы.
2 Часто он показывает более точное понимание небольших областей изображения, чем GPT-4V (раздел 5.6). pic.twitter.com/yVzgVYJmHc— Чжэ Ган (@zhegan4) 12 октября 2023 г.
Этот релиз важен для исследователей, поскольку он показывает, что Apple стремится быть более открытой в своей работе с искусственным интеллектом, а не своей обычной скрытной позицией.
У Apple также есть проблема с инфраструктурой, поскольку, хотя она работает над увеличением количества принадлежащих ей серверов искусственного интеллекта, на данный момент у нее может не быть доступных масштабов для совместной работы, например, с ChatGPT. Хотя Apple могла бы сотрудничать с другими фирмами для расширения своих возможностей, другой путь — сделать то, что она только что сделала, а именно выпустить модель с открытым исходным кодом.
В одном интересном элементе из релиза Github R/Apple из Reddit заметил, что Ferret «обучен на 8 графических процессорах A100 с 80 ГБ памяти». Учитывая историю Apple с поддержкой графических процессоров Nvidia, это было воспринято как редкое признание производителя графических процессоров.