Исследователи Apple раскрывают новый прорыв в области искусственного интеллекта для обучения LLM изображениям и тексту

В новой статье, опубликованной в этом месяце, исследователи Apple рассказывают, что они разработали новые методы обучения больших языковых моделей с использованием как текстовой, так и визуальной информации. По мнению исследователей Apple, это способ получить самые современные результаты.

Как впервые заметил ВенчурБитИдея исследования состоит в том, чтобы продемонстрировать, «насколько тщательное сочетание различных типов обучающих данных и архитектур моделей может привести к высочайшей производительности в ряде тестов искусственного интеллекта».

Статья была опубликована на прошлой неделе и называется «MM1: методы, анализ и выводы из предварительной подготовки к мультимодальному LLM». Исследователи Apple объясняют в аннотации статьи:

В этой работе мы обсуждаем создание производительных мультимодальных моделей большого языка (MLLM). В частности, мы изучаем важность различных компонентов архитектуры и выбора данных. Благодаря тщательному и всестороннему удалению кодера изображения, соединителя языка видения и различных вариантов выбора данных перед обучением, мы выявили несколько важных уроков дизайна.

Например, мы демонстрируем, что для крупномасштабного мультимодального предварительного обучения использование тщательного сочетания подписей к изображениям, чередующихся изображений-текста и только текстовых данных имеет решающее значение для достижения современного (SOTA) малокадрового режима. результаты по нескольким тестам по сравнению с другими опубликованными результатами предварительного обучения.

MM1 описывается как «семейство мультимодальных моделей», которые являются самыми современными и обладают «привлекательными свойствами, такими как улучшенное контекстное обучение и рассуждение с использованием нескольких образов, позволяющее подсказывать цепочку мыслей с помощью нескольких шагов». »

Возможности контекстного обучения модели MM1 особенно впечатляют:

MM1 может выполнять контекстные прогнозы благодаря крупномасштабному мультимодальному предварительному обучению. Это позволяет MM1 (а) подсчитывать объекты и следовать пользовательскому форматированию, (б) ссылаться на части изображений и выполнять распознавание текста, (в) демонстрировать здравый смысл и словесные знания о повседневных объектах и (г) выполнять основные математические функции. Изображения взяты из набора проверки COCO 2014.

Исследователи приходят к выводу, что это семейство моделей «обеспечивает конкурентоспособную производительность по широкому спектру тестов, обеспечивая при этом возможность рассуждения с использованием нескольких образов и подсказок с небольшим количеством шагов».

Читать далее:

Исследователи Apple раскрывают новый прорыв в области искусственного интеллекта для обучения LLM изображениям и тексту

Похожее

Получите лучшее предложение на Apple M3 Pro MacBook Pro за 1749 долларов.

iOS 18 от Apple может работать на базе искусственного интеллекта Google Gemini AI

Исследователи Apple раскрывают новый прорыв в области искусственного интеллекта для обучения LLM изображениям и тексту

Похожее

Получите лучшее предложение на Apple M3 Pro MacBook Pro за 1749 долларов.

iOS 18 от Apple может работать на базе искусственного интеллекта Google Gemini AI

XGIMI предлагает скидки ко Дню матери на свои проекторы 1080p/4K

TikTok собирается начать маркировать ваш контент, созданный искусственным интеллектом

TikTok подает в суд на правительство США, утверждая, что запрет неконституционен