Skip to main content

В новой статье, опубликованной в этом месяце, исследователи Apple рассказывают, что они разработали новые методы обучения больших языковых моделей с использованием как текстовой, так и визуальной информации. По мнению исследователей Apple, это способ получить самые современные результаты.

Как впервые заметил ВенчурБитИдея исследования состоит в том, чтобы продемонстрировать, «насколько тщательное сочетание различных типов обучающих данных и архитектур моделей может привести к высочайшей производительности в ряде тестов искусственного интеллекта».

Статья была опубликована на прошлой неделе и называется «MM1: методы, анализ и выводы из предварительной подготовки к мультимодальному LLM». Исследователи Apple объясняют в аннотации статьи:

В этой работе мы обсуждаем создание производительных мультимодальных моделей большого языка (MLLM). В частности, мы изучаем важность различных компонентов архитектуры и выбора данных. Благодаря тщательному и всестороннему удалению кодера изображения, соединителя языка видения и различных вариантов выбора данных перед обучением, мы выявили несколько важных уроков дизайна.

Например, мы демонстрируем, что для крупномасштабного мультимодального предварительного обучения использование тщательного сочетания подписей к изображениям, чередующихся изображений-текста и только текстовых данных имеет решающее значение для достижения современного (SOTA) малокадрового режима. результаты по нескольким тестам по сравнению с другими опубликованными результатами предварительного обучения.

MM1 описывается как «семейство мультимодальных моделей», которые являются самыми современными и обладают «привлекательными свойствами, такими как улучшенное контекстное обучение и рассуждение с использованием нескольких образов, позволяющее подсказывать цепочку мыслей с помощью нескольких шагов». »

Возможности контекстного обучения модели MM1 особенно впечатляют:

MM1 может выполнять контекстные прогнозы благодаря крупномасштабному мультимодальному предварительному обучению. Это позволяет MM1 (а) подсчитывать объекты и следовать пользовательскому форматированию, (б) ссылаться на части изображений и выполнять распознавание текста, (в) демонстрировать здравый смысл и словесные знания о повседневных объектах и ​​(г) выполнять основные математические функции. Изображения взяты из набора проверки COCO 2014.

Исследователи приходят к выводу, что это семейство моделей «обеспечивает конкурентоспособную производительность по широкому спектру тестов, обеспечивая при этом возможность рассуждения с использованием нескольких образов и подсказок с небольшим количеством шагов».

Читать далее: