Apple выпускает четыре OpenELM, чтобы ускорить развитие LLM

Значок Siri, наложенный на Apple Park

Apple публично поделилась четырьмя моделями с открытым исходным кодом, которые могут похвастаться повышенной точностью запросов, что может помочь в разработке будущих моделей искусственного интеллекта.

Поскольку технологическая индустрия продолжает стремительно развиваться благодаря разработкам в области искусственного интеллекта, Apple продолжает предлагать больше возможностей для ознакомления с технологией, над которой она работает. В последнем публичном выпуске Apple выпустила квартет моделей с открытым исходным кодом.

Модели инструкций, называемые эффективными LLM с открытым исходным кодом или OpenELM, размещаются на совместной платформе Hugging Face. Hugging Face используется для размещения моделей ИИ, а также для их обучения и совместной работы над улучшениями.

OpenELM — это библиотека с открытым исходным кодом, которая объединяет несколько моделей больших языков (LLM) с использованием эволюционных алгоритмов.

В четырех моделях OpenELM используется «стратегия послойного масштабирования» для распределения параметров внутри слоев модели трансформатора для повышения точности, говорится в карточке модели для выпусков.

Модели были предварительно обучены с использованием библиотеки CoreNet. Apple предоставила как предварительно обученные, так и настроенные с помощью инструкций модели, используя 270 миллионов, 450 миллионов, 1,1 миллиарда и 3 миллиарда параметров.

В наборе данных перед обучением использовалась комбинация подмножества Dolma v1.6, RefinedWeb, дедуплицированного PILE и подмножества RedPajama. В результате был получен набор данных, содержащий примерно 1,8 триллиона токенов.

В соответствующей статье, опубликованной во вторник, исследователи проекта говорят, что воспроизводимость и прозрачность больших языковых моделей «имеют решающее значение для продвижения открытых исследований». Это также помогает обеспечить достоверность результатов и позволяет проводить исследования ошибок и рисков модели.

Что касается точности моделей, то объясняется, что при бюджете параметров в один миллиард параметров OpenELM имеет улучшение точности на 2,36% по сравнению с OLMo, при этом требуя вдвое меньше токенов предварительного обучения.

Авторами моделей и статей являются Сачин Мехта, Мохаммад Хоссейн Сехават, Цинцин Цао, Максвелл Хортон, Янци Цзинь, Ченфан Сунь, Иман Мирзаде, Махьяр Наджиби, Дмитрий Беленко, Питер Затлукал и Мохаммад Растегари.

Выпуск исходного кода моделей — последняя попытка Apple предать гласности свои разработки в области искусственного интеллекта и машинного обучения.

Это не первый публичный выпуск Apple процедур искусственного интеллекта. В октябре компания поделилась программой LLM с открытым исходным кодом под названием Ferret, которая улучшила способ анализа изображения моделью.

В апреле в новой версии Ferret добавлена возможность анализировать точки данных на снимке экрана приложения и в целом понимать, как работает приложение.

Ожидается, что WWDC в июне представит немало достижений в области искусственного интеллекта для продуктов Apple.

Apple выпускает четыре OpenELM, чтобы ускорить развитие LLM

Похожее

Meta открывает свою ОС Horizon для сторонних гарнитур XR

Следующие Apple Watch могут получить более тонкую материнскую плату и больше датчиков

Apple выпускает четыре OpenELM, чтобы ускорить развитие LLM

Похожее

Meta открывает свою ОС Horizon для сторонних гарнитур XR

Следующие Apple Watch могут получить более тонкую материнскую плату и больше датчиков

PSA: Остерегайтесь этой хитрой фишинговой аферы с Netflix

Иск Unfollow Everything может изменить то, как мы используем приложения для социальных сетей

Вот как выглядит демонтаж проекта Apple Car