Skip to main content

Значок Siri, наложенный на Apple Park

Apple публично поделилась четырьмя моделями с открытым исходным кодом, которые могут похвастаться повышенной точностью запросов, что может помочь в разработке будущих моделей искусственного интеллекта.

Поскольку технологическая индустрия продолжает стремительно развиваться благодаря разработкам в области искусственного интеллекта, Apple продолжает предлагать больше возможностей для ознакомления с технологией, над которой она работает. В последнем публичном выпуске Apple выпустила квартет моделей с открытым исходным кодом.

Модели инструкций, называемые эффективными LLM с открытым исходным кодом или OpenELM, размещаются на совместной платформе Hugging Face. Hugging Face используется для размещения моделей ИИ, а также для их обучения и совместной работы над улучшениями.

OpenELM — это библиотека с открытым исходным кодом, которая объединяет несколько моделей больших языков (LLM) с использованием эволюционных алгоритмов.

В четырех моделях OpenELM используется «стратегия послойного масштабирования» для распределения параметров внутри слоев модели трансформатора для повышения точности, говорится в карточке модели для выпусков.

Модели были предварительно обучены с использованием библиотеки CoreNet. Apple предоставила как предварительно обученные, так и настроенные с помощью инструкций модели, используя 270 миллионов, 450 миллионов, 1,1 миллиарда и 3 миллиарда параметров.

В наборе данных перед обучением использовалась комбинация подмножества Dolma v1.6, RefinedWeb, дедуплицированного PILE и подмножества RedPajama. В результате был получен набор данных, содержащий примерно 1,8 триллиона токенов.

В соответствующей статье, опубликованной во вторник, исследователи проекта говорят, что воспроизводимость и прозрачность больших языковых моделей «имеют решающее значение для продвижения открытых исследований». Это также помогает обеспечить достоверность результатов и позволяет проводить исследования ошибок и рисков модели.

Что касается точности моделей, то объясняется, что при бюджете параметров в один миллиард параметров OpenELM имеет улучшение точности на 2,36% по сравнению с OLMo, при этом требуя вдвое меньше токенов предварительного обучения.

Авторами моделей и статей являются Сачин Мехта, Мохаммад Хоссейн Сехават, Цинцин Цао, Максвелл Хортон, Янци Цзинь, Ченфан Сунь, Иман Мирзаде, Махьяр Наджиби, Дмитрий Беленко, Питер Затлукал и Мохаммад Растегари.

Выпуск исходного кода моделей — последняя попытка Apple предать гласности свои разработки в области искусственного интеллекта и машинного обучения.

Это не первый публичный выпуск Apple процедур искусственного интеллекта. В октябре компания поделилась программой LLM с открытым исходным кодом под названием Ferret, которая улучшила способ анализа изображения моделью.

В апреле в новой версии Ferret добавлена ​​возможность анализировать точки данных на снимке экрана приложения и в целом понимать, как работает приложение.

Ожидается, что WWDC в июне представит немало достижений в области искусственного интеллекта для продуктов Apple.