Apple Intelligence, возможно, была обучена менее юридически и этично, чем полагала Apple
Apple многого добилась, оплачивая данные, используемые для обучения Apple Intelligence, но одна фирма, услугами которой она пользовалась, обвиняется в якобы краже видеороликов YouTube.
Все генеративные ИИ работают, накапливая огромные наборы данных, называемые Большими языковыми моделями (LLM), и очень часто источник этих данных является спорным. Настолько, что Apple неоднократно заявляла, что ее источники являются этичными, и известно, что она заплатила миллионы издателям и лицензировала изображения у фирм-фотобиблиотек.
Однако, по данным Wired, одна фирма, чьи данные использовала Apple, оказалась менее щепетильной в отношении своих источников. Сообщается, что EleutherAI создала набор данных, который она называет Pile, и Apple, по ее словам, использовала его для обучения LLM.
Часть Pile, однако, называется YouTube Subtitles, которая состоит из субтитров, скачанных из видео YouTube без разрешения. Это, по-видимому, также является нарушением положений и условий YouTube, но это может быть более серой зоной, чем должно быть.
Помимо Apple, к компаниям, использовавшим Pile, относится Anthropic, представитель которой заявил, что существует разница между использованием субтитров YouTube и использованием видеороликов.
«Pile включает в себя очень маленькое подмножество субтитров YouTube», — сказала Дженнифер Мартинес. «Условия YouTube охватывают прямое использование его платформы, что отличается от использования набора данных Pile».
«Что касается возможных нарушений условий обслуживания YouTube, — продолжила она, — нам придется отослать вас к авторам Pile».
Salesforce также подтвердила, что использовала Pile при построении модели ИИ для «академических и исследовательских целей». Вице-президент Salesforce по исследованиям ИИ подчеркнул, что набор данных Pile «публично доступен».
Как сообщается, разработчики Salesforce также обнаружили, что набор данных Pile включает в себя ненормативную лексику, а также «предубеждения против пола и определенных религиозных групп».
Salesforce и Anthropic — пока единственные компании, которые прокомментировали использование Pile. Известно, что Apple, Nvidia, Bloomberg и Databricks использовали его, но они не ответили.
Apple Intelligence — это версия искусственного интеллекта от Apple
Организация Proof News утверждает, что обнаружила, что в Pile были использованы субтитры из 173 536 видеороликов YouTube с более чем 48 000 каналов. Среди использованных видеороликов семь от Marques Brownlee (MKBHD) и 337 от PewDiePie.
Proof News разработали онлайн-инструмент, который поможет пользователям YouTube узнать, использовались ли их работы.
Однако не только субтитры YouTube были собраны без разрешения. Утверждается, что была использована Wikipedia, а также документация Европейского парламента.
Академики и даже математики ранее использовали тысячи писем сотрудников Enron для статистического анализа. Теперь утверждается, что Pile использовал текст этих писем для своего обучения.
Ранее утверждалось, что генеративный ИИ Apple может быть единственным, который был обучен законно и этично. Но, несмотря на намерения Apple, Apple Intelligence, по-видимому, обучался на субтитрах YouTube, на что не имел права.