Системы генеративного ИИ обучаются, позволяя им просматривать веб-страницы для сбора контента. Apple позволяет издателям отказаться от сбора данных, и в новом отчете говорится, что многие из крупнейших веб-сайтов специально отказались от обучения Apple Intelligence.
Сюда входят как Facebook, так и Instagram, а также многие известные новостные и медийные сайты, такие как Нью-Йорк Таймс и Атлантический …
Обучение искусственного интеллекта от Apple
Крупные языковые модели, такие как ChatGPT, обучаются путем предоставления им доступа к миллионам слов исходного материала: от новостных статей до комментариев пользователей.
В случае Apple компания уже много лет использует Applebot для обучения Siri и выведения на поверхность предложений Spotlight. Совсем недавно компания также использовала Applebot для обучения Apple Intelligence.
Эта практика спорна, поскольку ИИ эффективно используют защищенный авторским правом материал для создания своих собственных версий. Для более узкоспециализированных тем, где исходный материал скуден, они даже, как было обнаружено, извергают целые абзацы, почти не внося изменений.
Однако Apple делает это этично, позволяя издателям отказаться от участия и отсеивая персональные данные (хотя один сторонний источник все же это раскрыл).
Мы обучаем наши базовые модели на лицензированных данных, включая данные, выбранные для улучшения определенных функций, а также общедоступные данные, собранные нашим веб-сканером AppleBot. Веб-издатели имеют возможность отказаться от использования своего веб-контента для обучения Apple Intelligence с помощью контроля использования данных […]
Мы применяем фильтры для удаления личной информации, такой как номера социального страхования и кредитных карт, которые находятся в открытом доступе в Интернете.
Apple использует тег Applebot-Extended, чтобы позволить сайтам отказаться от обучения искусственного интеллекта, при этом продолжая индексировать поиск. Это означает, что их материалы по-прежнему могут быть включены в поиск Spotlight и Siri.
Многие крупные веб-издатели отказываются
Поскольку отказ осуществляется с помощью общедоступного файла robots.txt, легко увидеть, какие сайты это сделали. Проводной проверил ряд крупнейших новостных сайтов и сайтов социальных сетей.
WIRED может подтвердить, что Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, сеть USA Today и материнская компания WIRED Condé Nast входят в число многих организаций, решивших исключить свои данные из обучения искусственного интеллекта Apple. […]
В ходе отдельного анализа, проведенного на этой неделе, журналист Бен Уэлш обнаружил, что чуть более четверти обследованных им новостных сайтов (294 из 1167 преимущественно англоязычных изданий, базирующихся в США) блокируют Applebot-Extended.
Applebot-Extended — относительно новый тег, поэтому вполне вероятно, что больше веб-сайтов также откажутся от него, как только осведомленность о нем повысится.
Деньги, конечно, один из факторов.
Apple, как полагают, заключила сделки с некоторыми медиакомпаниями, выплачивая комиссию в обмен на право использовать их контент для обучения. Вероятно, это и есть мотивация по крайней мере некоторых сайтов, которые в настоящее время блокируют Apple, — ожидая предложения об оплате.
«Многие крупнейшие издатели в мире явно придерживаются стратегического подхода», — говорит основатель Originality AI Джон Гиллхэм. «Я думаю, в некоторых случаях задействована бизнес-стратегия — например, сокрытие данных до заключения партнерского соглашения».
iOS 18.1 beta 3 включает в себя несколько новых функций Apple Intelligence, в том числе Photo Clean Up и дополнительные сводки уведомлений.
Фото Келли МакКлинток на Unsplash