Geekbench 6 — последний бенчмарк в этой серии.
Обвинения в том, что Apple заплатила разработчикам эталонных тестов, чтобы их iPhone мог превзойти последние модели Samsung, необоснованны и основаны на трайбализме. Вот почему.
Жалобы в социальных сетях на то, что Samsung S23 Ultra работает хуже, чем iPhone после введения Geekbench 6, привели к обвинениям в предвзятости в пользу Apple. На самом деле, это всего лишь проблема того, как эталонные тесты воспринимаются как основная ценность смартфона.
С момента появления Geekbench 6 в феврале поклонники Samsung и Android обратились в Twitter и на другие публичные форумы, чтобы пожаловаться на его результаты. В частности, интернет-споры касаются того, как Samsung Galaxy S23 Ultra работает по сравнению с линейкой iPhone 14 Pro.
Подборка обвинений от PhoneArena показывает, что жалобы в основном связаны с тем, что оценки еще больше разошлись с введением нового Geekbench 6.
В Geekbench 5 Galaxy S23 Ultra набрал около 1600 баллов для одноядерного процессора и 5000 баллов для многоядерного процессора, что примерно равно 1900 и 5500 баллов iPhone 14 Pro.
Ориентировочные цифры результатов Geekbench 5
При тестировании с использованием Geekbench 6 Galaxy S23 Ultra набрал около 1900 для одноядерного теста и 5100 для многоядерного. Между тем, iPhone 14 Pro набирает 2500 для одноядерного результата и 6500 для многоядерного.
Обратите внимание на большую разницу в оценках для ориентировочных результатов Geekbench 6.
По сути, iPhone на 18% лучше в одноядерном и на 10% в многоядерном, чем Samsung в Geekbench 5. При переходе на Geekbench 6 отрыв увеличился до 31% и 18% соответственно.
Самсунг Галакси С23 Ультра
Обитатели соцсетей утверждают, что это изменение в счете должно означать, что в игре есть какая-то предвзятость по отношению к Apple. Конечно, достаточно близкая гонка в Geekbench 5 должна быть такой же близкой в Geekbench 6, утверждают твиты.
Следовательно, для этих людей существует некоторый уровень предвзятости в пользу Apple. Как это почти всегда бывает, кто-то уже обвинил Apple в том, что она заплатила GeekBench за повышение результатов.
Игра изменилась
Первое, что нужно учитывать, это то, что входит в сам тест. Синтетический бенчмарк выполняет множество тестов, результаты которых объединяются в окончательный единый балл.
Эти тесты не меняются на протяжении всего поколения эталонных тестов. Таким образом, существует определенный уровень согласованности при тестировании устройств в течение длительного периода времени.
Тем не менее, инструменты тестирования должны время от времени обновляться, чтобы соответствовать тенденциям в спецификациях оборудования и типам задач, которые пользователь может выполнять со своими устройствами.
Выпуск Geekbench 6 сделал именно это с изменениями существующих тестов и введением новых тестов, чтобы лучше соответствовать возможностям современного устройства. Это включает в себя новые тесты, ориентированные на машинное обучение и дополненную реальность, которые являются значительными областями роста в области вычислений.
«Эти тесты созданы специально для того, чтобы гарантировать, что результаты представляют реальные варианты использования и рабочие нагрузки», — говорится в описании Geekbench 6.
Машинное обучение — это область роста, способная создавать «искусство», поэтому имеет смысл сместить акцент в этом направлении.
Думайте об этом как о гонке между спринтером и кем-то, кто увлекается паркуром. Гонка обычно может быть чем-то вроде 100-метрового рывка, к которому привык спринтер, но переход на что-то вроде полосы препятствий Tough Mudder, вероятно, приведет к другому результату.
Если вы ничего не уберете из этой части, вот главный пункт. Если вы измените то, что тестируется, конечно, результаты будут другими.
Это ничем не отличается от того, если бы вы сравнили результаты Geekbench 5 с результатами других наборов тестов. Поскольку существуют разные тесты и альтернативный вес каждого из них, входящий в окончательные оценки, вы обнаружите, что различия в производительности между устройствами также различаются между инструментами тестирования.
Если вы думаете о Geekbench 6 как о совершенно другом инструменте для тестирования производительности по сравнению с Geekbench 5, различия в производительности могут быть более разумными для понимания.
Да, изменение веса, чтобы сделать некоторые области более важными для оценки, чем другие, может привести к изменению оценок. Но до тех пор, пока это не влияет на возможность прямого сравнения оценки с другими из того же поколения приложения, это не проблема.
Потребность в доверии
Инструменты сравнительного анализа находятся в привилегированном положении, поскольку они полностью зависят от доверия пользователей к правдивости результатов, которые они предоставляют. Разработчики говорят, что инструмент будет выполнять набор известных тестов, и каждый раз они будут выполняться определенным образом.
По большому счету, эталонные инструменты процветают благодаря этому доверию, что в игре нет предубеждений, характерных для конкретной компании. Полученные результаты считаются законными, и в них нет никаких нечестных действий.
Если бы, гипотетически, разработчику бенчмарка предложили бы огромный мешок денег, чтобы сбросить результаты в пользу одного производителя, это можно было бы выполнить. За исключением того, что разница в результатах по сравнению с остальной частью индустрии бенчмаркинга, вероятно, внезапно заставит пользователей усомниться в результатах, которые дает тест.
Такая ситуация подорвет доверие к результатам тестового инструмента, поскольку другие результаты будут поставлены под сомнение.
Таким образом, разработчикам эталонных тестов необходимо уменьшить любую предвзятость в результатах тестирования, чтобы они могли быть как можно более точными, чтобы сохранить достоверность и доверие к ним.
Подождите горячую минуту или две
Для формирования такого доверия требуется время, что поначалу может быть проблемой для тестовых инструментов.
После года работы такие инструменты, как Geekbench, могут собрать коллекцию результатов, на которую могут ссылаться пользователи. Поскольку Geekbench 5 так активно используется СМИ и энтузиастами, эта коллекция имеет огромное значение.
Однако, как мы уже говорили, Geekbench 6 — это не Geekbench 5, и он существует всего несколько недель. Пока еще не создан такой каталог результатов, чтобы иметь возможность адекватно сравнивать широкий спектр устройств.
Со временем Geekbench 6 догонит размер каталога результатов Geekbench 5.
К сожалению, это означает, что люди будут пытаться сравнивать результаты Geekbench 6 с Geekbench 5 до тех пор, пока этот каталог не будет достаточно конкретизирован, чтобы иметь значение.
Это проблема, которую нельзя решить сразу, поскольку она зависит от результатов, полученных в результате миллионов тестов с использованием этого инструмента. Это может занять месяцы, а не две недели, прошедшие с момента выпуска самого Geekbench 6.
Подождите несколько месяцев, а затем взгляните на тесты. Если Geekbench 6 заслуживает доверия, вы увидите одинаковые тенденции на всех протестированных им устройствах.
Предупреждение из истории
Поскольку эталонные тесты считаются основным способом сравнения одного устройства с другим, это может привести к мысли, что это окончательный арбитр в выборе лучшего смартфона, который вы можете купить.
Как мы только что указали, эталон должен быть лишь небольшой частью вашего общего решения о покупке, а не целиком. Этот приоритет тестов как «самого важного» уже приводил к странным ситуациям в прошлом.
Возьмем, к примеру, отчеты за март 2022 года, когда Samsung была поймана на том, что настраивала работу своих устройств специально с учетом контрольных показателей.
Линейка Samsung Galaxy S21 оказалась в центре скандала, связанного с тестами.
Чтобы смартфоны работали прохладно и без проблем, производитель смартфонов может ограничить вычислительную мощность своих устройств. В какой-то степени это имеет смысл, так как раскаленные докрасна смартфоны нежелательны для потребителей, равно как и те, которые могут разрядить аккумулятор.
В то время Samsung уличили в том, что они подвергали длинный список приложений «ограничениям производительности», а именно ограничивали их именно по этой причине. За исключением того, что тестовые приложения, такие как Geekbench 5 и Antutu, вообще не тормозились и работали без ограничений.
Для конечного пользователя это будет означать, что устройство будет хорошо тестироваться, но при реальном использовании будет работать с гораздо более низким уровнем производительности, чем ожидалось для многих обычных приложений.
Это фактически обманывает конечного пользователя, заставляя его поверить, что устройство работает быстрее, чем на самом деле, по крайней мере, в тестах.
Бенчмарки — это не реальный мир
Весь смысл теста заключается в том, что он дает вам стандартизированный способ сравнить одно устройство с другим и в целом узнать разницу в производительности. Ключом является стандартизация, и, как и во многих других областях жизни, это не обязательно приведет к истинному отражению чьих-либо возможностей.
Эта специализация даже сводится к самому конкретному тесту, поскольку, хотя Geekbench является более общим, есть и другие, ориентированные на конкретную аудиторию.
Например, многие геймеры полагаются на внутриигровые тесты, такие как в Rise of the Tomb Raider. Это имеет смысл в качестве эталона, поскольку это настоящая игра, и она может лучше тестировать только элементы производительности устройства с учетом потребностей игрока.
Между тем, хотя Cinebench предлагает тестирование, ориентированное на графические процессоры, он в значительной степени более полезен для тех, кто работает с 3D-рендерингом, поскольку больше ориентирован на эту область, чем на общие потребности 3D.
Существуют также тесты на основе браузера, но они полезны для тех, кто работает в онлайн-ориентированных областях, но не будут так полезны для тех, кто работает с 3D или заядлых геймеров.
В идеале пользователям необходимо выбрать инструменты для тестирования производительности, соответствующие их потребностям. Geekbench — это простой и универсальный набор тестов, но, хотя он не является лучшим для конкретных сценариев, его простота использования и универсальный характер делают его идеальным для тестирования на массовом рынке, например, в публикациях.
Тем не менее, независимо от того, какой тест вы используете, вы не получите полного изложения для ваших конкретных потребностей. Вы все равно получите указание, но не уверенность.
Этот спринтер хорош в гонках на короткие дистанции, но он, вероятно, не будет так хорош в уплате налогов или в знании, где находятся яйца в супермаркете. Знание их места в гонке не поможет вам быстрее вести учет, но вы будете знать, по крайней мере, что они физически здоровы.
Точно так же смартфон может хорошо справляться с определенными задачами в тесте, но это все еще приблизительное представление о том, что вы хотите делать с устройством. Например, вы можете установить приоритет времени, необходимого для выполнения биометрической разблокировки, или качества изображения камеры.
Инструмент для тестирования даст только общее представление о том, как смартфон сравнивается с другим в определенных условиях. Он не скажет вам, насколько хорошо он впишется в вашу жизнь.