Исследование Siri, Alexa, голосовой технологии Google Assistant показывает смещение в данных обучения

Автоматические системы распознавания речи необходимы для большинства функций интеллектуальных колонок и виртуальных помощников.

По данным нового исследования, системы распознавания речи крупных технологических компаний труднее понимают слова, произнесенные чернокожими, чем те же, которые произносят белые.

Автоматические системы распознавания речи необходимы для большинства функций интеллектуальных колонок и виртуальных помощников.
Автоматические системы распознавания речи необходимы для большинства функций интеллектуальных колонок и виртуальных помощников.

Эти типы систем обычно используются в цифровых помощниках, таких как Siri, а также в таких инструментах, как скрытые субтитры и управление без помощи рук. Но, как и в любой системе машинного обучения, их точность настолько же хороша, как и их набор данных.

Системы автоматизированного распознавания речи (ASR), разработанные такими компаниями, как Apple, Google и Facebook, как правило, имеют более высокую частоту ошибок при транскрипции речи афроамериканцев, чем белых американцев, согласно исследованию Стэнфордского университета, опубликованному в Proceedings Национальной академии наук.

Исследователи провели 115 интервью с людьми и сравнили их с результатами, полученными с помощью инструментов распознавания речи. Из них 73 разговора были с черными колонками, а 42 — с белыми.

Команда обнаружила, что «средняя частота ошибок в словах» была почти двойной (35%), когда системы ASR транскрибировали черную речь, по сравнению с 19%, когда она транскрибировала белые динамики.

Чтобы исключить различия в словарном запасе и диалекте, исследователи также подбирали речь по полу и возрасту, и ораторы говорили те же слова. Даже тогда они обнаружили, что уровень ошибок почти вдвое выше для черных динамиков, чем для белых.

«Учитывая, что сами фразы имеют одинаковый текст, эти результаты показывают, что расовые различия в характеристиках ASR связаны с различиями в произношении и просодии, включая ритм, высоту звука, ударение в слоге, длительность гласных звуков и произношения между белыми и черными громкоговорителями», исследование читает.

Уровень ошибок, как правило, был выше для афроамериканских мужчин, чем для женщин, хотя среди белых мужчин и женщин было такое же неравенство. Точность была наихудшей для говорящих, которые интенсивно использовали афро-американский народный английский (AAVE).

Конечно, системы машинного обучения не могут быть такими же предвзятыми, как люди. Но если в данных, на которых они обучаются, отсутствует разнообразие, это проявится в их точности и производительности. В исследовании делается вывод, что основной проблемой, по-видимому, является отсутствие аудиоданных от черных ораторов при обучении моделям машинного обучения.

Стоит отметить, что исследователи использовали специально разработанное приложение для iOS, в котором использовалась технология распознавания речи Apple, и неясно, использует ли Siri именно эту модель машинного обучения. Испытания также проводились весной прошлого года, поэтому модели могли измениться с тех пор.

В то время как исследование было посвящено черным и белым динамикам, цифровым помощникам также может быть труднее интерпретировать другие акценты.

Статья The Washington Post, опубликованная в 2018 году, показала, что цифровым ассистентам, таким как Alexa или Google Assistant, труднее понять людей с акцентами всех видов. Как правило, лучше всего понимали докладчиков с Западного побережья, где расположено большинство технологических гигантов.

А в 2019 году федеральные исследователи США также обнаружили широко распространенные доказательства расовой предвзятости в почти 200 алгоритмах распознавания лиц, что закрепляет тот факт, что отсутствие разнообразных наборов данных может вызвать похожие проблемы во всех типах платформ машинного обучения.

Соцсети