Искусственный интеллект научили читать по губам

Искусствeнный интeллeкт удaлoсь обучить чтению по губам. Инженеры презентовали систему, которая ошибается в несколько раз реже, нежели человек-профессионал. Разработка поможет слабослышащим людям, а также способна стать основой автопереводчиков, сообщают исследователи из Университета Британской Колумбии.

Для многих миллионов людей чтение по губам представляет собой единственный метод «услышать» собеседника. При этом сама практика достаточно трудная. Овладеть ей могут не все, поскольку даже профессионалы нередко допускают ошибки. Соответственно важно автоматизировать данный процесс. Команда ученых под руководством Нандо де Фрейтаса создала не одну, а сразу 3 системы, которым доверили реализацию нескольких этапов одной задачи.

Первая нейронная сеть подготовила материал в целях обучения второй программы. При просмотре роликов на YouTube, она отбирала видео, в которых герои разговаривают по-английски, а лица достаточно чётко видны. После этого компьютер выделял на записи движения непосредственно рта и делал короткие нарезки, в каждой из которых демонстрировалась артикуляция для фонемы.

По итогам работы системы, 140 тысяч часов необработанного видео стали представлять собой 4 тысячи часов обучающего материала, в который вошли свыше 127 тысяч слов на английском. Соответствующий набор в 7 раз больше самой крупной аналогичной базы, существовавшей ранее. Он может применяться для обучения не только второй системы искусственного интеллекта, но также любых других нейросетей, подчеркивают разработчики.

Вторая программа обучилась распознавать фонемы при помощи клипов, а также брала в расчет ряд особенностей. К примеру, учитывался факт того, что артикуляция звука во многом зависит от предшествующей фонемы. В результате третий компонент создавал из распознанных фонем готовые слова. Системе удалось правильно распознать 59% всех слов. Прошлый рекорд по аналогичной проверке составлял лишь 33%, тогда как профессионалам удалось угадать из того же набора данных только 7% слов. Последняя цифра оказалась небольшой из-за того, что в реальном разговоре люди больше ориентируются на контекст, чем на движения губ. При этом 41% ошибочных распознаваний всё еще довольно большая величина. Авторы разработки надеются со временем повысить эффективность своей программы.

Читайте также:

Слепой геймер поставил рекорд в Call of Duty

Источник: АН

Читайте наши новости в Facebook

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.