После процедуры обучения система искусственного интеллекта оказалась способной расшифровывать даже самые сложные фразы, определять слова, произносимые людьми, которые склонны "глотать" окончания слов, и людьми, обладающими не очень типичной мимикой их лица. В качестве тестового задания из набора различных телепередач были выбраны 200 случайных фрагментов. Человек-профессионал смог безошибочно распознать всего 12.4 процента слов, в то время, как искусственный интеллект показал результат в 46.8 процента, безоговорочно выиграв не только у человека, но и у других автоматических систем чтения по губам.

Смотри на мои губы
"Смотри на мои губы"
Фото: Burton Pritzker/Getty

"Все это является огромным шагом на пути к созданию полностью автоматических систем чтения по губам, - рассказывает Зиэнг Жоу (Ziheng Zhou), ученый из университета Оулу, Финляндия. - И это стало возможным только благодаря огромному набору исходных данных, на которых эта система была обучена".

О величине набора исходных данных говорит тот факт, что в вышеупомянутых 5 тысячах часов записей содержалось около 118 тысяч предложений, произнесенных разными людьми, лица которых снимались с различных ракурсов.

 

Успех совместного мероприятии исследователей из Оксфордского университета и компании Google основывается на исследованиях оксфордских ученых, благодаря которым в свое время была создана система чтения по губам GRID. В качестве исходных данных эта система использовала данные об артикуляции людей при произношении 51 ключевого уникального слова. Система компании Google, обученная на наборе данных, содержащем около 17 500 уникальных слов, имеет гораздо более богатый набор исходных данных, что ощутимо сказывается на качестве ее работы.

Нобелевскую премию по физиологии и медицине дали за исследование аутофагии
Видео с субтитрами, которые выдает обученная система искусственного интеллекта,
распознавая слова по движению губ человека

Кроме этого, система компании Google была обучена на образцах реальной человеческой речи, а не на 33 тысячах синтетических предложений, составленных специально для обучения система GRID. Поэтому система Google менее восприимчива к особенностям каждого конкретного человека и к эмоциям, которые периодически очень сильно проявляются на лице говорящего человека.

 

В настоящее время специалисты Google и исследователи из Оксфордского университета готовят использованный ими для обучения искусственного интеллекта набор данных для того, чтобы создать на его основе общедоступный учебный ресурс. Этим ресурсом смогут пользоваться все разработчики систем автоматического чтения по губам, в том числе группа Яниса Ассаеля (Yannis Assael), которая занимается разработкой системы LipNet. И, вполне вероятно, что все эти усилия, в конце концов, могут привести к тому, что бытовые и потребительские электронные устройства смогут понимать то, что мы говорим им, читая это по нашим губам.

 

Источник: DailyTechInfo

 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Новости о науке, технике, вооружении и технологиях.

Подпишитесь и будете получать свежий дайджест лучших статей за неделю!