Авторы работы использовали созданную ими ранее рекуррентную нейросеть, которая изначально предназначалась для генерации поп-песен. С помощью базы данных, состоящей из 100 часов музыки, исследователи предварительно обучили программу сочинять простые мелодии с темпом 120 bpm (ударов в минуту). Причем искусственный интеллект учитывал типичные для поп-музыки последовательности аккордов, а также добавлял в композицию ударные. Затем программа была обучена подбирать слова к своей мелодии. Для того, чтобы создать словарь для нейросети, ученые использовали 51 час аудиозаписей текстов песен (без музыки) и композицию Just Dance. Исследователи оставляли только те слова, которые встречались чаще четырех раз, поэтому словарный запас искусственного интеллекта оказался небольшим — всего 3390 слов. С их помощью он научился сочинять собственные поп-хиты и петь их со скоростью 1 удар на слово (1 beat per word).

Разработчики из университета Торонто создали нейросеть, которая умеет сочинять песню про предметы, показанные на фотографиях
Фото: J J / Flickr

Сейчас авторы работы обучили нейросеть понимать, как определенные слова могут быть связаны с изображенными на снимках предметами. Для этого они использовали фотографии с метками, подсказывающими искусственному интеллекту, что именно перед ним находится. Как сообщает The Guardian, программа работает по тому же принципу, что и созданный ранее исследователями генератор текстов в стиле Тэйлор Свифт. Он также анализирует фотографию и подбирает подходящие слова.

 

Исследователи проверили работу нейросети, введя в нее снимок наряженной к Рождеству елки. В итоге компьютер создал довольно странную песню, послушать которую можно здесь:

 

 

 

В будущем исследователи планируют научить нейросеть «играть» на большем количестве инструментов и создавать гораздо более сложные песни.

 

Источник: N+1