ИИ научился восстанавливать песню по музыкальному видео

Новенькая модель искусственного ума (ИИ) умеет просматривать видео без звука, где музыкант играет песню на инструменте, и восстанавливать эту композицию. В дальнейшем эта разработка будет применять движения тела для восстановления речи и остальных звуков.

Ученые из MIT представили систему искусственного ума (ИИ) Foley Music, которая генерирует музыку на базе видео без звука, где музыканты играют на инструментах. Они молвят, что модель работает с различными музыкальными инструментами и превосходит несколько имеющихся систем по скорости и качеству работы.

Исследователи считают, что модель ИИ, которая делает музыку на базе движений человека, может стать основой для нескольких приложений — от автоматического прибавления звуковых эффектов в видео до сотворения иммерсивных воспоминаний в виртуальной действительности. Исследователи отмечают, что таковым навыком владеют и люди — к примеру, когда соображают речь человека по губам.

Foley Music направляет внимание на главные точки тела (25 точек) и пальцы (20 точек) как промежные зрительные опорные точки, которые она употребляет для моделирования движений тела и рук. Опосля этого система переводит эти движения в музыкальные нотки, беря во внимание громкость. Так она может воспроизвести аккордеон, бас-гитару, фагот, виолончель, гитару, фортепиано, укулелеле и остальные инструменты.

В процессе тестов исследователи научили Foley Music трем наборам данных, содержащим тыщу видеоклипов с музыкальными исполнениями, относящихся к 11 категориям. Так они смогли собрать корпус видео разной трудности — аннотации с веб-сайта AtinPiano, любительские видео с каналов на YouTube, отрывки из концертов и остальные данные.

Исследователи загрузили в систему Foley Music 450 видео. Потом они дали полученную музыку ученым, которые оценивали итог. В неких вариантах они отмечали, что «музыка похожа на кавер от высококачественной группы».

Специалисты нашли, что сгенерированную музыку Foley Music тяжело отличить от настоящих записей. Наиболее того, ИИ может сделать лучше свойство звука, семантическое сглаживание и временную синхронизацию.

Читайте также:

— Поглядите на 3D-карту Вселенной: ее составляли 20 лет и она уже изумила ученых

— Комета NEOWISE видна в Рф. Где ее узреть, куда глядеть и как создать фото

— Три астероида летят к Земле, и один из их потенциально небезопасен. Есть ли угроза?

Источник