Что такое шазам

Что такое шазам

Что за приложение Шазам, и как им пользоваться?

Вы слышите где-то интересную песню. Хотелось бы узнать ее название, и исполнителя. Чтобы потом найти и добавить в свой плейлист. Знакомая ситуация? Эту задачу позволяет решить приложение Shazam.

Что такое Шазам

Изначально это было приложение для смартфонов, под управлением ОС Android (см. скачать шазам для андроид). Теперь есть версии для яблочных устройств. А с помощью эмуляторов, стало возможным установка на персональный компьютер.

Основная функция — распознавание музыки по короткому отрывку. Вам достаточно поднести телефон или микрофон ПК, к источнику звука, и запустить процедуру определения (см. как найти музыку через микрофон с шазам онлайн). Шазам запишет отрывок песни, автоматически отправит ее на сервер, где сравнит с данными в базе. Если будет найдено совпадение, вам будет предоставлена следующая информация.

Что такое шазам

Для работы приложения не требуется активное интернет соединение. Даже если вы не подключены к сети, отрывок нужной песни будет сохранен. Вы получите данные, при следующем подключении.

Как пользоваться?

Установите Шазам на свое устройство, используя дистрибутивы и инструкции из раздела установочные файлы. Затем запустите.

Источником звука может выступать радио в автомобиле, колонки в заведении и т.д. Дальность достаточно высока. Я пробовал определить песню в спортивном зале, находясь от колонок на расстоянии примерно 15 метров. Все получилось.

На главной странице приложения доступна кнопка «Шазамить». Что такое шазам

Начнется процесс получения данных. Вам нужно подождать несколько секунд.

Что такое шазам

Возможно, с первого раза не получиться. Тогда запустите процесс еще раз.

Если совпадение будет найдено, на экране вы увидите всю информацию.

Что такое шазам

Теперь можно добавить песню к себе в коллекцию, поделиться с друзьями, посмотреть слова и т.д.

Источник

Как работают программы для распознавания музыки: разбираемся на примере Shazam

Что такое шазам

Что такое Shazam

Shazam (он же Шазам) – бесплатный инструмент для распознавания музыки, который работает на всех современных платформах, включая iOS, Android, macOS и WatchOS. Также существует расширение Shazam для браузера Chrome.

Компания-разработчик была основана в 1999 году, и за это время ее приложение научилось узнавать более 11 млн треков. Для работы Shazam требуется доступ к микрофону устройства, чтобы проанализировать песню, а затем сравнить ее со своей базой. Время распознавания мелодии не превышает 10–30 секунд.

Описание основного алгоритма работы Shazam для распознавания музыки опубликовал его создатель Эвери Ли Чунь Вонг (Avery Li-Chung Wang) еще в далеком 2003 году. Мы постараемся объяснить его простыми словами.

Алгоритм работы Shazam

Любой человек, если попросить его напеть музыкальную композицию, автоматически выделит из нее основные мотивы без учета басов и ударных инструментов. Получается, что даже достаточно сложная мелодия будет сокращена всего до нескольких нот. Такая же задача стоит и перед программой, которая должна распознавать песни. Однако для этого ей приходится использовать достаточно сложный алгоритм.

1. Получение спектрограммы

Перед определением названия песни сервис должен ее «услышать». Для этого программа преобразует музыку в другой вид. Вместо сложной звуковой волны, которую можно представить в виде не слишком понятного ни человеку, ни компьютеру графика, ей нужны отдельные частоты и громкость каждой.

Решить такую задачу сервису позволяет математический метод, известный как преобразование Фурье. Он позволяет получить из сложной волны набор отдельных частот с амплитудами. Результатом становится спектрограмма – график зависимости громкости от времени.

Что такое шазам

2. Карта созвездий

Создание спектрограммы – только начало процесса распознавания. Потому что кроме мелодии в звуковой волне могут присутствовать и посторонние звуки – уличный шум, помехи от микрофона, голоса окружающих людей. Кроме того, спектрограмма содержит лишние данные, для удаления которых приложение подвергает ее анализу – то есть определяет для каждого момента времени частоты с максимальной громкостью.

Что такое шазам

Условно можно сказать, что Шазам отмечает точки на графике. Точное их количество неизвестно, но результатом обработки становится компактный и аккуратный отпечаток – «карта созвездий». Например, на первой секунде выбираются частоты 512 и 1024 Гц, на третьей – 2048 Гц, на тридцатой – 1800 Гц и т.д.

Удаление лишних звуков делает размер композиции минимальным, а основную мелодию – ярко выраженной. Карта созвездий передается на сервер Shazam для сравнения с другими «отпечатками». Благодаря ее небольшому размеру ускоряется передача данных для экономии ресурсов сервиса и трафика пользователя.

3. Завершение распознавания

Завершающий этап определения требует решения еще одной проблемы. При распознавании на сервер попадает часть композиции – причем, как правило, не с сначала, а через несколько секунд или даже минут после старта песни. Сравнивать данные становится сложнее – сервер может найти вместо одной мелодии целую сотню «похожих».

Чтобы избежать проблем, необходимо избавиться от привязки частот к конкретному времени. Вместо этого учитывается другая связь. Например, частот 515 Гц и 1600 Гц, период времени между которыми составляет определенное количество секунд. При сравнении учитываются именно эти «пары», что делает вероятность ошибки минимальной. Конечно, совпадения могут встречаться сразу в нескольких композициях – но сервис выбирает ту мелодию, где их больше.

Что такое шазам

Основные возможности Shazam

Приложение Shazam полностью бесплатное: его легко найти в интернет-магазинах Play Market и App Store. После загрузки программы достаточно выполнить несколько простых действий:

Если мелодия была распознана, информация об этом сохранится на экране «Моя музыка». При отсутствии подключения к интернету приложение все равно создает уникальную «карту созвездий» и уже после восстановления связи сравнивает ее с базой данных. При невозможности определить композицию она удаляется из списка ожидания и нигде не сохраняется.

После определения можно получить не только информацию о треке, но и его слова, а также ссылку для прослушивания на YouTube или Apple Music. Также приложение показывает список других популярных песен исполнителя и автоматически воспроизводит отрывок найденной мелодии, чтобы пользователь мог убедиться в корректности поиска.

Что такое шазам

Кроме определения мелодий вручную, по нажатию кнопки в приложении, у пользователей Shazam есть следующие возможности:

Что такое шазам

На iPhone кнопку Shazam для запуска распознавания можно добавить прямо в пункт управления – то есть шторку. Для этого надо зайти в настройки смартфона, выбрать «Пункт управления» и нажать на плюсик напротив функции «Распознавание музыки».

Что такое шазам

Историю определений на айфоне можно сохранить в iCloud. У владельцев смартфонов на Android тоже есть возможность сохранения – но после создания учетной записи на сайте сервиса shazam.com/myshazam. После этого доступ к информации о распознанных за все время треках будет доступен с других устройств. Также историю можно будет восстановить, если вы случайно удалите Шазам с телефона.

Какие еще приложения умеют распознавать музыку?

Чтобы распознать музыку на телефоне, не обязательно пользоваться программой Shazam. Несмотря на то, что она считается самой популярной, удобной и эффективной при определении треков, сегодня существует немало других вариантов.

Google. Есть два способа, как распознавать мелодии с помощью сервиса Google. Первый – через одноименное приложение. Установка понадобится только при использовании iOS, на устройствах с ОС Android поисковая система используется по умолчанию. Откройте приложение Google, нажмите на значок микрофона и выберите опцию «Найти песню». Второй метод – с помощью Google Ассистента. Для этого надо вызвать его фразой «Окей, Google» и задать вопрос «Что это за песня?» После того, как Google найдет нужную мелодию, ее можно будет послушать в Deezer или YouTube Music, а также посмотреть музыкальный клип на YouTube. Кроме того, сервис сразу отобразит результаты поиска по названию композиции.

Что такое шазам

Яндекс.Музыка. Сервис российского разработчика тоже умеет распознавать песни – однако он выдает результаты поиска внутри своего приложения, без ссылок на сторонние стриминговые площадки. Самый простой способ запустить распознавание – зажать иконку приложения на рабочем столе, дождаться появления всплывающего меню и выбрать «Распознать музыку». После определения трека Яндекс добавит его в плейлист «Распознано».

Что такое шазам

SoundHound. Приложение, позволяющее определить название песни, прослушать ее или купить с помощью Spotify, Apple Music или YouTube. Для поиска достаточно нажать оранжевую кнопку на главной странице программы. Есть возможность просмотра истории предыдущих поисков, текстов песен и видеороликов из клипов.

Musixmatch. Крупнейшая библиотека текстов, среди функций которой – искать композиции по названиям, исполнителям, отдельным строкам и звукам играющих рядом мелодий. И даже переводить слова песен с иностранных языков.

Deezer. Французский стриминговый сервис, позволяющий искать мелодии в базе данных, которая включает более 70 млн треков. Функция SongCatcher дает возможность распознавать композиции по звуку. Можно получать доступ к названиям песни, альбома и имени исполнителя. Приложение станет хорошей альтернативой Шазаму, если вы используете Deezer как основной сервис для прослушивания музыки.

Источник

История сервиса Shazam

От распознавания музыки по телефону до интеграции со Snapchat, миллиардной оценки и сделки с Apple.

История приложения Shazam началась в 1999 году, когда два студента Калифорнийского университета в Беркли Крис Бартон и Филипп Ингелбрехт решили создать программу, которая могла бы распознавать музыку. С ними в команде оказались друг Криса Дираж Мукерджи и инженер Эйвери Ванг.

Крис Бартон увлёкся высокими технологиями, когда ему было всего 11 лет. Его мама, преподававшая информатику в университете, принесла домой один из первых персональных компьютеров Sinclair. На нём подросток научился писать простые программы.

Отец Криса — профессор в области ядерной физики — всегда говорил сыну, что главная мечта его детства — изобретать. Бартону понравилась идея создавать что-то новое и он решил, что тоже займётся изобретательством.

Будучи студентом колледжа, Бартон много изучал компьютерные технологии. Молодой человек любил бизнес и всегда хотел соединить два своих увлечения — науку и предпринимательство. Осознание того, что он действительно готов создать свой проект, пришло на первом году обучения по программе MBA в Беркли.

Один из студентов, Скотт Кусирек, который был старше Бартона всего на год, рассказал о старте своего интернет-бизнеса в сфере недвижимости. За несколько лет до этого он оставил карьеру пилота ВВС. Тогда Бартон подумал: если кто-то запустил бизнес после карьеры лётчика, то что мешает ему работать над своим делом?

Бартон решил, что его проект будет связан с мобильными устройствами. В 1998 году у него появился первый телефон. Держа его в руках, молодой человек задумался над изобретениями для устройства, которое люди постоянно носят с собой.

Лето между первым и вторым курсом MBA Бартон провёл в Лондоне на стажировке в Microsoft, там же находился его друг детства Дираж Мукерджи.

Вместе они и проводили мозговые штурмы в местных кафе. Друзья решили, что им нужен ещё один партнёр, и взяли в команду однокурсника Бартона по колледжу — Филиппа Ингелбрехта.

В это время сразу несколько компаний работали над распознаванием музыки, но они делали акцент только на мелодиях, которые играли на радио. Неохваченными оставались песни, которые играли в клубах, кафе, магазинах.

Изначально и Бартон думал только о радиостанциях. Он даже работал над программой звукозаписи для диджеев. Это и были первые шаги по созданию Shazam. Бартон уже остановился на идее создать программу по распознаванию музыки, играющей на радио, когда профессор из бизнес-школы рассказал студентам, что для изобретения действительно инновационного продукта нужно выйти за привычные рамки.

Молодой человек попытался представить: если его приложением будут пользоваться все радиостанции страны, что могут сделать конкуренты, чтобы обойти его? Если кто-то предложит систему по распознаванию звука из любого источника, то программа Бартона окажется не нужна.

Команде Бартона оставалось опередить вымышленных конкурентов и разработать такую программу. Многие профессора в области звуковых технологий говорили им, что это просто невозможно, но Бартону и его партнёрам удалось создать инновационный продукт.

Первое, с чем столкнулись разработчики — это то, что музыка тонет в потоке посторонних шумов и голосов, свойственных любому общественному месту. Предстояло создать кодировщик, который смог бы выделять одни звуки и блокировать другие. На этом этапе к команде присоединился инженер Эйвери Ванг.

Самым продвинутым телефоном в 1999 году был маленький Nokia 8210 с чёрно-белым экраном. Самой сложной операцией, которую совершали тогда мобильные устройства, была установка ринтгтона.

Разработчики поняли, что их алгоритм — это не только технология распознавания музыки, с её помощью можно идентифицировать любой звук: телевизионное шоу, рекламу, фильм. Реализовать это на мобильных устройствах того времени было нереально: уже тогда возможности Shazam были гораздо шире.

Во время запуска Shazam рынок мобильных устройств был развит в Европе и Японии. Там пользователям компания предложила услугу «Премиум SMS», с помощью которой можно было заплатить, например, за рингтон. На этом и рассчитывали зарабатывать разработчики.

В США такая услуга была ещё не доступна. Площадкой для тестирования новой программы стала Великобритания, страна с самым большим количеством музыки на душу населения.

Shazam была запущена в 2002 году. На первом этапе 95% владельцев мобильных телефонов в Великобритании (все, кроме клиентов Virgin Mobile), могли распознать мелодию, позвонив по номеру 2580. Пользователь в течение 30 секунд держал телефон у источника звука, после чего ему приходило сообщение с именем исполнителя и песни.

Если идентификация была невозможна, плата не взималась, если распознание проходило успешно, то со счёта списывалось 50 пенсов. Вскоре появилась новая услуга — покупка рингтонов, связанных с идентифицированными песнями.

Через несколько лет появилась функция неограниченного распознавания звуков для подписчиков за три доллара в месяц. Только появление App Store помогло приложению Shazam стать популярным на весь мир.

Постепенно основатели Shazam покинули компанию, только Эйвори Вонг позже опять присоединился к делу. Крис Бартон в 2003 году ушёл работать в Google, позже — в Dropbox. В том же году Дираж Мукерджи покинул компанию, следующим его местом работы стала организация Save the children.

После он работал в таких компаниях, как Bauer Media, Virgin Money и другие. Филипп Ингелбрехт остался в компании чуть дольше, построил b2b-бизнес и в 2004 году также перешёл в Google, а после занялся новыми стартапами.

В 2004 году система Shazam была запущена в США в сети AT&T. Через три года у компании изменился логотип и дизайн, практически в этом виде он существует до сих пор.

В качестве основного цвета был выбран голубой, который, как отмечают маркетологи, вызывает лояльность и доверие потребителей. Поэтому этот цвет и его оттенки используют многие крупные бренды: Facebook, Skype, Twitter. В 2007 году на сайте Shazam появился список треков, которые мог оценить пользователь.

Основная услуга (набор четырёхзначного номера 2580) оставалась до 2008 года — тогда появилось приложение для iPhone. Программа стала одной из первых в App Store. Это упростило сервис, позволяя запускать iTunes и покупать песню напрямую, если пользователь подключен к Wi-Fi.

Теперь все функции были в приложении, распознать песню стало намного легче. Все теги сохранялись в телефоне — их можно было просмотреть в любой момент. Услуга стала бесплатной, в ней появилась реклама.

Вскоре приложение было запущено на Android. Shazam начал сотрудничать и с другими брендами, расширяя список своих услуг. Например, покупка треков — ежедневно продавалось в среднем около 400 тысяч музыкальных произведений. Артисты могли публиковать для фанатов песни, которые им нравятся, чтобы быть ближе к поклонникам. Также появились опции — тексты песен и ссылки на видео.

К декабрю 2009 года приложение Shazam было установлено десять миллионов раз в 150 странах по всему миру. Около восьми процентов пользователей покупали песню после того, как она была идентифицирована. В январе 2011 года компания Apple объявила, что Shazam находится на четвёртом месте по количеству загрузок среди бесплатных приложений в App Store за всё время существования.

В 2012 году в дополнение к музыке появилось распознавание телевизионных шоу и рекламы. На идентификацию звуков требовались секунды. Программой уже пользовались более 250 млн человек с двумя миллионами активных пользователей в неделю.

Сейчас у приложения есть опция Auto Shazam, которая позволяет обнаруживать музыку непрерывно, даже когда телефон заблокирован.

В качестве одного из бизнес-решений было предложено новое направление, названное «Shazam для брендов». Оно позволяет заинтересованным компаниям рекламировать контент в стиле Shazam, получать доступ к артистам, которые соответствуют их ценностям. Пользователи приобретают скидки, бренды — рекламные возможности, а Shazam зарабатывает.

Shazam интегрировала функции в Snapchat, аудитория которого в среднем достигает 166 млн пользователей в день. Теперь они имеют доступ к контенту Shazam и могут делиться песнями со своими друзьями.

Пользователи приложения делятся на две категории: одни используют Shazam только по основному назначению — распознать понравившуюся песню. Других больше интересует социальный аспект — смотреть, чем делятся артисты, пользоваться сотрудничеством с брендами.

Семь из десяти пользователей младше 35 лет, 36% — молодёжь от 16 до 24 лет. Более 70% пользователей Shazam говорят, что постоянно подключены к приложению, открыты для тестирования новых продуктов и рекомендуют услуги друзьям и семье. 35% пользователей заявили, что заплатили за скачивание музыки в прошлом месяце.

В 2016 году приложение было загружено один миллиард раз, в среднем насчитывается 120 миллионов активных пользователей в месяц. Каждый день миллионы новых пользователей загружают приложение Shazam.

Источник

Как работает Shazam? Распознавание музыки на смартфоне для «чайников»

Последний альбом группы Queen с участием легендарного Фредди Меркьюри был записан уже после смерти вокалиста. И в этом альбоме есть одна интереcная песня, собранная буквально по кусочкам из обрывков записей Меркьюри, сделанных незадолго до смерти.

Эта композиция не должна была появиться и никто в Queen даже не думал, что из этих обрывков что-то можно сделать. Но продюсер группы практически самолично собрал всё воедино и создал знаменитую… как же ее… Простите, но название совершенно вылетело из головы.

И что же делать в подобных ситуациях?

Раньше, услышав красивую песню где-нибудь в кафе или на улице, вы могли достать смартфон, запустить приложение Shazam или SoundHound и тут же получить всю подробную информацию. Но сегодня бурный рост технологий позволил нечто большее!

Возвращаясь к забытой песне Фредди Меркьюри, мне достаточно запустить на смартфоне Google Ассистент, сказать фразу «Что сейчас играет?», а затем просто напеть мелодию, которая крутится в голове — «та-да-та-тааааа та-та-та-таааа та-да-та-таааа»:

Что такое шазам

И буквально через несколько секунд смартфон выдает правильный результат — You Don’t Fool Me группы Queen:

Что такое шазам

Как это вообще возможно!? Обычно в таких ситуациях отвечают — искусственный интеллект. Но если вам хочется получить настоящий ответ, тогда предлагаю вместе со мной погрузиться в увлекательный мир музыки!

После прочтения этой статьи вы поймете, как именно бездушный процессор смартфона стал еще на один шаг ближе к человеческому разуму. Или, по крайней мере, научился еще лучше его имитировать.

Часть 1. Природа звука

Бессмысленно говорить о том, как работает Shazam или распознавание музыки в целом, если не понимать, что такое музыка и звуки вообще. Поэтому вначале я уделю немного внимания этому вопросу.

Если же вы хорошо в этом разбираетесь, тогда переходите к следующему разделу. Но помните — понять работу Shazam без понимания этих основ будет тяжело.

Итак, звук возникает у нас в голове, когда воздух стучит по барабанной перепонке в наших ушах. Очень подробно этот процесс я описывал в статье о шумоподавлении или вреде громкой музыки. Так что здесь не будем повторяться.

Сам по себе воздух не может ни ударить по барабанной перепонке, ни сдвинуть с места даже пылинку. Это делают миллиарды молекул, хаотично летающих в пространстве.

Но чтобы они могли что-то или кого-то ударить, вначале нужно хорошенько их толкнуть — в точности как шары в бильярде. Именно это и делает любой динамик. Он движется вперед и назад, толкая молекулы воздуха то в одну, то в обратную сторону.

Мы даже можем отобразить это движение динамика на графике в виде волны:

Что такое шазам

Чем сильнее динамик отклонится в сторону (или вверх/вниз на графике), тем выше будет волна, а значит звук — громче. То, какую ноту или звук мы услышим, зависит только от того, сколько движений вперед-назад за одну секунду сделает наш динамик.

Если за 1 секунду произойдет 440 движений вперед-назад, мы услышим ноту ля. И не важно, что будет вибрировать 440 раз в секунду — струна гитары, фортепиано или школьная линейка, прижатая одной стороной к столу — мы будем слышать ноту ля.

Вот только если это будет делать динамик, вместо приятного звука мы услышим не очень приятный монотонный гул:

Почему так происходит? Почему, когда мы нажимаем клавишу ля на пианино, она звучит приятно, а не так «искусственно», будто сгенерирована на компьютере?

Всё дело в том, что в реальном мире практически не существует идеальных движений. То есть, если бы струна гитары или скрипки вибрировала или двигалась вперед-назад только так:

Что такое шазам

Тогда бы мы услышали точно такой же монотонный неприятный гул, как в примере выше. Что более интересно, совершенно неважно, на каком инструменте мы пытались бы воспроизвести ноту ля (на фортепиано, скрипке, гитаре) — во всех случаях мы бы услышали один и тот же монотонный звук.

А теперь посмотрите в замедленном движении, что происходит со струной в реальности (на примере скрипки):

Что такое шазам

Такое движение скорее можно схематически изобразить вот так:

Что такое шазам

И это еще очень упрощенный пример. На самом деле, движение струны гораздо сложнее! Струна вибрирует вся целиком (как показано на первой анимации) и создает звук на частоте 440 Гц (монотонная нота ля). Но также вибрирует и каждая половинка струны, создавая звуки на частотах 880 Гц (половинка в два раза короче целой струны, а значит и вибрирует в 2 раза быстрее, т.е. 880 раз в секунду).

Кроме того, струна вибрирует третями, четвертями и т.д. И каждый участок струны, вибрируя, запускает еще отдельные звуковые волны на частотах в 3, 4, 5 (и так до бесконечности) раз выше основного тона (в нашем примере — нота ля или 440 Гц). Каждая такая вибрация создает свой собственный монотонный звук на более высоких частотах.

Мы называем такие звуки гармониками. То есть, основная гармоника — это частота 440 Гц (если мы говорим о ноте ля), вторая гармоника — это когда струна будет вибрировать половинами, т.е. звук на частоте 880 Гц, третья гармоника — 1320 Гц (440*3) и так далее.

А теперь добавьте к этому еще и вибрацию корпуса инструмента, например, скрипки. Ведь струна жестко закреплена на корпусе и ее вибрация также приводит к вибрации всего инструмента. Эти вибрации в свою очередь зависят от породы дерева, толщины корпуса и его формы.

Каждая такая вибрация добавляет к нашему ансамблю звуков еще и свои монотонные писки на разных частотах.

Именно эти дополнительные частоты/ноты/звуки, вызванные особенностями колебания струны/корпуса и создают уникальный тембр каждого музыкального инструмента.

Мы можем даже самостоятельно создать звук похожий на пианино или гитару, просто взяв монотонный гул, который я приводил выше, и добавить к нему еще различные монотонные пищалки, только на более высоких частотах и с разной громкостью.

От того, насколько громко (и как долго) будет звучать каждая дополнительная частота и зависит тембр инструмента.

Реальная звуковая волна

Вы наверняка не раз видели звуковую волну какого-то реального звука и она совершенно не похожа на все эти красивые графики волн, которые встречаются в статьях, например, такую:

Что такое шазам

В реальности звук «выглядит» скорее так:

Что такое шазам

Но как это понимать? Где здесь красивые привычные волны? Как хотя бы понять частоту этой звуковой волны? Напомню, частота — это количество волн за секунду. К примеру, на синем графике чуть выше мы видим частоту 8 Гц или 8 волн за секунду. А на втором графике вообще отсутствуют какие-то повторяющиеся узоры. Почему?

Ответ на этот вопрос уже дан чуть выше. Ни один инструмент не создает только одну звуковую волну на одной частоте. В этом случае мы бы слышали монотонный гул. Но так как на основной тон накладывается еще десяток-другой частот, график полностью искажается.

Вот, к примеру, у нас есть основная частота 440 Гц (нота ля):

Что такое шазам

Струна будет создавать другие частоты, первой из которых станет 880 Гц (это вторая гармоника или 440*2). Такая частота будет получаться, когда две половинки струны будут вибрировать отдельно. И выглядеть вторая волна (880 Гц) будет уже так:

Что такое шазам

То есть, мы видим, что количество волн увеличилось вдвое (440 Гц и 880 Гц). Но две волны не будут путешествовать по воздуху отдельно, они сольются в одну. И какой же она будет?

Какие-то пики одной волны совпадут с впадинами другой и немного погасятся, в каком-то месте пики двух волн наложатся и она станет еще выше (громче). В общем, вместо двух волн разной частоты мы получим одну волну такого вида:

Что такое шазам

Глядя на эту волну, мы даже можем легко себе представить, как именно будет двигаться динамик, чтобы воспроизвести этот звук.

Вначале он максимально отклонится вперед, толкая молекулы на нас, затем назад до состояния покоя (прямая серая линия или 0 по оси Y — это состояние покоя), затем немножко вперед (маленький зеленый горбик на графике), после чего резко назад, втягивая воздух обратно (зеленая линия идет вниз, ниже серой полоски). Затем динамик снова вытолкнет весь воздух вперед (максимальная горка на графике) и так далее.

Естественно, чем больше разных частот будет создавать струна своим колебанием, тем сложнее окажется финальный «рисунок».

Таким образом, реальная звуковая волна — это результат наложения сотен волн различной частоты. Оттого она и выглядит так сложно.

На этом мы, пожалуй, и остановимся. Этих знаний должно хватить для понимания основной темы.

Часть 2. Как работает Shazam и любая другая технология распознавания музыки

Если я попрошу вас напеть какую-то музыкальную композицию, что именно вы споете? Будете ли вы учитывать басовую партию или партию ударных инструментов? А если речь идет об оркестровой музыке, в которой одновременно могут звучать десятки музыкальных инструментов?

Конечно же, вы просто напоете основную мелодию, игнорируя всё остальное. И что самое удивительное, я без проблем пойму, о чем идет речь. Даже если до вашего исполнения слушал эту композицию только на хорошей акустике в высоком качестве.

То есть, мы интуитивно можем сократить очень сложную и красивую музыку до нескольких простых нот. Точно так же работает и технология распознавания музыки. Вот только у смартфона нет интуиции и в этом его проблема.

Для бездушной железки даже самая прекрасная мелодия ничем не отличается от рёва мотора или простого шума ветра. Поэтому мы должны создать алгоритм, который бы привил смартфону чувство прекрасного. Этим и займемся!

Шаг 1. Анализируем частоты

Чтобы Shazam или любой другой сервис мог хоть что-то сделать с музыкой, он должен для начала ее «понять». То есть, вместо сложного и бессмысленного графика, вроде этого:

Что такое шазам

Наш смартфон должен увидеть, какие конкретно частоты звучат в каждый момент времени. Другими словами, он должен получить музыку в том виде, в котором она была до того, как все частоты смешались в один поток и направились к звукозаписывающей аппаратуре на студии.

К примеру, вместо сложной волны от нажатия клавиши фортепиано, в которой смешались монотонные звуки на частотах 440 Гц, 880 Гц и 1320 Гц, нам нужно получить эти частоты отдельно и узнать громкость каждой из них:

Это как если бы я показал вам цветное пятно и сказал, чтобы вы назвали, какие основные цвета и в какой пропорции я смешивал, чтобы получить этот уникальный цвет.

К счастью, нам не нужно ломать голову над этой задачей, так как ее успешно решил французский математик еще в 1807 году! Так появилась функция под названием преобразование Фурье.

При помощи этого математического метода мы получаем из сложной волны набор всех частот, из которых она состоит, а также амплитуду (громкость) каждой из них.

После этого у смартфона появляется спектрограмма. Это такой график, который по оси Y показывает конкретную частоту, а по оси X — время. То есть, мы можем видеть, какие частоты и насколько громко звучат в каждый момент времени:

Что такое шазам

Так как у нас только две оси (X и Y), то громкость мы отображаем цветом. Чем ярче цвет — тем громче звучит эта частота.

К примеру, на спектрограмме выше мы видим, как где-то на 9-й секунде (по оси X) очень громко заиграли все инструменты или все частоты (красная вертикальная линия). А где-то на 31-й секунде частоты свыше 1500 Гц вообще пропали, то есть, в этот момент они не звучат в нашей композиции:

Что такое шазам

Согласитесь, в таком виде работать с музыкой гораздо проще и понятнее, чем смотреть на бессмысленный график ломаной линии. Здесь мы можем, к примеру, убрать какой-то дефект на частоте 10 000 Гц (какой-то лишний звонкий писк). Ведь мы увидим яркую полоску сверху, которую можно удалить, а затем снова сложить все частоты в один звук, но уже без удаленной частоты.

Теперь давайте подытожим. На первом шаге смартфон переводит записанный фрагмент мелодии в спектрограмму. Но пользоваться ею не получится. Ведь помимо мелодии, здесь присутствуют и посторонние звуки (шум улицы, кафе или разговоров, низкое качество микрофона и пр.).

Кроме того, в этой спектрограмме очень много информации. Смартфону она не нужна, как и нам не нужно знать все партии каждого инструмента, чтобы напеть фрагмент мелодии. И это приводит нас ко второму шагу.

Шаг 2. Создаем карту созвездий

Первое, что мы сделали для облегчения спектрограммы, это записали звук в режиме моно (стерео нам ни к чему), а также обрезали все частоты свыше 5000 Гц (или 4000 Гц — в зависимости от сервиса или алгоритма).

Естественно, качество звука сильно упало, так как мы слышим частоты до 15-20 тысяч герц (в зависимости от возраста) и эта информация есть в каждом музыкальном произведении. Но для распознавания музыки эти частоты совершенно не нужны. Основная мелодия находится гораздо ниже (в пределах 100-2000 Гц):

Что такое шазам

На этой картинке мы видим, что основной диапазон голосов и музыкальных инструментов (насыщенная темная часть каждой полоски) легко помещается до 1000 Гц, а уже гармоники уходят до предела слышимости.

А теперь начинается самое интересное! Алгоритм начинает анализировать полученную спектрограмму и искать на ней самые яркие области в каждый момент времени. Другими словами, он определяет, какие частоты (можем для простоты называть их нотами) звучат наиболее громко в конкретный момент времени.

Давайте возьмем нашу спектрограмму и отметим белыми точками такие «основные» частоты или ноты:

Что такое шазам

Сколько конкретно точек отмечает Shazam — сказать сложно, но это точно небольшое число (сравнительно). После такой обработки вместо массивной спектрограммы с большим количеством данных мы получаем очень компактную и аккуратную картину:

Что такое шазам

Теперь это своего рода уникальный отпечаток конкретной композиции. В Shazam его называют картой созвездий. Это примерно то, что делает наш мозг, когда мы хотим напеть сложную композицию — выделяет самые главные ноты.

Эта карта созвездий буквально показывает следующее:

Помимо того, что мы колоссально сократили размер композиции, этот процесс естественным образом удалил все лишние звуки, так как на записи именно основная мелодия будет наиболее ярко выражена. Также мы удалили все гармоники, так как они практически всегда звучат тише основного тона.

Такую карту приложение создает на смартфоне еще до отправки данных на сервер Shazam. То есть, смартфон не передает звук.

В свою очередь компания также не хранит миллионы музыкальных композиций на своих серверах для сверки данных. Она пропустила каждую песню через этот алгоритм, чтобы получить ее «отпечатки». Они-то и хранятся на серверах.

Точнее, не совсем они…

Шаг 3. Убиваем главного врага — время

На данном этапе мы столкнулись с довольно серьезной проблемой. Предположим, вот это карта созвездий полноценной композиции на сервере Shazam:

Но человек даже теоретически не сможет каждый раз начинать записывать фрагмент интересующей его музыки с самого начала. Он может записать маленький кусочек где-то в середине композиции или за несколько секунд до конца песни.

В итоге, на смартфоне появится вот такая карта:

Если вы внимательно посмотрите, то увидите, что это фрагмент той же песни, что показана на карте чуть выше. Только в оригинале эти частоты (ноты) встречаются примерно с 19-й по 26-ю секунды, а здесь — примерно со 2-й по 9-ю.

Получается, смартфон передает серверу, что он услышал композицию, у которой на 5-й секунде ярко выражены 3 частоты: 510 Гц, 800 Гц и 1600 Гц (на графике по оси Y указаны только несколько частот, поэтому я называю частоты примерно).

Если сервер начнет искать у себя в базе данных композицию, у которой на 5-й секунде встречаются такие же основные частоты, то он может выдать любой результат, но только не правильный. Так как в оригинале эти частоты встречаются примерно на 22-й секунде.

А если не искать частоты с привязкой ко времени, то среди нескольких миллионов композиций может найтись сотня таких, в которых просто где-то встречаются 3 указанные частоты.

Нужно избавиться от привязки ко времени, сохранив при этом привязку ко времени! Хотя это и кажется нелогичным на первый взгляд, решение получилось весьма элегантным.

Вместо списка частот (нот) с привязкой к конкретной секунде, мы берем одну любую точку на карте и связываем ее с несколькими другими точками. Например:

Что такое шазам

То есть, мы взяли опорную (главную) точку O (на 19-й секунде) и связали ее с несколькими другими точками (частотами/нотами) — a, b и c.

Под словом «связали» я лишь подразумеваю следующее. Мы берем две частоты и разницу во времени между ними. То есть, если мы говорим о связи O->A, тогда это две частоты: 515 Гц (точка O) и 1600 Гц (точка A), а разница во времени между ними составляет 3 секунды (точка A на 22 секунде минус точка O на 19 секунде).

Вот и всё! То есть, вместо конкретных частот с привязкой к определенному времени, мы храним информацию о том, как связаны конкретные частоты между собой. Например, сохраняем информацию о том, что в определенной композиции звук на частоте 1600 Гц начинается спустя 3 секунды после звука на частоте 515 Гц.

Теперь мы можем передать эту информацию на сервер и он поищет, есть ли у него в базе такая мелодия, в которой прозвучала частота 515 Гц, а затем ровно через 3 секунды был звук на частоте 1600 Гц.

Конечно, мы передаем не одну «связку частот», а множество. И какие-то пары будут встречаться в разных композициях, особенно если это ремикс популярной песни. Но Shazam или любой другой сервис выдаст в качестве результата ту песню, в которой таких совпадений было больше всего.

Размышления вместо выводов

Только что мы рассмотрели базовый принцип работы любого сервиса по распознаванию музыки. Конечно, у вас могло остаться множество вопросов, так как я хотел раскрыть тему в общих чертах, чтобы она была понятной самому широкому кругу читателей.

Например, не совсем понятно, по какому принципу алгоритм выбирает опорные точки, от которых затем строит связи с другими частотами.

Ответа на этот вопрос у меня нет, так как Shazam не раскрывает свои алгоритмы в таких деталях. Возможно, компания выбирает для каждого момента времени первую по счету точку (счет ведется снизу вверх слева направо) и связывает ее с несколькими рядом стоящими точками.

Кроме того, я не рассказал о том, как именно передаются и хранятся такие записи. Для этого используются хеши. Но само понятие хеш-функции настолько интересное и важное, что мне не хотелось использовать его без подробного и понятного объяснения. А это бы заняло еще больше места в статье и усложнило восприятие информации.

Также мы коснулись только алгоритмов, без упоминания нейросетей. А именно последние используются Google Ассистентом для определения мелодии, когда человек просто напевает или насвистывает мотив песни.

В этом случае также создаются уникальные «отпечатки» каждой песни, только затем добавляется еще один важный этап. Когда Google создала базу «отпечатков», для каждой такой песни были собраны «отпечатки» простых мелодий, напетых обычными людьми.

Затем нейросеть обучили находить оригинал по плохому неточному отпечатку, полученному с напетой человеком мелодии. Когда нейросеть прошла обучение на тысячах примеров, теперь она способна самостоятельно сопоставлять отпечаток напетой мелодии с отпечатком оригинала на серверах Google.

Более подробно о том, как работают нейросети и что такое обучение нейросетей, мы рассказывали в отдельной статье.

Алексей, глав. ред. Deep-Review

P.S. Не забудьте подписаться в Telegram на наш научно-популярный сайт о мобильных технологиях, чтобы не пропустить самое интересное!

Как бы вы оценили эту статью?

Нажмите на звездочку для оценки

Внизу страницы есть комментарии.

Напишите свое мнение там, чтобы его увидели все читатели!

Если Вы хотите только поставить оценку, укажите, что именно не так?

Что такое шазам

Художественное боке на смартфоне. Самый древний и популярный миф

Что такое шазам

Батарея смартфона. Часть 1. Как она работает и как правильно заряжать свой телефон

Что такое шазам

Беспроводная зарядка смартфонов. Ответы на самые интересные вопросы

Что такое шазам

Чем отличается камера смартфона от фотоаппарата? Раскрываем все карты!

Что такое шазам

В чем измеряется современный смартфон?

Что такое шазам

Что такое Dolby Atmos на смартфонах? Или поговорим о широкой сцене в наушниках

Что такое шазам

Как работает смартфон #1. Что стоит за «разумом» этого устройства?

Что такое шазам

Как работает самая быстрая зарядка смартфона. Или что такое OPPO SuperVOOC?

А почему шазам не может некоторые песни распознавать в последнее время?

Спасибо, очень интересно! А упоминанием хеш-функций вы меня заинтриговали 🙂 Буду с нетерпением ждать статьи по ним!

Очень интересно!
Правда, на мой абсолютно дилетантский взгляд, этим все не заканчивается. Скорее всего, помимо позиции во времени для каждой частоты также записывается и ее длительность — иначе бессмысленно выстраивать связь между точками на карте. А в случае напевания со словами, подозреваю, используется и распознавание голоса для сравнения с базой данных текстов песен 🙂

Что касается длительности звучания частоты, такая информация не используется, так как она буквально уничтожит весь алгоритм. Мы используем именно дискретные точки без длительности.

Ведь чтобы записать длительность частоты, нужно, чтобы эта частота в течение, например, нескольких секунд была наиболее ярко выраженной в записи, т.е. самой громкой. Но так не бывает. Продолжительность звука практически всегда подразумевает его затухание со временем. То есть, мы 100% не получим точную длительность каждой «яркой» частоты.

Добавьте к этому затуханию шум или дефекты записи (мы же не в студии пишем, а на смартфон в шумной кафешке). Кроме того, мы не анализируем музыку непрерывно, а делаем «снимки» каждый определенный промежуток времени.

Что касается связи между точками, мы скорее не связь выстраиваем, а записываем координаты точек, только не относительно привязки ко времени, а относительно других точек (опорных).

Вот смотрите. Возьмем точку A из нашего примера. У нее такие координаты A[515;1600;3]. Они означают буквально следующее: частота 1600 Гц появляется на карте спустя 3 секунды после частоты 515 Гц. Это жесткая привязка к координатам. Именно эту точку мы закодируем в виде строки и отправим на сервер. Shazam будет искать композицию в которой просто есть частота 1600 Гц, появившаяся спустя 3 секунды после частоты 515 Гц. Не важно, сколько звучала частота 515 Гц или 1600 Гц. Важно только совпадение координаты точки A.

Shazam также смотрит на порядок следования точек. В нашем примере точка C (со своими координатами) следует после точки A. В оригинале такие точки должны также идти в таком же порядке (не важно, с какой секунды, главное — в том же порядке).

Благодарю за ответ!
Тем не менее, мне решительно не понятно, почему информация о длительности частоты должна рушить алгоритм. Определенная частота вполне может быть выражена определенный промежуток времени, например, когда исполнитель тянет ноту. Это не значит, что больше нет жесткой привязки, просто она теперь относится к началу звучания, так что длительность звучания никак не ломает алгоритм, а наоборот, дополняет.

Считаю нужным пояснить, почему мне видится это важным:
Если вы напоете мелодию гугл-ассистенту, то вы явно не попадете идеально ни в ноты, ни в их длительность, ни в темп, ни во временное положение частот относительно друга согласно имеющейся «таблице» для песни. Поэтому, очень сомнительным выглядит факт успешного распознавания без использования информации хотя бы о длительности нот.

Нам следует разделить метод распознавания мелодии как это делают сервисы Shazam или SoundHound и то, что сделала недавно Google. Во втором случае используется машинное обучение. И там тяжело о чем-то говорить конкретном, не зная реальных подробностей от разработчика. Google заявляет, что делает «отпечатки» мелодии, как и Shazam, но как точно эти отпечатки делаются — не сообщает.

Однако в чисто алгоритмическом определении (без нейросетей), длительность звучания частоты не используется. Приведу еще такие аргументы для наглядности:

1. Начиная запись мелодии в кафе в любой момент времени, мы нарушаем совпадение по длительности звучания многих частот. Например, в оригинале есть звучание частоты 440 Гц в течение 5 секунд, а мы начали запись на 4-й секунде звучания этой частоты, получается, она будет звучать у нас всего 1 секунду вместо 5-ти секунд, как в оригинале. То же касается и окончания записи по среди песни (обрывается длительность всех частот). Когда же мы напеваем что-то, то всегда начинаем с логического начала основной мелодии.

2. Условно говоря, на каждую секунду мы можем выделить не более, скажем, 8 основных точек (частот). Если на второй секунде появляется очень яркая (громкая) частота, то нет никакой гарантии, что на третьей секунде не появятся еще 8 более ярких частот. В этом случае, алгоритм запишет их, «оборвав» длительность яркой частоты, появившейся на второй секунде (или же придется делать очень много контрольных точек, что увеличивает вероятность шума). Когда мы говорим о напевании или насвистывании мелодии, такой проблемы нет, так как здесь нет никакой «полифонии», т.е. не звучат никакие инструменты, а идет мелодия в очень узком частотном диапазоне, где есть только основной тон и обертона, которые всегда будут тише основного тона.

3. Более того, в реальности алгоритм анализирует не конкретную частоту, а делает это «пачками» из частот/нот. Есть такая штука, как психоакустика, т.е. как мы воспринимаем громкость тех или иных звуков. Так вот, басы (до 100-200 Гц) мы воспринимаем гораздо хуже, чем средние частоты. Поэтому в музыке их искусственно повышают, чтобы звучание казалось нам сбалансированным. И если бы приложение анализировало только частоты, то все «контрольные точки» уходили бы на низкие частоты, например, на ритм, что давало бы массу ложных срабатываний. Поэтому идет группировка частот и фильтрация, в общем, всё для того, чтобы на каждый промежуток времени определить только те точки, в которых больше всего звуковой энергии. Рассчитывать или определять еще и длительность звучания этих частот не просто бессмысленно, а опасно. Смысл ведь не в том, чтобы собрать как можно больше информации о музыке (повторюсь, чем больше данных, тем дольше и труднее анализ и выше вероятность погрешности из-за шума), а наоборот — сократить ее до самого минимума, оставив только то, что на 100% соответствует каждой песне.

4. Опять-таки, Вы говорите « когда исполнитель тянет ноту». Если бы мы определяли мелодии в студии звукозаписи, с этим бы не было никаких проблем. Но где гарантия, что в момент, когда исполнитель тянет ноту, рядом кто-то не заговорит или не возникнет другой короткий посторонний шум, заглушив именно ту частоту, на которой тянулась нота, тем самым оборвав для алгоритма длительность этой ноты?

Повторюсь, самый элегантный способ — это найти несколько самых яркий точек и записать, как связаны между собой эти яркие точки, т.е. через какой промежуток времени одна яркая точка появляется после второй. Протяженность этих точек не только вносит дополнительные проблемы (самая главная из которых — правильно в шумном месте определить протяженность каждой частоты), но и не добавляет по сути ни надежности, ни скорости поиска (больше информации = больше времени на сравнение).

Источник

Shazam 12+

Находи музыку, видео и текст‪ы‬

Apple

Снимки экрана

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Описание

Shazam распознает любую песню за секунды. Открывайте для себя новых артистов, видео, слова песен, плейлисты — и все бесплатно. Приложение уже загрузили более миллиарда раз, и это число продолжает расти.

«Shazam — это настоящая магия», — Techradar.com

«Shazam — это подарок всем нам… Настоящий прорыв», — GQ

ПОЧЕМУ ВАМ ПОНРАВИТСЯ
Быстрый поиск названий песен.
Прослушивание музыки и возможность ее добавления в плейлисты Apple Music.
Просмотр слов песен одновременно с их звучанием.
Доступность видео из Apple Music или YouTube.
теперь доступен темный режим.
Добавьте виджет Shazam для просмотра недавней истории поиска песен на экране «Домой». Нажмите, чтобы мгновенно начать прослушивание музыки в Shazam.

ПОЛЬЗУЙТЕСЬ SHAZAM ГДЕ УГОДНО И КОГДА УГОДНО
Установите его на Apple Watch, iMessage, Mac или iPad.
Нет соединения с интернетом? Используйте Shazam офлайн.
Включите функцию Auto Shazam, чтобы продолжить поиск песен даже при переходе к другому приложению.

А ТАКЖЕ
Узнавайте, какая музыка популярна в вашей стране или городе с помощью чартов Shazam.
Получайте рекомендации песен и плейлистов, чтобы открывать для себя новую музыку.
Открывайте любую песню прямо в Apple Music или Spotify.
Делитесь музыкой с друзьями через Snapchat, Facebook, WhatsApp, Instagram, Twitter и другие приложения.

ТЫСЯЧИ ПЯТИЗВЕЗДОЧНЫХ ОТЗЫВОВ
«Потрясающе… Это приложение поразит вас… Нажимаешь на кнопку Shazam — и видишь, как называется песня».
«Очень полезное приложение, чтобы открывать для себя новую любимую музыку».
«Нашел песню, которую искал, буквально за секунду…»
«Обожаю Shazam! Он помогает мне создавать плейлист из песен, которые я не мог определить».
«Это приложение уже вошло в мой ежедневный обиход…»
«Люди, это лучшее приложение на свете! Если хотите узнать имя музыканта или название песни, это то, что нужно».
«Здорово, что оно легко интегрируется с Apple Music…»
«Обожаю функцию отображения слов песен! Текст появляется на экране вместе со звучанием слов…»

Источник

Shazam: алгоритмы распознавания музыки, сигнатуры, обработка данных

В ресторане заиграла почти забытая песня. Вы слушали её в далёком прошлом. Сколько трогательных воспоминаний способны вызвать аккорды и слова… Вы отчаянно хотите послушать эту песню снова, но вот её название напрочь вылетело из головы! Как быть? К счастью, в нашем фантастическом высокотехнологичном мире есть ответ на этот вопрос.

У вас в кармане лежит смартфон, на котором установлена программа для распознавания музыкальных произведений. Эта программа – ваш спаситель. Для того чтобы узнать название песни, не придётся ходить из угла в угол в попытках выудить из собственной памяти заветную строчку. И ведь не факт, что это получится. Программа, если дать ей «послушать» музыку, тут же сообщит название композиции. После этого можно будет слушать милые сердцу звуки снова и снова. До тех пор, пока они не станут с вами единым целым, или – до тех пор, пока вам всё это не надоест.

Что такое шазам

Мобильные технологии и невероятный прогресс в области обработки звука дают разработчикам алгоритмов возможность создавать приложения для распознавания музыкальных произведений. Одно из самых популярных решений такого рода называется Shazam. Если дать ему 20 секунд звучания, неважно, будет ли это кусок вступления, припева или часть основного мотива, Shazam создаст сигнатурный код, сверится с базой данных и воспользуется собственным алгоритмом распознавания музыки для того, чтобы выдать название произведения.

Как же всё это работает?
Описание базового алгоритма Shazam в 2003-м году опубликовал его создатель, Эвери Ли Чунь Вонг (Avery Li-Chung Wang). В данном материале мы в деталях разберём основы алгоритма распознавания музыки Shazam.

От аналоговых сигналов к цифровым: дискретизация

Что такое, на самом деле, звук? Может быть, это некая таинственная бестелесная субстанция, которая проникает в наши уши и позволяет слышать?

Конечно же, всё не так уж и загадочно. Давно известно, то звук – это механические колебания, которые распространяются в твёрдых, жидких и газообразных средах в форме упругих волн. Когда волна достигает уха, в частности – барабанной перепонки, приводятся в движение слуховые косточки, которые передают колебания дальше, к волосковым клеткам, расположенным во внутреннем ухе. В результате механические колебания преобразуются в электрические импульсы, которые передаются по слуховым нервам в мозг.

Устройства для записи звука довольно точно имитируют вышеописанный процесс, конвертируя давление звуковой волны в электрический сигнал. Звуковая волна в воздухе – это непрерывный сигнал, представленный областями сжатия и разрежения. Микрофон, первый электронный компонент, с которым встречается звуковой сигнал, преобразует его в сигнал электрический, который всё ещё остаётся непрерывным. Подобные сигналы в цифровом мире не особо полезны, поэтому, перед хранением и обработкой в цифровых системах, их нужно преобразовать в дискретную форму. Делается это с помощью выборки значений, представляющих значения амплитуды сигнала.

В процессе подобного преобразования производится квантование аналогового сигнала. Здесь не обходится без небольшого количества ошибок. Таким образом, мы имеем дело не с одномоментным преобразованием, аналого-цифровой преобразователь выполняет множество операций по преобразованию очень маленьких частей аналогового сигнала в цифровой. Этот процесс называют дискретизацией или сэмплингом.

Что такое шазам

Аналоговый (непрерывный) и цифровой (дискретный) сигналы

Благодаря теореме Котельникова мы знаем, какая частота дискретизации нужна для того, чтобы точно представить непрерывный сигнал, ограниченный некоторой частотой. В частности, для того, чтобы захватить весь частотный спектр звуков, доступных человеческому слуху, мы должны использовать частоту дискретизации, вдвое превышающую верхнюю границу частот, слышимых человеком.

А именно, человек может слышать звуки в диапазоне примерно от 20 Гц до 20000 Гц. В результате звук чаще всего записывают с частотой дискретизации 44100 Гц. Именно эта частота дискретизации используется в компакт-дисках. Она же чаще всего применяется для кодирования звука в группе стандартов MPEG-1 (VCD, SVCD, MP3).

Широкому использованию частоты дискретизации в 44100 Гц мы обязаны, преимущественно, корпорации Sony. В своё время звуковые дорожки, закодированные таким способом, удобно было совмещать с видео в стандартах PAL (25 кадров в секунду) и NTSC (30 кадров в секунду), работать с ними, используя существующее оборудование. Весьма важно и то, что эта частота достаточна для качественной передачи звука в диапазоне до 20000 Гц. Цифровое звуковое оборудование, использующее эту частоту дискретизации, вполне соответствовало по качеству аналоговому оборудованию тех времён, когда происходило становление стандартов цифрового звука. В итоге, выбирая частоту дискретизации звука при записи, вы, вероятнее всего, остановитесь на 44100 Гц.

Запись: захват звука

Записать сэмплированный звуковой сигнал – задача довольно простая. Современные звуковые карты содержат встроенные аналого-цифровые преобразователи. Поэтому достаточно выбрать язык программирования, найти подходящую библиотеку для работы со звуком, указать частоту дискретизации, количество каналов (обычно – один или два, для монофонического и стереофонического звучания, соответственно), выбрать количество битов в одном сэмпле (например, часто используется 16 бит). Затем нужно открыть строку данных со звуковой карты, так же, как открывается любой входной поток, и записать его содержимое в байтовый массив. Вот, как это делается в Java:

Временная и частотная области

В нашем массиве записано цифровое представление звукового сигнала во временной области. То есть, у нас есть сведения о том, как менялась амплитуда сигнала с течением времени.

В 19 веке Жан Батист Джозеф Фурье сделал выдающееся открытие. Заключается оно в том, что любой сигнал во временной области эквивалентен сумме некоторого количества (возможно, бесконечного) простых синусоидальных сигналов, при условии, что каждая синусоида имеет определённую частоту, амплитуду и фазу. Набор синусоид, которые формируют исходный сигнал, называют рядом Фурье.

Другими словами, можно представить практически любой сигнал, развёрнутый во времени, просто задав набор частот, амплитуд и фаз, соответствующих каждой из синусоид, которые этот сигнал формируют. Такое представление сигналов называют набором частотных интервалов. В каком-то смысле, сведения о частотных интервалах являются чем-то вроде «отпечатков пальцев» или сигнатур сигналов, развёрнутых во времени, давая нам статическое представление динамических данных.

Что такое шазам

Сигналы, развёрнутые во времени, и их частотные характеристики

Вот как выглядит анимированное представление Ряда Фурье для прямоугольной волны частотой 1 Гц. Здесь же показана аппроксимация исходного сигнала на основе набора синусоид. На верхнем графике сигнал показан в амплитудно-временной области, на нижнем дано его представление в амплитудно-частотном виде.

Что такое шазам

Преобразование Фурье в действии. Источник: Rene Schwarz

Анализ частотных характеристик сигналов значительно облегчает решение множества задач. Оперировать такими характеристиками в сфере обработки цифровых сигналов, очень удобно. Они позволяют изучать спектр сигнала (его частотные характеристики), определять, какие частоты в этом сигнале имеются, а какие – нет. После этого можно произвести фильтрацию, усилить или ослабить некоторые частоты, или просто распознать звук определённой высоты среди имеющегося набора частот.

Дискретное преобразование Фурье

Итак, нужно найти способ получения частотных характеристик сигналов, развёрнутых во времени. В этом нам поможет дискретное преобразование Фурье (ДПФ, DFT, Discrete Fourier Transform). ДПФ – это математический метод анализа Фурье для дискретных сигналов. С его помощью можно преобразовать конечный набор образцов сигнала, взятых с равными промежутками времени, в список коэффициентов конечной комбинации комплексных синусоид, упорядоченных по частоте, принимая во внимание, что эти синусоиды были дисретизированы с одной и той же частотой.

Один из самых популярных численных алгоритмов для вычисления ДПФ называется быстрое преобразование Фурье (БПФ, FFT, Fast Fourier Transformation). На самом деле, БПФ представлен целым набором алгоритмов. Среди них чаще всего используются варианты алгоритма Кули-Тьюки (Cooley-Tukey). В основе этого алгоритма лежит принцип «разделяй и властвуй». В ходе вычислений используется рекурсивное разложение исходного ДПФ на мелкие части. Прямое вычисление ДПФ для некоторого набора данных n требует O(n 2 ) операций, а использование алгоритма Кули-Тьюки позволяет решить ту же задачу за O(n log n) операций.

Несложно найти подходящую библиотеку, реализующую алгоритм БПФ. Вот несколько таких библиотек для разных языков:

Вот пример сигнала до и после БПФ-анализа.

Что такое шазам

Сигнал до и после БПФ-анализа

Распознавание музыки: сигнатуры песен

Один из неприятных побочных эффектов БПФ заключается в том, что проведя анализ, мы теряем информацию о времени. (Хотя, теоретически, подобного можно избежать, но на практике для этого понадобится огромная вычислительная мощность.) Например, для трёхминутной песни мы можем видеть звуковые частоты и их амплитуды, но вот где именно в произведении эти частоты встречаются, не знаем. А это – важнейшая характеристика, которая делает музыкальное произведение тем, что оно есть! Нам нужно как-то узнать точные значения времени, когда появляется каждая из частот.

Именно поэтому мы будем пользоваться чем-то вроде скользящего окна, или блока данных, и подвергать трансформации лишь ту часть сигнала, которая в это «окно» попадает. Размер каждого блока можно определить с использованием различных подходов. Например, если мы записываем двухканальный звук с размером образца равным 16 бит и с частотой дискретизации 44100 Гц, одна секунда такого звука займёт 176 Кб памяти (44100 образцов * 2 байта * 2 канала). Если мы установим размер скользящего окна, равный 4 Кб, то каждую секунду нам нужно будет проанализировать 44 блока данных. Это – довольно высокое разрешение для детального анализа композиции.

Вернёмся к программированию.

Во внутреннем цикле мы помещаем данные из временной области (образцы звука) в комплексные числа с мнимой частью равной 0. Во внешнем цикле проходим по всем блокам данных и для каждого из них запускаем БПФ-анализ.

Как только у нас будут сведения о частотных характеристиках сигнала, можно приступать к формированию цифровой сигнатуры музыкального произведения. Это – самая важная часть всего процесса распознавания музыки, который реализует Shazam. Главная сложность здесь – выбрать из огромного количества частот именно те, которые важнее всего. Чисто интуитивно мы обращаем внимание на частоты с максимальными амплитудами (обычно их называют пиками).

Однако, в одной песне диапазон «сильных» частот может варьироваться, скажем, от ноты «до» контроктавы (32,70 Гц), до ноты «до» пятой октавы (4186,01 Гц). Это – огромный интервал. Поэтому, вместо того, чтобы за сразу проанализировать весь частотный диапазон, мы можем выбрать несколько более мелких интервалов. Выбор можно сделать, основываясь на частотах, которые обычно присущи важным музыкальным компонентам, и проанализировать их по отдельности. Например, можно воспользоваться интервалами, которые вот этот программист использовал для своей реализации алгоритма Shazam. А именно, это 30 Гц – 40 Гц, 40 Гц – 80 Гц и 80 Гц – 120 Гц для низких звуков (сюда попадает, например, бас-гитара). Для средних и более высоких звуков применяются частоты 120 Гц – 180 Гц и 180 Гц – 300 Гц (сюда входит вокал и большинство других инструментов).

Теперь, когда мы определились с интервалами, можно просто найти в них частоты с самыми высокими уровнями. Эти сведения и формируют сигнатуру для конкретного анализируемого блока данных, а она, в свою очередь, является частью сигнатуры всей песни.

Заметьте, что мы должны учитывать то, что запись выполнена не в идеальных условиях (то есть, не в звукоизолированном помещении). Как результат, надо предусмотреть наличие в записи посторонних шумов и возможное искажение записываемого звука, зависящее от характеристик помещения. К этому вопросу стоит подойти очень серьёзно, в реальных системах стоит реализовать настройку анализа возможных искажений и посторонних звуков (fuzz factor) в зависимости от условий, в которых проводится запись.

Для упрощения поиска музыкальных композиций их сигнатуры используются как ключи в хэш-таблице. Ключам соответствуют значения времени, когда набор частот, для которых найдена сигнатура, появился в произведении, и идентификатор самого произведения (название песни и имя исполнителя, например). Вот вариант того, как подобные записи могут выглядеть в базе данных.

Хэш-тегВремя, в секундахПесня
30 51 99 121 19553.52Песня A исполнителя A
33 56 92 151 18512.32Песня B исполнителя B
39 26 89 141 25115.34Песня C исполнителя C
32 67 100 128 27078.43Песня D исполнителя D
30 51 99 121 19510.89Песня E исполнителя E
34 57 95 111 20054.52Песня A исполнителя A
34 41 93 161 20211.89Песня E исполнителя E

Если обработать таким способом некую библиотеку музыкальных записей, можно будет построить базу данных с полными сигнатурами каждого произведения.

Поиск совпадений

Для того чтобы выяснить, какая же песня играет сейчас в ресторане, надо записать звук с помощью телефона и прогнать его через вышеописанный процесс вычисления сигнатур. Затем можно запустить поиск вычисленных хэш-тегов в базе данных.

Но не всё так просто. Дело в том, что у многих фрагментов различных произведений хэш-тэги совпадают. Например, может оказаться так, что какой-то фрагмент песни A звучит точно так же, как некий участок песни E. И тут нет ничего удивительного. Музыканты и композиторы постоянно «заимствуют» друг у друга удачные музыкальные фигуры.

Всякий раз, когда удаётся обнаружить совпадающий хэш-тег, число возможных совпадений уменьшается, но весьма вероятно, что только лишь эти сведения не позволят нам настолько сузить диапазон поиска, чтобы остановиться на единственной правильной песне. Поэтому в алгоритме распознавания музыкальных произведений нам нужно проверять ещё кое-что. А именно – речь идёт об отметках времени.

Тот фрагмент песни, что записали в ресторане, может быть из любого её места, поэтому мы просто не в состоянии напрямую сравнивать относительное время внутри записанного фрагмента с тем, что есть в базе данных.

Однако если найдено несколько совпадений, можно проанализировать относительный тайминг совпадений, и, таким образом, повысить достоверность поиска.

Например, если взглянуть в вышеприведенную таблицу, можно обнаружить, что хэш-тег 30 51 99 121 195 относится и к песне A, и к песне E. Если секундой спустя мы будем проверять хэш-тег 34 57 95 111 200, то обнаружим ещё одно совпадение с песней A, к тому же, в подобном случаем мы будем знать о том, что совпадают и хэш-теги и их распределение во времени.

Пусть i1 и i2 – это отметки времени в записанной песне, j1 и j2 – отметки времени в песне из базы данных. Мы можем говорить о том, что имеются два совпадения, с учётом совпадения разницы во времени, если выполняется следующее условие:

Это даёт возможность не заботиться о том, на какую именно часть песни приходится запись: на начало, середину, или на самый конец.

И, наконец, маловероятно, что каждый обработанный фрагмент записанной в «диких» условиях песни совпадёт с аналогичным фрагментом из базы данных, построенной на основе студийных записей. Запись, на основе которой мы хотим найти название произведения, будет включать в себя много шума, что приведёт к неким расхождениям при сравнении. Поэтому, вместо того, чтобы пытаться исключить из списка совпадений всё, кроме единственной верной композиции, в конце процедуры сопоставления с базой данных мы отсортируем записи, в которых нашлись совпадения. Сортировать будем в убывающем порядке. Чем больше совпадений – тем вероятнее то, что мы нашли нужную композицию. Соответственно, она окажется на вершине списка.

Обзор процедуры распознавания музыки

Вот обзор всей процедуры распознавания музыкальных композиций. Пройдёмся по нему от начала до конца.

Что такое шазам

Обзор процедуры распознавания музыки

Всё начинается с исходного звука. Потом его захватывают, находят частотные характеристики, вычисляют хэш-теги и сравнивают их с теми, что хранятся в музыкальной базе данных.

В подобных системах базы данных могут быть просто огромными, поэтому важно использовать решения, которые поддаются масштабированию. В связях таблиц баз данных особенной нужды нет, модель данных очень проста, поэтому здесь вполне подойдёт какая-нибудь разновидность NoSQL-базы данных.

Shazam!

Программы, подобные той, о которой мы здесь говорили, подходят для поиска схожих мест в музыкальных произведениях. Теперь, когда вы понимаете, как работает Shazam, вы можете увидеть, что алгоритмы распознавания музыки применимы не только в роли «напоминалок» названий забытых песен из прошлого, звучащих по радио в такси.

Например, с их помощью можно искать музыкальный плагиат, или задействовать их для того, чтобы найти исполнителей, которые вдохновляли некоторых первопроходцев в блюзе, джазе, в рок-музыке, в поп-музыке, да в любом другом жанре.

Возможно, хорошим экспериментом станет заполнение базы данных классикой – сочинениями Баха, Бетховена, Вивальди, Вагнера, Шопена и Моцарта и поиск схожего в их работах. Так вполне можно выяснить, что даже Боб Дилан, Элвис Пресли и Роберт Джонсон не прочь были что-нибудь позаимствовать у других!

Но можем ли мы их за это винить? Уверен, что нет. Ведь музыка – это всего лишь звуковая волна, которую человек слышит, запоминает и повторяет у себя в голове. Там она развивается, меняется – до тех пор, пока её не запишут в студии и не выпустят на волю, где она вполне может вдохновить очередного гения от музыки.

wunderfund.io — молодой фонд, который занимается высокочастотной алготорговлей. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов.
Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Источник

Что такое Shazam? Основные функции и использование программы

С каждым годом всё больше выпускается музыки, но совсем не так много из неё нравится отдельно взятому человеку. Уследить за тенденциями очень сложно, если не заниматься этим сутками, а довольно часто мы слышим в самых разных местах интересные композиции, но как узнать, какая музыка играет?

Ранее ситуация была такова, что спустя месяцы или года попадалась понравившаяся и уже забытая песня, или удавалось узнать из источника автора композиции. В любом случае, процесс наполнения аудиотеки был весьма долгим и иногда мучительным, сегодня же есть Shazam.

Что такое шазам

Shazam помогает найти понравившийся трек на основании его части, более точно 10-и секундного отрывка. Благодаря специальным алгоритмам перед вами покажется название исполнителя и его композиция. Благодаря нехитрой манипуляции вы можете получить всю необходимую информацию здесь и сейчас.

Работает программа для распознавания музыки для Андроид, iPhone и в общем любых других платформах, где существует встроенный динамик и доступ в сеть. Вы абсолютно не ограничены в среде применения приложения, за многие годы работы, оно стало не только кроссплатформенным, но и прибавило множество дополнительных функций.

Сейчас приложение умеет не только находить музыку, но и в дополнение к ней показывает вам: ссылку на официальный магазин платформы для загрузки аудио, если доступно изображение, которое содержит официальную обложку альбома. Также, если записан клип, то вы получите ссылку на него. Дополнительно внедрены функции социальной сети, где вы можете общаться с друзьями, видеть ленту их поиска, просматривать рейтинг самых популярных композиций в мире. Конечно, в программе существует история поиска и вы можете её просмотреть, если забыли название мелодии.

Что такое шазам

Также Shazam умеет синхронизироваться с другими сервисами вроде Spotify или Rdio. Умеет производить поиск по тексту песни.

Shazam, как пользоваться?

Приблизительно принцип работы состоит в следующем: программа записывает 10 сек. трека. Затем загружает его на общий, центральный сервер, где по определённым точкам, используя мощного робота, происходит поиск. Вероятность найти композицию очень высокая, хоть и не 100%. В базе сервиса содержится уже свыше 40 млн песен.

Для успешного применения приложения необходимо иметь доступ к сети интернет, иначе процедура тоже будет выполнена, но по другому принципу. Отрезок запишется, но процесс распознания будет доступен, когда вы получите выход в сеть и просто нажмёте соответствующую кнопку.

Что такое шазам

Сервис Shazam бесплатен для использования в странах СНГ и нет платной версии. В общем-то существует и коммерческий вариант и единственное его преимущество – это отсутствие рекламы. Увы, но как и у многих бесплатных приложений, у Шазам заработок происходит за счет рекламы.

Использование программы крайне простое и доступно даже самому незадачливому пользователю, от вас требуется:

Что такое шазам

Что такое шазам

Что такое шазам

Стоит учитывать, что программа довольно умная и может отфильтровать шумы и помехи, если они в небольших количествах. Тем не менее, при большом уровне стороннего шума, найти мелодию не получится, вам потребуется по возможности удалить его или сменить позицию.

Лучше всего сервис работает с широко известными композициями, с англоязычными исполнителями, но вполне неплохо определяет и русские песни.

После удовлетворительного результата вы получите максимальное количество информации об исполнителе и самом произведении, не забыли разработчики и о тексте песни. Также будут представлены ссылки на дополнительные источники, вроде Wikipedia, где описывается история жизни/творчества музыканта, а иногда интересные обстоятельства написания песни.

Что такое шазам

Существуют и другие сервисы с подобным функционалом, но сравниться с Shazam очень сложно, на сегодня компания имеет капитал в более чем 1 млрд. долларов. Благодаря масштабности корпорации, очевидно, что вероятность успеха поиска становится значительно выше.

Все представленные характеристики и возможности программы делают из неё неоценимого помощника, который облегчит процесс пополнения аудиотеки многократно. Слушайте только лучшие песни вместе с Shazam!

Рейтинг статьи 4.1 / 5. Голосов: 17

Пока нет голосов! Будьте первым, кто оценит этот пост.

Источник

Shazam 12+

Находи музыку, видео и текст‪ы‬

Apple

Снимки экрана

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Что такое шазам

Описание

Shazam распознает любую песню за секунды. Открывайте для себя новых артистов, видео, слова песен, плейлисты — и все бесплатно. Приложение уже загрузили более миллиарда раз, и это число продолжает расти.

«Shazam — это настоящая магия», — Techradar.com

«Shazam — это подарок всем нам… Настоящий прорыв», — GQ

ПОЧЕМУ ВАМ ПОНРАВИТСЯ
Быстрый поиск названий песен.
Прослушивание музыки и возможность ее добавления в плейлисты Apple Music.
Просмотр слов песен одновременно с их звучанием.
Доступность видео из Apple Music или YouTube.
теперь доступен темный режим.
Добавьте виджет Shazam для просмотра недавней истории поиска песен на экране «Домой». Нажмите, чтобы мгновенно начать прослушивание музыки в Shazam.

ПОЛЬЗУЙТЕСЬ SHAZAM ГДЕ УГОДНО И КОГДА УГОДНО
Установите его на Apple Watch, iMessage, Mac или iPad.
Нет соединения с интернетом? Используйте Shazam офлайн.
Включите функцию Auto Shazam, чтобы продолжить поиск песен даже при переходе к другому приложению.

А ТАКЖЕ
Узнавайте, какая музыка популярна в вашей стране или городе с помощью чартов Shazam.
Получайте рекомендации песен и плейлистов, чтобы открывать для себя новую музыку.
Открывайте любую песню прямо в Apple Music или Spotify.
Делитесь музыкой с друзьями через Snapchat, Facebook, WhatsApp, Instagram, Twitter и другие приложения.

ТЫСЯЧИ ПЯТИЗВЕЗДОЧНЫХ ОТЗЫВОВ
«Потрясающе… Это приложение поразит вас… Нажимаешь на кнопку Shazam — и видишь, как называется песня».
«Очень полезное приложение, чтобы открывать для себя новую любимую музыку».
«Нашел песню, которую искал, буквально за секунду…»
«Обожаю Shazam! Он помогает мне создавать плейлист из песен, которые я не мог определить».
«Это приложение уже вошло в мой ежедневный обиход…»
«Люди, это лучшее приложение на свете! Если хотите узнать имя музыканта или название песни, это то, что нужно».
«Здорово, что оно легко интегрируется с Apple Music…»
«Обожаю функцию отображения слов песен! Текст появляется на экране вместе со звучанием слов…»

Источник

Трогнули, чтобы начать: История аудиосервиса Shazam, который шёл к прибыли 17 лет

29 сентября The Wall Street Journal Journal сообщила, что сервис по распознаванию музыки Shazam впервые за семнадцатилетнюю историю получил прибыль. Компания не раскрывает конкретные цифры, но отмечает, что доход принесла реклама. Рекламодатели платят сервису со 120 миллионами активных подписчиков за возможность встроить свой контент в приложение. Например, компания Nike в 2015 году представила «шазамящиеся» кроссовки Jordan — пользователь мог навести камеру на иконку прыгающего баскетболиста и получить информацию о новых моделях обуви, точках продаж и заодно посмотреть другие вещи Nike. Другой источник заработка для сервиса — возможность отключить рекламу, в AppStore это опция стоит 529 рублей.

29 сентября The Wall Street Journal сообщила, что сервис по распознаванию музыки Shazam впервые за 17-летнюю историю получил прибыль. Компания не раскрывает конкретные цифры, но отмечает, что доход принесла реклама. Рекламодатели платят сервису со 120 млн активных подписчиков за возможность встроить свой контент в приложение. Например, Nike в 2015 году представила «шазамящиеся» кроссовки Jordan — пользователь мог навести камеру на иконку прыгающего баскетболиста и получить информацию о новых моделях обуви, точках продаж и заодно посмотреть другие вещи Nike. Другой источник заработка для сервиса — возможность отключить рекламу, в App Store эта опция стоит 529 рублей.

Сейчас у Shazam более 400 млн пользователей в 200 странах, Россия — четвёртая по размеру аудитории. В январе 2015-го компания оценивалась более чем в миллиард долларов. «Секрет» вспоминает, как появился Shazam.

Сервис по SMS

Shazam придумал студент Крис Бартон в 1999 году, задолго до появления App Store и Google Play. В Штатах существовали сервисы, с помощью которых можно было узнать, какая песня только что прозвучала на радио, но Бартон хотел сделать технологию, чтобы распознавать мелодии, которые играют в барах, клубах и магазинах. Он и второй основатель сервиса Филип Ингельбрехт вместе учились в Калифорнийском университете на факультете компьютерных технологий. Первый ещё в детстве научился писать простейшие программы на микрокомпьютере «Синклер», второй был очарован интернет-бумом в Кремниевой долине и мечтал создать собственный проект. Скоро к ним присоединился Дхирай Мукхерджи, давний друг Бартона, который работал в консалтинге Bain Company и закончил бизнес-школу Стэнфорда. Когда они познакомились, Мукхерджи работал в Viant (владелец MySpace, сейчас принадлежит Time Inc).

Несколько месяцев партнёры искали разработчика и в итоге решили, что лучший кандидат — получивший докторскую степень Эйвери Ванг, сотрудник Центра компьютерных исследований музыки и акустики Стэнфорда. Ванг вспоминает, что проигнорировал первое письмо Бартона, но тот прислал второе и третье. Тогда Ванг решил встретиться с навязчивым предпринимателем, чтобы отказать ему лично, но Бартон убедил Ванга заняться сложной задачей — придумать новый алгоритм распознавания музыки. В Стэнфорде начали работу, а трое основателей переехали в Лондон. В Европе было больше мобильных операторов, чем в Штатах, между ними существовала конкуренция за пользователей и партнёров. Уже в начале нулевых операторы предоставляли возможность отправлять SMS для оплаты различных услуг.

Ванг решил, что необходимо создать алгоритм, который будет описывать пики частот аудиосигнала, анализировать их и сравнивать с имеющейся картотекой описаний, тогда получится определить прослушанную мелодию. Чтобы воплотить идею, требовались деньги, и первый миллион долларов партнёры заняли у родственников и друзей. Идеей заинтересовались главы звукозаписывающих студий EMI и EMG, экс-глава British Telecom. В 2001-м у стартапа появился крупный венчурный инвестор — Аджей Чодхури из IDG Ventures Europe, большой любитель музыки. «Мы встречались с людьми из четырёх крупнейших операторов, они отказывали, но мы не сдавались», — рассказывает Бартон. Главный аргумент от Shazam звучал так: «Вы же не хотите быть единственным оператором в стране, который не умеет распознавать музыку?».

В 2002 году Shazam заработал в Лондоне. 15 лет назад он был совсем не похож на технологию, которую сегодня используют миллионы владельцев смартфонов. Чтобы узнать название и исполнителя песни, нужно было набрать номер 2580, поднести динамик к источнику звука и подождать несколько секунд. Спустя некоторое время приходила SMS с данными о мелодии и предложением скачать рингтон за несколько пенсов. Так Shazam начал зарабатывать первые деньги.

В 2004 году Shazam запустился в США в сотрудничестве с оператором AT&T, а дальше начались шесть сложных лет. В одном интервью Бартон признал, что сервис опередил своё время, для эры кнопочных телефонов он был слишком сложным. Бартону приходилось увольнять сотрудников, в том числе близких друзей, и постоянно искать всё новых инвесторов, готовых поверить в идею.

Переход на смартфоны

Слева направо: Филип Ингельбрехт, Эйвери Ванг, Крис Бартон, Дхирай Мукхерджи

Сканируемое будущее

В мае 2015 года Shazam ввёл функцию визуального распознавания изображений. Наводя камеру на картину или QR-код, у пользователя появлялось рекламное предложение компании. Среди клиентов Shazam: The Walt Disney Company, Evian, The Warner Bros., журнал Esquire, The Wall Street Journal и Time.

Shazam распознаёт трек, но прослушать внутри приложения можно только отрывок песни. Чтобы услышать мелодию целиком, нужно перейти в приложение партнёра, например Apple Music. В России интересы Shazam представляет британская рекламная компания Brainient Russia — по их данным, в стране сервисом пользуется 35 млн человек. В августе 2016 года партнёром Shazam стал российский сервис Zvooq, кнопка сервиса интегрирована в интерфейс Shazam и даёт возможность пользователям прослушать интересующую их песню целиком. Shazam также ведёт переговоры с «Яндекс.Музыкой».

Shazam стал нарицательным именем, так же как когда-то Xerox. Сервисы, использующие схожий с Shazam алгоритм, называют «шазамами для чего-то» — например, есть уже шазам для шрифтов, мебели и одежды. Компания и сама собирается стать шазамом для всего на свете и придумать алгоритмы по распознаванию видео, текстов, а также начать зарабатывать на рекомендательных сервисах внутри приложения. Ещё один вектор развития — выход на развивающиеся рынки и внедрение сервиса на сторонних платформах, например, социальных медиа, чтобы пользователям было удобнее шазамить онлайн.

Источник

Shazam: что это за приложение?

Содержание статьи

Что такое шазам

История Shazam: название и развитие приложения

Именно эту цель ставили перед собой разработчики программы: чтобы в мгновение ока пользователь мог получить всю интересующую его информацию о музыке и об ее исполнителе.

Что же касается истории, шазам был создан в конце девяностых годов: тогда он представлял собой сервис, работающий через смс на короткий номер. Если кто-то хотел узнать название песни, то он должен был записать 30-секундный отрывок и отправить на номер 2580. В течение нескольких секунд приходило смс с ответом.

Но для того, чтобы приложение стало таким, как сейчас, потребовалось 14 лет работы и исследований. В этом разработчикам помогал профессор Смит, создатель алгоритмов для синтезаторов фирмы Yamaha, и его аспирант Эйвери Ванг. Под их руководством был разработан не только сложный алгоритм распознавания звуков, но и создана огромная база спектрограмм, куда входило более 15 миллиардов треков.

А уже в 2013 году Shazam был включен в десятку лучших приложений мира. Он стал условно бесплатным (прежде за смс приходилось платить), и доступным не только на телефонах и планшетах, а даже на смарт-часах. В последнем же случае пользователь может получить информацию о музыке, просто касаясь запястья.

Как работает Shazam?

В основе приложения лежит алгоритм, использующий спектрограммы – изображения, которые отображают, как мощность звукового сигнала зависит от времени. Такой алгоритм активно применяется в сейсмологии, гидро- и радиолокации, обработке речи и т.д. А спектрограммы, по сути, представляют собой «отпечатки» звуков, на которых и основана работа Shazam.

Если смотреть пошагово, то распознавание музыки в приложении происходит таким образом:

Т.е. Shazam рассматривает любую песню как частотно-временной график с тремя осями, на которых отображены время, частота и интенсивность. А каждая точка на подобном графике отражает интенсивность определенной частоты в конкретный момент времени. Чистый тон и всплески белого шума программа тоже различает.

Создавая график для песни, приложение выявляет частоту «пика интенсивности»: берет несколько пиковых значений за 10 секунд звучания образца, после чего переводит получивший «отпечаток» в хэш-таблицу, где ключами являются значения частоты. Первое значение – первый ключ – программа и использует, когда ищет в базе данных соответствия.

А если совпадений получилось несколько, программа ищет соответствие частот по времени.

Главный экран Shazam

После установки программы, пользователь, открыв ее, увидит в центре главного экрана большую кнопку. Она предназначена для запуска распознавания музыки, и через 10 секунд после ее нажатия приложение выдаст результат. Но лишь в том случае, если посторонних шумов вокруг – минимум.

Если же этих шумов много, поиск усложняется: Shazam требуется больше времени на распознавание песни. Для этого в правом верхнем углу главного экрана есть кнопка-переключатель – она выводит программу в автоматический режим. И после ее нажатия приложение в течение 4 следующих часов будет распознавать музыку, даже если пользователь из него выйдет.

Настройки

Чтобы попасть в меню настроек, пользователю нужно обратить внимание на левый угол главного экрана – там находится значок шестеренки. А после его нажатия, откроются и настройки программы, которые содержат:

Кроме того через настройки пользователь может связаться со службой поддержки, чтобы получить техническую помощь или ответы на вопросы по работе приложения. И, если захочет, приобрести Encore-версию программы.

Нижняя часть экрана

Нажав на кнопку «Теги», пользователь попадет в раздел, содержащий списки всей распознанной музыки. Эти списки разграничены на две категории: «мои теги» и «авто». В первой категории находятся те песни, которые пользователь распознал самостоятельно, во второй – те, что программа нашла в автоматическом режиме.

Проходя по тегам, пользователь получит возможность ознакомиться с биографией каждого из исполнителей, изучить его дискографию, вышедшие клипы, рецензии на альбомы, а также жанр найденной песни и название звукозаписывающей студии. И, кроме того, раздел дает пользователю возможность узнать о будущих концертах конкретного исполнителя и о других артистах, похожих на него.

Каждым из тегов пользователь может поделиться в социальных сетях, используя для этого либо электронную почту, либо специальную программу-мессенджер.

Меню «Новости» позволяет узнать о выходе обновлений, появлении новых клипов, новостях о популярных артистах или телевизионных шоу. Помимо этого, раздел с «Новостями» дает возможность просмотреть сообщения друзей.

Вкладка «Пульс» открывает пользователю самую популярную, «топовую», музыку в реальном времени. А «Открытие» позволяет отслеживать, где и какая песня была распознана за определенный промежуток времени. Отслеживание же происходит на карте.

Как получить Shazam?

Приложение рассчитано на устройства, работающие на платформе Android, скачать его можно через Play Market. Однако существуют разные версии шазам:

Shazam доступен и пользователям Windows Phone, хотя их значительно меньше. В этом случае программа загружается через фирменный магазин.

А для персональных компьютеров и ноутбуков шазам не предназначен. Установить его можно только после того, как на компьютере будет эмулятор Android для ПК.

Источник

Что значит шазам (shazam) и как им пользоваться?

Что такое Шазам?

Услышав знакомую музыку, довольно сложно сразу вспомнить, что это за композиция и кто ее автор.

Программа Shazam позволяет в течение нескольких секунд по короткому отрывку определить название композиции, автора, а затем представить результаты поиска с возможностью мгновенного прослушивания.

Мобильное приложение, входящее в топ-10 самых скачиваемых прог для телефонов, отсутствует в версии для ПК. Тем не менее, оно давно заслужило любовь пользователей, о чем говорит статистика (1 миллиард загрузок).

В дополнение ко всему, есть сайт, на котором собрана информация о нем, а также личный кабинет.

Что такое шазамОфициальный сайт разработчика

Узнать, что это такое шазам, просто. Следующие действия с легкостью позволят попробовать данный софт для оценки его возможностей:

Такой несложный алгоритм способен освоить каждый. Именно поэтому у программы много поклонников по всему миру.

В интерфейсе невозможно запутаться, разберется даже 3-х летний ребенок. Понятный даже «чайникам» главный экран и большая синяя кнопка «Шазамить» помогут быстро найти нужную композицию или исполнителя.

Что такое шазамИнтерфейс шазама

Преимущества приложения

Данная программа имеет массу преимуществ. Рассмотрим лишь самые основные из них:

Приложение постоянно развивается, предлагая юзерам пополнение каталогов песен, интересные функции и «фишки».

Получив ответ на вопрос shazam, что это такое, и что такое шазамить, можете сделать следующий шаг. Попробуйте, и вам понравится использовать эту программу с новыми интересными функциями!

Источник

Shazam 4.7.9.0

Многие из вас наверняка сталкивались со следующей ситуацией: смотришь ролик на YouTube, и вдруг в ролике зазвучала музыка, которая цепляет с первых секунд. Но в описании к видео названия песни нет. Нет его и в комментариях. Что делать? Как найти понравившийся трек?

На помощь приходят современные технологии. Шазам – это бесплатная программа для распознавания музыки на компьютере. С помощью нее вы легко найдете название любой песни, которая играет на вашем ПК.

Shazam доступен на Windows версии 8 и 10. Программа имеет приятный, современный внешний вид и проста в использовании. Библиотека песен просто огромна – вряд ли найдется песня, которую Шазам не сможет распознать.

Что такое шазам

Единственным небольшим недостатком является то, что для скачивания программы вам придется зарегистрировать бесплатную учетную запись Microsoft.

Найдите название песни по звуку

Запустите приложение. Запустите песню или видео с отрывком из нее. Нажмите кнопку распознавания.

Что такое шазам

Нажмите кнопку, и приложение найдет полюбившуюся вам песню за несколько секунд.

Этих 3 простых действий достаточно чтобы найти название понравившейся вам песни. Программа выдаст не только название песни, но и видеоклипы к этой песне, а также даст рекомендации со схожей музыкой.

Shazam сохраняет историю поиска, поэтому вам не придется повторно искать песню, если вы забудете ее название.

Послушайте рекомендованную вам музыку

Программа показывает популярную на текущий момент музыку. Кроме этого, основываясь на истории вашего поиска, Шазам предложит вам персональные рекомендации.

Что такое шазам

Что такое шазам

Также вы можете поделиться вашей любимой музыкой с пользователями социальной сети Facebook, привязав свой аккаунт к программе.

Достоинства:

1. Современный внешний вид;
2. Высокая точность распознавания музыки;
3. Большая библиотека песен для распознавания;
4. Распространяется бесплатно.

Недостатки:

1. Приложение не поддерживает русский язык;
2. Для того чтобы скачать программу, необходимо зарегистрировать учетную запись Microsoft.

Теперь нет необходимости долго и нудно искать незнакомую песню по словам из нее. С помощью Shazam вы за пару секунд найдете понравившуюся песню из фильма или видео на YouTube.

Важно: Shazam временно недоступен к установке из магазина приложений Microsoft Store.

Источник

Как появился Shazam, как устроена его технология распознавания и что изменилось за 20 лет: раньше люди звонили боту и ждали ответ по смс

Что такое шазам

Shazam (шазам) – сервис, который позволяет любому человеку за секунды распознать музыку. 19 августа шазам отметил 20-летие. Он существует с 2002 года и имеет яркую историю названия. Один из основателей Крис Бартон рассказывал, что оно связано с волшебством: «Мы решили, что смысл слова Shazam подходит для описания магического процесса распознавания музыки».

Как шазам работал 20 лет назад: звонок на 30 секунд и ответ через сообщение

Шазам сразу получил статус сервиса из будущего. Идею первым выдвинул Крис Бартон. В 1999 году Бартон, Мукерджи, Ингелбрехт и Ван начали работу над программой. Трое из них познакомились намного раньше. Бартон и Ингелбрехт вообще сдружились в университете – на одной из вечеринок пообещали друг другу сделать какой-нибудь совместный проект.

В итоге мозговым центром группы стал Бартон. Он учился по обмену в бизнес-школе Лондона и ходил на курс по стратегическим инновациям. Его вел профессор Коста Маркидес. Бартон взял из его лекций идею, что в бизнесе нужно уходить от стандартов. Креативное мышление увеличит шансы на успех даже у самой безумной идеи. Идея шазама выросла именно из этого подхода.

Многие компании разрабатывали сервисы по распознаванию музыки. У них использовался принцип показа названия через радиостанцию – это не решало проблему, все усложняло и работало не так. Тогда Бартон пришел к мысли, что его проект должен выглядеть проще. И связал его с мобильными телефонами: «Это была технология идентификации записанного звука».

Что такое шазам

Шазам не сразу получил привычный вид и стал популярным. Позже Бартон рассказывал, что ему и команде пришлось семь лет ждать первого реального успеха. Все упиралось в две проблемы: тогда не находилось аналогов технологии из задумки Бартона, а мобильные телефоны еще были простейшими. В момент появления шазама даже не существовало рынка цифровой музыки.

Бартон, Мукерджи и Ингелбрехт – обычные идейные парни. Но рядом с ними оказался доктор философии из Стэнфорда Эйвери Ван. Он первым поверил в то, что такая технология распознавания музыки может заработать. Позже Ван стал четвертым соучредителем в компании. И придумал гениальное: песню можно превратить во фрагмент данных – по нему и пойдет распознание.

2002 год – время, когда шазам официально заработал. Но это была все еще очень сложная система. Пользователь слушал мелодию, набирал номер 2580, подносил телефон к источнику звука и ждал 30 секунд. Затем звонок завершался и на телефон приходило сообщение с именем исполнителя и названием песни. Позже в него добавились ссылки на песню в интернете.

Что такое шазам

Автор Forbes Дэвид Фелан вспоминал, что каждый запрос был платным. Но при использовании якобы сложного номера 2580 разработчики заботились о пользователях. На кнопочных телефонах эти цифры соответствовали центральному столбцу. Фелан пишет о том, каким видел шазам в то время: «Это блестящий, эффективный и полностью надежный сервис».

На реддите есть отдельная ветка с обсуждениями шазама, когда он только заработал в 2002 году. Пользователи вспоминают, что все работало по похожему принципу со звонками и обменом сообщениями. Один из них поделился историей: «До появления смартфонов я ничего не знал о шазаме. Записывал тексты понравившихся песен и надеялся, что смогу услышать их где-то еще».

Родри Марсден писал в колонке для The Independent: «Шазам фактически стал вирусным приложением до того, как термины «вирусный» или «приложение» стали общепринятыми». Он объяснял на собственном примере, что после первого же сообщения с названием песни люди рассказывали о шазаме друзьям. И восхищались эффектом волшебства от такой технологии.

Как шазам работает сейчас – почему он так быстро распознает песни

Так выглядит простой принцип работы шазама:

Что такое шазам

Теперь – сложное. Оно особенно проявилось с появлением приложения для айфона в 2008-м.

Эйвери Ван придумал превращение песен во фрагменты данных – в них и есть основная тонкость при определении принципов работы шазама. Позже Ван запатентовал эту технологию. Фрагменты данных в его случае – это своеобразные отпечатки пальцев для аудиозаписей. Они создаются для каждого отдельного трека и заносятся в базу данных. По ней и идет процесс распознания.

Любой отдельный отпечаток формируется с помощью спектрограммы. OverClocer подробно объяснял ее смысл: спектрограмма – трехмерный график. Он включает в себя время (ось Х), частота (ось Y) и громкость (ось Z). Шазам ее усложняет и работает по уникальной системе с несколькими точками: они фиксируют наибольшую амплитуду в конкретный момент трека.

Шазам обрабатывает получаемый звуковой фрагмент и формирует для него такой же звуковой отпечаток. Тут не важны секунды, когда человек начинает воспроизведение песни с включенным приложением. Если есть любой совпадающий отпечаток, система быстро его идентифицирует и выдаст сравнение. Главное, чтобы она смогла отделить звуковой фрагмент от всех шумов вокруг.

Крис Бартон в одном из интервью анализировал составляющие шазама, которые позволили внедрить технологию: «Мы строили наш собственный мини-гугл, наш собственный кластер-поисковик, кластер из компьютеров с параллельной обработкой. Слепляли компьютеры, которые в оперативной памяти содержали все отпечатки пальцев музыки».

Что такое шазам

Кому сейчас принадлежит шазам и сколько он стоил

В декабре 2017-го компания Apple официально подтвердила, что теперь шазамом владеет она. Стоимость сделки – 400 миллионов долларов. Тогда шазам зарабатывал на сторонних ссылках внутри приложения: они вели в том числе и на музыку в Apple. В описании сделки руководство Apple напоминало, что приложение шазам появилось в ее AppStore одним из первых.

The Guardian рассказывал, почему шазам еще раньше привлек инвестиции. Это объяснял сотрудник компании Эндрю Фишер: инвесторы поддерживали именно рекламный потенциал проекта, а не только музыкальные возможности. Но Apple через год после покупки убрала из шазама вообще все рекламу. Такое обещание компания дала в момент закрытия сделки.

Зачем шазам понадобился Apple? За все время там сформировалась база клиентов, предпочтения которых можно анализировать. Вместе с самим шазамом Apple получила и эту базу. Шазам создавал ее еще до появления приложения в 2008 году. Сделка позволила в том числе и Apple Music сделать прорыв в качестве и стать конкурентоспособным музыкальным приложением.

Денежный круговорот вокруг шазама – кто еще туда инвестировал и как это влияло на заработки:

Что такое шазам

Самый популярный исполнитель и главная песня в шазаме

Информация от Apple: песни с участием Дрейка вместе собрали 350 миллионов шазамов. Его самый популярный трек – One Dance (17 миллионов). Дрейк опережает всех остальных именно по общему показателю. В рейтинге отдельных песен лидирует Dance Monkey – ее шазамили более 41 миллиона раз. Она же быстрее остальных достигла 20 миллионов шазамов – за 219 дней.

Вечеринки с участием Дрейка вдохновили Джейми Фокса на работу над шоу Beat Shazam. Его суть: команда сражается с шазамом в скорости распознавания песен. Фокс рассказывал о принципах соревнования на денежный приз: «Мы видим время, которое шазам потратил на распознавание песни. Например, 4,8 секунды. Это означает, что у вас есть 4,8 секунды или меньше, чтобы угадать ее самому».

Какие песни люди часто ищут через шазам – рейтинг от Apple в честь 20-летия сервиса

Apple раскрывает статистику: 225 миллионов уникальных пользователей ежемесячно открывают шазам. И рассказывает историю про песню Кейт Буш. Трек Running Up That Hill вышел в 1985 году, но позже был показан в сериале «Очень странные дела». Люди так часто его шазамили, что трек держался в Shazam Global Top 200 десять дней. И стал лидером в отдельных чартах 25 стран.

К 20-летнию шазама Apple сделала подборку из 20 песен разных лет, которые были популярными за два десятилетия существования сервиса. Там рядом стоят Адель, Эд Ширан, Gnarls Barkley и Clean Bandit. Интересно, что Эд Ширан быстрее всех исполнителей в истории дошел до цифры в 10 миллионов шазамов. С его песней Shape of You (2017) это произошло всего за 87 дней.

Где скачать шазам после ухода Apple из России

В Google Play доступна загрузка шазама. Там указано, что шазам скачивали в Google Play более 500 миллионов раз. Еще есть около 7 миллионов отзывов. Общее количество загрузок шазама превысило миллиард – эта информация указана на странице приложения в App Store. Скачать шазам можно с официального сайта: нужно отсканировать QR-код и начнется загрузка.

Что такое шазам

Существуют сторонние сайты, где можно скачать установочные файлы шазама. Но лучше пользоваться официальными возможностями – они по-прежнему подходят пользователям из России. Приложение на телефоне работает без ограничений. В библиотеке шазама есть дополнительные функции: индивидуальные плейлисты и подборки по отдельным исполнителям.

Как приложение шазам пересекается с фильмом, у которого такое же название

В 2019-м вышел фильм «Шазам» по мотивам DC Comics. Там это волшебник-супергерой. Ранее во вселенной DC его звали Капитан Марвел. Работа над фильмом велась с начала 2000-х, но с приложением он никак не связан. Приложение смеялось и просило включить в него шазамные моменты. Аккаунт шазама в соцсетях в шутку показывал запрос кадров из фильма.

Каждая буква в английском имени героя Shazam что-то символизирует: мудрость, силу, выносливость, молнии Зевса, мужество, скорость. Капитан Марвел появился в комиксах еще в 1939-м – позже за права на это имя спорили в суде DC и Marvel (там – девушка). Сейчас DC продвигает героя именно под именем Шазам. В конце 2022 года выйдет фильм «Шазам! 2».

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *