Измеряя эволюцию современной западной популярной музыки

Чтобы определить структурные паттерны музыкального дискурса, нам прежде всего необходимо создать «словарь» музыкальных элементов ( рисунок 1 ). Для этого мы кодируем описания наборов данных путем дискретизации их значений, получая то, что мы называем музыкальными кодовыми словами. 20 (увидеть Дополнительная информация, СИ ). В случае основного тона, описания каждой песни дополнительно переносятся в эквивалентную основную тональность, так что все они автоматически рассматриваются в одном и том же тональном контексте или тональности. Далее, для количественной оценки долгосрочных вариаций словаря, нам нужно получить образцы этого в разные периоды времени. Для этого мы выполняем выборку по методу Монте-Карло в режиме движущегося окна. В частности, для каждого года мы выбираем один миллион последовательных битовых кодовых слов, рассматривая целые треки и используя длину окна 5 лет (окно центрируется по соответствующему году, так что, например, в 1994 году мы выбираем один миллион последовательных ударов выбрав полные треки, чьи аннотации года находятся между 1992 и 1996 годами, оба включены). Эта процедура, которая повторяется 10 раз, гарантирует репрезентативную выборку с плавным развитием в течение многих лет. Рисунок 1: Сводная схема метода с данными шага. Чтобы определить структурные паттерны музыкального дискурса, нам прежде всего необходимо создать «словарь» музыкальных элементов ( рисунок 1 )

Набор данных содержит описания музыкальных произведений музыкальной пьесы или партитуры на основе ударов (G, Em и D7 в верхней части посоха обозначают аккорды). Для тона эти описания отражают гармоническое содержание пьесы. 15 и инкапсулировать все звучащие ноты данного временного интервала в компактное представление 11 , 12 независимо от их артикуляции (они состоят из 12 относительных энергий класса основного тона, где класс основного тона - это набор всех высот, которые разделены целым числом октав, например, ноты C1, C2 и C3 все свернуты до класса C основного тона) , Все описания кодируются в музыкальные кодовые слова, используя двоичную дискретизацию в случае основного тона. Кодовые слова затем используются для выполнения подсчета частоты, а также в качестве узлов сложной сети, чьи ссылки отражают переходы между последующими кодовыми словами.

Сначала мы посчитаем частоту использования кодовых слов основного тона (т. Е. Сколько раз каждый тип кодового слова появляется в выборке). Мы видим, что наиболее используемые кодовые слова основного тона обычно соответствуют хорошо известным элементам гармоник. 21 в то время как неиспользуемые кодовые слова соответствуют комбинациям странного / диссонирующего основного тона ( Рис. 2а ). Сортировка значений частоты в порядке убывания обеспечивает очень четкую структуру данных: степенной закон 17 в форме z ∝ r - α , где z соответствует подсчету частоты кодового слова, r обозначает его ранг (т. е. r = 1 для наиболее часто используемого кодового слова и т. д.), а α - показатель степенного закона. В частности, мы находим, что распределение частот кодовых слов для данного года хорошо соответствует P ( z ) ∝ ( c + z ) - β для z > z min, где мы принимаем z в качестве случайной величины 22 , β = 1 + 1 / α в качестве показателя степени и c как константа ( Рис. 2б ). Степенной закон указывает на то, что несколько кодовых слов очень часты, а большинство крайне редки (интуитивно последние обеспечивают небольшие музыкальные нюансы, необходимые для того, чтобы дискурс был привлекательным для слушателей. 3 , 4 , 5 ). Тем не менее, в нем также говорится, что нет ни характерной частоты, ни ранга, отделяющего наиболее используемые кодовые слова от в основном неиспользуемых (за исключением самых больших значений ранга из-за ограниченности словарного запаса). Другое нетривиальное следствие степенного поведения состоит в том, что когда α ≤ 2, экстремальные события (то есть очень редкие кодовые слова) непременно проявятся в непрерывном дискурсе, при условии, что времени прослушивания достаточно и заранее составленный словарь музыкальных элементов большой довольно.

Рисунок 2: Pitch распределения и сети.

Важно отметить, что мы считаем, что это степенное поведение является инвариантным в течение многих лет при практически одинаковых параметрах соответствия. В частности, показатель степени β остается близким к среднему значению 2,18 ± 0,06 (что соответствует α около 0,85), что аналогично закону Ципфа в лингвистических текстовых корпусах. 23 и контрастирует с показателями, найденными в предыдущих небольших, символических исследованиях музыки 24 , 25 , Наклон линейной регрессии наименьших квадратов β как функции года незначителен в пределах статистической значимости ( p > 0,05, t-критерий). Это делает очевидной высокую стабильность распределения частот кодового слова основного тона в течение более 50 лет музыки. Однако вполне может быть, что, хотя распределение было одинаковым для всех лет, ранжирование кодовых слов менялось (например, определенное кодовое слово часто использовалось в 1963 году, но к 2005 году стало неиспользованным). Чтобы оценить эту возможность, мы рассчитываем коэффициенты ранговой корреляции Спирмена 26 для всех возможных пар года и найдите, что они все чрезвычайно высоки, в среднем 0,97 ± 0,02 и минимум выше 0,91. Эти высокие корреляции показывают, что ранжирование кодовых слов практически не меняется с годами.

Распределения частот кодового слова обеспечивают общую картину использования словаря. Тем не менее, они не учитывают синтаксис дискурса, так как простой выбор слов не обязательно составляет понятное предложение. Один из способов объяснения синтаксиса состоит в том, чтобы посмотреть на локальные взаимодействия или переходы между кодовыми словами, которые определяют явные отношения, которые фиксируют большинство основных закономерностей дискурса и которые могут быть непосредственно отображены в сети или графе. 18 , 19 , Следовательно, аналогично анализу на основе языка 27 , 28 , 29 мы рассматриваем сети переходов, образованные последовательностями кодовых слов, где каждый узел представляет кодовое слово, а каждая ссылка представляет переход (см. SI ). Топология этих сетей и извлеченные из них общие метрики могут дать нам ценные подсказки об эволюции музыкального дискурса.

Все переходные сети, которые мы получаем, являются разреженными, что означает, что количество ссылок, соединяющих кодовые слова, имеет тот же порядок величины, что и количество кодовых слов. Таким образом, в общем случае возможно только ограниченное количество переходов между кодовыми словами. Такие ограничения позволят распознавать музыку и наслаждаться ею, поскольку эти возможности основаны на нашей способности угадывать / изучать переходы 3 , 4 , 8 и не разреженная сеть увеличит количество возможностей таким образом, что угадывание / изучение станет невозможным. Размышляя с точки зрения оригинальности и креативности, разреженная сеть означает, что еще предстоит найти много «композиционных путей». Тем не менее, некоторые из этих путей могут столкнуться с вышеупомянутым компромиссом гадания / обучения 9 , В целом, разряженность сети дает количественную оценку хрупкого баланса музыки между предсказуемостью и неожиданностью.

В разреженных сетях наиболее фундаментальной характеристикой кодового слова является его степень k , которая измеряет количество ссылок на другие кодовые слова. В сетях основного тона эта величина распределяется по степенному закону P ( k ) − k − γ для k > k min с одинаковыми параметрами подбора для всех рассматриваемых лет. Показатель γ , который в среднем равен 2,20 ± 0,06, аналогичен многим другим реальным сложным сетям. 18 и медиана степени k всегда равна 4. Тем не менее, мы наблюдаем важные тенденции в других рассматриваемых метриках сети, а именно: средняя длина кратчайшего пути l , коэффициент кластеризации C и ассортативность относительно случайной Γ. В частности, l немного увеличивается с 2,9 до 3,2, значения сопоставимы с полученными при рандомизации сетевых ссылок. Значения C показывают значительное снижение с 0,65 до 0,45 и намного выше, чем полученные для рандомизированной сети. Таким образом, малость 30 сетей уменьшается с годами ( Рис. 2с ). Эта тенденция подразумевает, что достижимость кодового слова основного тона становится более сложной. Количество прыжков или шагов для перехода от одного кодового слова к другому (как показано l ) имеет тенденцию к увеличению, и в то же время локальная связность сети (как отражено C ) имеет тенденцию к снижению. Кроме того, Γ всегда ниже 1, что указывает на то, что сети всегда менее ассортативны, чем случайные (то есть узлы с хорошей связью с меньшей вероятностью будут связаны между собой), тенденция, которая со временем возрастает, если мы рассмотрим самые большие концентраторы сети ( SI ). Последнее предполагает, что существует меньше прямых переходов между «ссылочными» или общими кодовыми словами. В целом, совместное уменьшение малости и сетевой ассортиментности демонстрирует прогрессивное ограничение переходов основного тона с меньшим количеством вариантов перехода и более определенными путями между кодовыми словами.

В отличие от тона, тембр дает другую картину. Хотя распределение частот кодового слова тембра также хорошо согласуется со степенным законом ( Рис. 3а ), параметры этого распределения варьируются по годам. В частности, с 1965 г. β постоянно уменьшается до значений, приближающихся к 4 ( Рис. 3б ). Хотя такие большие значения β означают, что другие соответствия также могут быть приемлемыми, степенной закон обеспечивает простую параметризацию для сравнения изменений за годы (и не отклоняется в тесте отношения правдоподобия перед другими альтернативами). Меньшие значения β указывают на меньшее тембральное разнообразие: частые кодовые слова становятся более частыми, а нечастые - еще реже. Это свидетельствует о растущей гомогенизации глобальной тембральной палитры. Это также указывает на прогрессивную тенденцию следовать более модным, господствующим звучаниям. Интересно, что ранговые коэффициенты корреляции обычно ниже 0,7, в среднем 0,57 ± 0,15 ( Рис. 3с ). Эти довольно низкие ранговые корреляции могли бы ослабить ощущение того, что современная популярная музыка становится более гомогенной, говоря по-тимбрийски. Тот факт, что частые тембры определенного периода времени становятся редкими через несколько лет, может маскировать глобальные тенденции однородности для слушателей.

Рисунок 3: Тембровые распределения.

(а) Примеры значений плотности и подгонки, принимающих z в качестве случайной величины. (б) подогнанные показатели β . (в) ранговые коэффициенты корреляции Спирмена для всех возможных пар года.

По сравнению с частотами кодового слова тембра показатели, полученные из сетей с переходом тембра, не показывают существенных изменений. Снова, аналогичные медианные степени (все равные 8) и распределения степеней наблюдались для всех рассматриваемых лет. Тем не менее, мы не смогли добиться надлежащего соответствия для последнего ( SI ). Значения Γ больше 1 и увеличиваются с 1965 года. Таким образом, в отличие от основного тона, тембровые сети являются скорее ассортативными, чем случайными. Значения l колеблются около 4.8, а C всегда ниже 0,01. Примечательно, что оба близки к значениям, полученным в случайно-проводных сетях. Эта близкая к случайной топологии количественно демонстрирует, что, в отличие от языка, тембральные контрасты (или переходы) редко являются основой музыкального дискурса. 1 , Это не рассматривает тембр как бессмысленную грань. Глобальные свойства тембра, такие как вышеупомянутый степенной закон и рейтинги, явно важны для задач категоризации музыки 2 , 11 (один пример - жанровая классификация 31 ). Однако обратите внимание, что развивающиеся характеристики музыкального дискурса имеют важные последствия для искусственных или человеческих систем, имеющих дело с такими задачами. Например, гомогенизация тембральной палитры и общие тембральные ограничения явно бросают вызов задачам, использующим этот аспект. Еще один пример можно найти с вышеупомянутым ограничением возможности соединения кодового слова основного тона, что может помешать системам распознавания песни (системы искусственного распознавания песни основаны на последовательностях, подобных кодовому слову основного тона, ср. 32 ).

Распределения громкости, как правило, хорошо сочетаются с помощью функции обратного логарифмирования ( Рис. 4а ). Построение графика дает визуальный отчет о так называемой гонке громкости (или войне громкости), терминологии, которая используется для описания очевидной конкуренции за выпуск записей с возрастающей громкостью. 33 , 34 возможно, с целью привлечь внимание потенциальных клиентов в музыкальной трансляции (с нашей точки зрения, изменения громкости являются не только результатом технологических разработок, но, в частности, также результатом сознательных решений, принимаемых музыкантами и продюсерами в музыкальный процесс создания, ср. 33 ). Эмпирическая медиана значений громкости x возрастает с −22 дБФС до −13 дБФС ( Рис. 4б ), с линейной регрессией по методу наименьших квадратов, дающей наклон 0,13 дБ / год ( p <0,01, t-критерий). Напротив, абсолютная разница между первым и третьим квартилями x остается постоянной около 9,5 дБ ( Рис. 4с ), с наклоном регрессии, который не является статистически значимым ( p > 0,05, t-критерий). Это показывает, что, хотя музыкальные записи становятся громче, их абсолютная динамическая изменчивость сохраняется, понимая динамическую изменчивость как диапазон между переходами с высокой и низкой громкостью записи 34 , Однако, и, возможно, самое главное, следует заметить, что цифровые носители не могут выводить сигналы со скоростью более 0 дБFS 35 , что сильно ограничивает возможности для поддержания динамической изменчивости, если медиана продолжает расти.

Рисунок 4: Распределение громкости.

(а) Примеры значений плотности и подгонки переменной громкости x . (б) Эмпирическое распределение медианы. (c) Динамическая изменчивость, выраженная как абсолютные различия громкости между первым и третьим квартилями x , | Q 1 - Q 3 |.

Наконец, мы смотрим на сети с переходом громкости, которые показывают сравнимые распределения степеней, медианную степень между 13 и 14, значения l между 8 и 10 и Γ, колеблющиеся около 1,08. Заметно, что l заметно выходит за пределы значений, полученных случайными сетями. Значения C имеют в среднем 0,59 ± 0,02, что также значительно выше значений, полученных случайными сетями. Эти два наблюдения указывают на то, что сеть имеет одномерный характер, из чего следует, что не происходит никаких экстремальных переходов громкости (редко можно найти переходы громкости, чтобы вести музыкальный дискурс). Очень стабильные показатели, полученные для сетей громкости, подразумевают, что, несмотря на стремление к более громкой музыке, топология переходов громкости сохраняется.