A Survey on Popular Digital Audio Prediction Techniques
ZHANG Yining,1,2, HE Hongbo,1,*, WANG Runqiang,1通讯作者: *何洪波(E-mail:hhb@cnic.cn)
收稿日期:2021-01-21
基金资助: |
Received:2021-01-21
作者简介 About authors
张怡宁,中国科学院计算机网络信息中心,在读硕士研究生,主要研究方向为科学传播技术及应用、web数据挖掘及应用。
本文中承担的任务是文献调研、文献分析与归纳总结等。
ZHANG Yining, she is a graduate student in Computer Network Information Center of Chinese Acade-my of Sciences. Her main research fields include science com-munication technology and application, network data mining and application.
In this paper, she is responsible for literature research, literature analysis and summary.
E-mail:
何洪波,中国科学院计算机网络信息中心,高级工程师,硕士生导师,主要研究方向为网络科普相关技术的研究与应用、web数据挖掘和信息推荐。
本文中负责思路解析和把握文章逻辑与框架。
HE Hongbo is a senior engineer and master tutor of Computer Network Information Center of Chinese Academy of Sciences. His main research fields include research and application of internet-based popular science related technologies, web data mining and information recommendation.
In this paper, he is responsible for analyzing ideas and grasping the logic and framework of the article.
E-mail:
王闰强,中国科学院计算机网络信息中心,正高级工程师,新媒体技术与应用发展部常务主任,主要从事新媒体科学传播与教育技术、应用和服务研究和实践。
本文中负责把握文章总体方向与框架。
WANG Runqiang is a senior engineer and executive director of New Media Technology and Appli-cation Development Department of Computer Network Infor-mation Center of Chinese Academy of Sciences. He is mainly engaged in the research and practice of new media science communication and educational technology, application and service.
In this paper, he is responsible for grasping the overall direction and framework of the article.
E-mail:
摘要
【目的】近些年网络数字音频受众愈发广泛,研究热门数字音频预测技术对于数字音频领域的发展具有重要意义。【文献范围】我们采用关键词检索和引文二次检索的方法收集了该领域相关的论文。【方法】本文通过广泛的文献查阅,总结了在该研究领域中****们对热门指标的定义,归纳了预测热门音频常用的四大类内部特征,综述和分析了常用的预测模型,并展望了热门数字音频预测技术未来的发展趋势和研究方向。【结果】通过选取恰当的特征表示,可以成功地预测热门音乐与热门播客,其中热门音乐预测领域的研究成果更为丰富可观。【局限】国内学术界对热门音频预测领域开展的研究较少,因而所能检索到的中文文献也较为匮乏。【结论】热门数字音频预测领域仍然存在着广阔的发展空间,尤其是我国热门播客预测领域仍存在着很大的研究空白。
关键词:
Abstract
[Objective] In recent years, the number of online digital audio audiences have increased greatly. It is of great significance to study the popular digital audio prediction techniques for the development of digital audio systems. [Coverage] Relevant papers in this field are collected by using keyword search and citation retrieval. [Methods] Through extensive literature review, we have summarized the definitions of popular indicators by scholars in this research field, categorized the four main types of internal features commonly used for predicting popular audio, reviewed and analyzed commonly used prediction models. We also forecast the future development trends and research directions of this field. [Results] By selecting appropriate feature representations, popular music and popular podcasts can be successfully predicted, in which the research on popular music prediction are more versatile and impressive. [Limitations] There is little domestic research in the field of popular audio prediction, so the number of retrieved Chinese literature is very small. [Conclusions] There is still huge growth potential in popular digital audio prediction, especially for podcast prediction, which is still an underdeveloped realm in China.
Keywords:
PDF (9208KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
张怡宁, 何洪波, 王闰强. 热门数字音频预测技术综述[J]. 数据与计算发展前沿, 2021, 3(4): 81-92 doi:10.11871/jfdc.issn.2096-742X.2021.04.007
ZHANG Yining, HE Hongbo, WANG Runqiang.
引言
数字媒体技术和互联网的高速发展给传统媒体带来技术上的变革,也对其形态、传播方式、传播理念等都产生了重要的影响。基于互联网的数字音频内容,如在线音乐、移动电台播客、有声书等,受众愈发广泛。根据艾媒咨询数据[1]显示,2019年,全国在线音频市场用户规模已达4.9亿人,2020年,中国在线音频用户规模约达5.42亿人。而在世界范围内,据德勤的调研报告[2]统计全球播客(podcast)市场在2020年增长30%,规模达到了11亿美元。种种迹象表明,基于互联网的数字音频传媒形式正在经历高速发展,并将凭借自身实力成长为一大重要市场。李明扬[3]定义数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术,它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。数字音频的主要应用领域是音乐后期制作和录音。热门数字音频预测技术是指通过选择和提取具有较强表示性的音频特征,探索音频热门程度或流行程度与这些特征之间的关系,并训练相应模型来预测新发布的音频是否会成为热门音频(hits)。研究热门数字音频预测技术,将一步促进全球在线数字音频行业的蓬勃发展——对于市场规模已然庞大的音乐行业和发展潜力更为巨大的移动电台播客领域都将带来深远的影响。
近些年,全球已有不少****对热门音频预测技术进行了探索,并在热门音乐预测、热门播客预测领域取得了可观的成果。本文将从热门指标定义、音频特征选取、预测模型算法三方面综述学术界在热门数字音频预测领域的相关研究成果,并对热门数字音频预测技术未来的发展趋势和研究方向进行展望。
1 热门指标定义
热门数字音频预测问题在大多数情况下都会被看作一个二分类问题,即通过音频特征预测音频属于热门/非热门音频。而对于“热门”与否,****们大多通过音频排名、播放量或下载量等客观数据划定阈值进行指标的衡量。在对于热门音乐预测的研究中,大部分****根据音乐排行榜上的音乐排名对热门音乐和非热门音乐进行区分,但在热门指标衡量的严格程度上又可能有所不同。在一些文献[4,5,6]中,作者定义热门音乐为登上过美国公告牌(Billboard)年度歌曲排行榜前100名的音乐,非热门音乐为从未进入排行榜前100名的音乐。在另一些****的研究中[7,8,9,10,11]中,进入相应歌曲排行榜前5、前10或前20名的音乐被看作热门音乐。而Dhanaraj等人[12]只将排行榜排名第一的音乐看作热门音乐。也有****认为由于时间变量的影响,单纯的排行榜数据无法客观反映一首歌的热门程度,因此Lee等人[13]基于音乐排行榜的排名自主定义了一首歌曲的多个流行度指标,以量化一首音乐的综合热度。
部分****通过音乐播放量(play counts)对热门音乐进行定义 [14,15,16],通过设定较高的播放量阈值对热门音乐进行划分。还有少部分****直接使用第三方API(Application Programming Interface,应用程序编程接口)定义的热度指标对热门音乐作出区分,如Pham等人[17]使用the Echo Nest(原音乐网站应用数据平台,现已被Spotify收购并更名为Spotify Web API[18])定义的“hotttnesss”指标作为预测的热门指标。
在热门播客预测领域,研究成果尚不如热门音乐预测领域丰富,基本上所有****都是通过播客在相关平台上的排名数据对热门播客与非热门播客进行区分[19,20,21]。
2 特征选取
音频特征选择与提取是热门数字音频预测研究中的重要环节,选取与热门程度相关性更强的特征往往会取得更好的预测效果。热门数字音频预测的特征可以分为两个主要类别:内部特征和外部特征[15,22]。内部特征指音频及其本身相关内容的特征,外部特征通常包括与音频有关的社交媒体事件、听众心理或社会影响等内容。由于外部特征更多的涉及社会科学方向,因此热门数字音频预测技术领域的研究通常都选取可以量化表示的内部特征进行建模。只有Bischoff等人[23]仅依靠外部特征,通过从音乐社交网络挖掘的数据以及歌曲、艺术家和专辑之间的关系,使用机器学习的方法预测了歌曲成为热门歌曲的潜力。本文主要对****们在该预测领域所选取的内部特征进行总结和分析,主要可归纳为以下四个类别。表1总结了常用的四种特征示例及其解释。Table1
表1
表1常见的四种特征示例及其解释
Table1
特征类型 | 特征名称 | 特征英文名 | 特征解释 |
---|---|---|---|
音频浅层特征 | 节拍 | Tempo | 以每分钟节拍数量表示的平均节奏。 |
音频深层特征 | 可舞蹈性 | Danceability | 描述一个音乐是否适合跳舞。数字范围从0到1,由the Echo Nest计算,基于节拍强度、节奏稳定性、整体节奏等计算。 |
文本特征 | 词汇线索 | Lexical Cues | 歌词或播客文本中某关键词出现的频率。 |
元数据特征 | 作者名称 | Author | 音频作者名称的字符串。 |
新窗口打开|下载CSV
在大多数热门数字音频预测的实验研究中,****们更多的选取音频浅层特征和音频深层特征作为输入变量建立预测模型。单独选取文本特征进行预测也会取得可观的预测效果[4]。值得注意的是,在他们的实验中,选取多种特征类型共同预测的效果往往最好,如Yang等人[15]使用音频浅层特征和元数据标签特征的深度学习融合模型在所有实验中取得了最好的预测效果,远远超过使用单一类型特征的预测结果。
2.1 音频浅层特征
音频浅层特征是指基于音频信号本身的易于提取的特征,主要包括基于频谱图的MFCC(Mel Frequency Cepstral Coefficient,梅尔频率倒谱系数)[12,15-16,24],通过the Echo Nest或Spotify Web API获取的简单音乐特征如节奏、拍子记号、调式、音调等 [5-11,14,17,25],基本音频属性如音频片段的时长、响度等[6,14,25]。2.2 音频深层特征
与音频浅层特征相对应的是音频深层特征,手工特征(hand-craft features)也属于深层特征。音频深层特征由音频浅层特征经过更为复杂的计算或人工标注而来,Porter等人[26]认为音频深层特征可以捕捉更为抽象的概念,如情绪类别等。The Echo Nest或Spotify Web API获取的深层音频特征包括音乐的可舞蹈性(Danceability)、能量(Energy)、口语性(Speechness)、现场性(Liveness)等。在一些研究中,****们还经常使用自定义的深层特征进行热门数字音频的预测。如Lee等人[24]利用音乐和声、节奏、音色以及响度等特征随时间的变化情况计算得出的音乐复杂度(Complexity)特征,Yang等人[20]通过对播客的音频特征利用基于逆向学习的建模方法提出的播客表示方法ALPR(Adversarial Learning-based Podcast Representation,基于对抗学习的播客表示),以及Tsagkias等人[27]提出的播客分析框架PodCred中的大部分特征也属于音频的深层特征。
2.3 文本特征
数字音频的文本特征主要包括音乐的歌词以及播客的口播文本内容。Dhanaraj和Logan [12]利用潜在语义分析的方法将每首歌的歌词转换为特征向量,Singhi等[4]使用Rhyme Analyser[28]和CMU Pronunciation Dictionary[29]提取歌词的韵律和音节特征,对热门歌曲进行预测。Joshi等[21]基于词法分析采用了一种三元组训练方法,学习了基于文本的播客特征表示,并将其应用于热门播客的预测任务。2.4 元数据特征
元数据特征(meta information)是关于数据的结构化数据,描述数字音频的元数据也被作为热门音频预测的特征选择。Pham等[17]使用词袋的方法对歌曲名称、艺术家id和艺术家经常关联的术语(类型)等元数据特征进行表示,并取得了比深浅层音频特征更好的热门音乐预测效果。Yang和Yu等人[15,16]利用JYnet模型[30]生成的音乐标签,作为卷积神经网络进行热门音乐预测的特征输入之一,提高了预测准确率。Tsagkias等[19]使用PodCred框架[27]中基于播客元数据的相关特征完成了对iTunes上的热门播客的排名预测。Zangerle等[6]使用音频的发布时间元数据作为热门音频预测的特征输入之一并取得了良好的预测效果。3 预测模型算法
3.1 预测算法性能评价指标
大多数情况下的热门数字音频预测问题是一个二分类问题,因此样本有正负两个类别,即热门/非热门音频。那么模型预测的结果和真实标签的组合就有4种:TP(True Positive),FP(False Positive),FN(False Negative),TN(True Negative),如表二所示。这4个分别表示:实际为热门音频预测结果为热门音频,实际为非热门音频预测为热门音频,实际为热门音频预测为非热门音频,实际为非热门音频预测为非热门音频。Table2
表2
表2热门音频二分类预测模型结果组合
Table2
音频属性 | 预测为热门音频 | 预测为非热门 音频 |
---|---|---|
实际为热门音频 | TP | FN |
实际为非热门音频 | FP | TN |
新窗口打开|下载CSV
在使用模型对热门数字音频进行二分类预测时,传统的模型评价指标包括:(1)准确率(Accuracy)、(2)精确率(Precision)、(3)召回率(Recall)、(4)F1值(F1 Score)。由于许多机器学习的模型对分类问题的预测结果都是概率,而以上四种评价指标的结果依赖于模型中的阈值设定的合理性,所以也有部分****采用AUC指标(Area Under Curve,曲线下面积)衡量模型效果。同时,在测试集中的正负样本的分布变化的时候,曲线能够保持不变。由于在实际的数据集中经常会出现类不平衡(class imbalance)现象,即可用来实验的热门音频的数量总是远远少于非热门音频,使用AUC指标能够很好的描述模型整体性能的高低。各个评价指标的解释以及意义如表3所示。
Table3
表3
表3热门音频预测模型常用评价指标
Table3
指标名称 | 英文名 | 计算公式 | 意义 |
---|---|---|---|
准确率 | Accuracy | $\frac{TP+TN}{TP+TN+FP+FN}$ | 所有预测类别正确的样本比例,反映预测模型的综合预测效果。 |
精确率 | Precision | $\frac{TP}{TP+FP}$ | 在所有实际的热门音频中,有多少比例的热门音频被成功预测出。 |
召回率 | Recall | $\frac{TP}{TP+FN}$ | 在所有预测为热门的音频中,有多少比例的音频为实际热门音频。 |
F1值 | F1 Score | $\frac{2*recall*precision}{recall+precision}$ | 一个综合了精确率和召回率的评价指标。 |
AUC | Area Under Curve | P(P热门音频>P非热门音频) | 随机抽出一对样本(一个实际热门音频,一个实际非热门音频),然后用训练得到的分类器来对这两个样本进行预测,预测得到热门的概率大于非热门的概率的概率。 |
新窗口打开|下载CSV
除了将热门数字音频预测看作一个二分类问题外,还有研究者对热门音频在排行榜上的排名进行预测,衡量其模型性能的评价指标包括描述预测值误差的均方根误差RMSE(Root Mean Square Error)和平均绝对误差MAE(Mean Absolute Error)[6],以及描述真实排名与预测排名相关性的归一化折损累计增益NDCG(Normalized Discounted Cumulative Gain),Kendall相关系数以及Spearman相关系数等[20,31]。
3.2 基于机器学习的预测算法
机器学习是一个快速发展的领域,它能解决许多传统方法所无法有效解决的复杂问题[32]。基于不同机器学习方法的预测算法被应用于热门数字音频预测领域的研究,其中支持向量机法与逻辑回归法因其较好的预测效果应用最为广泛。3.2.1 支持向量机
使用支持向量机对热门音频进行预测,虽然不是在该研究领域被被最广泛应用的机器学习方法,但是被****最早应用到该领域的算法。支持向量机的原理是试图从最近的数据点找到一个边界尽可能大的分离超平面,实现简单,因而会最早被****用来做热门音乐领域的探索。
早在2005年,Dhanaraj和Logan[12]首次使用基于声学和歌词的特征来构建支持向量机,并使用增强分类器来区分不同风格的歌曲中排名前1的歌曲。尽管只有91首歌曲的原声和歌词数据,他们的结果很乐观,并认为热门音乐可以预测。在2011年,Borg和Hokkanen[14]使用the Echo Nest的音频数据特征构建了支持向量机模型预测热门音乐,但获得的结果却非常有限:无论选取任何特征以及设定任何参数,他们的预测精确率都从未超过样本偏差1%。因此他们认为,一首歌曲是否能成为热门歌曲很可能是由社会力量驱动的。2013年,Fan和Casey[8]对英文热门歌曲和中文热门歌曲进行了预测和比较研究。英文的歌曲数据是从英国专辑排行榜收集的,中文歌曲数据从中国歌曲排行榜收集而来。同样从the Echo Nest获得音乐音频特征,他们使用了时间加权的线性回归和支持向量机算法进行热门音乐预测。当将热门歌曲定义为出现在前40位排行榜前5名中的歌曲、将非热门歌曲定义为同一列表中的最后5首时,使用支持向量机方法预测中文歌曲的错误率约为29%,而英文歌曲的预测错误率约为44%,其预测效果好于线性回归模型。其研究结果还表明,中文流行歌曲预测比英文流行歌曲预测结果更准确。斯坦福大学Pham[17]等人于2016年进行的另一项最新研究评估了不同的机器学习算法预测热门音乐的能力。他们使用了支持向量机、逻辑回归、线性判别分析、二次判别分析和多层感知器等方法,其所选取的特征包括音频深浅层特征以及元数据特征。在他们的研究中,所有模型获得了大致相似的预测准确率,取值范围为0.75至0.80,其中支持向量机模型的综合预测效果最佳。2018年,Lee等人[24]使用描述音乐复杂性的音频深层特征以及其他传统声学浅层特征建立了支持向量机、逻辑回归、决策树和神经网络模型对热门音乐进行预测。其结果表明,虽然仍有改进的空间,但基于歌曲的音频信号预测歌曲的热门指标是可行的,预测结果明显优于随机概率,特别是同时使用歌曲的复杂性特征和MFCC特征,其中预测准确率最高的也是支持向量机模型。
使用支持向量机对热门歌曲进行预测有如下优势:首先,它们不需要任何复杂的参数调优。其次,在一个小的训练语料库中,他们表现出很强的概括能力。最后,它们特别适用于高维空间的学习。但当训练样本过大时,则不能使用支持向量机对热门音乐进行预测,因为它使用二次规划法来求解支持向量,而求解二次规划将涉及N阶矩阵的计算(N为样本的个数),当N数目很大时,该矩阵的存储和计算将耗费大量的机器内存和运算时间。由于其模型的预测效果极度依赖小型训练数据的质量,因此使用支持向量机预测热门歌曲的效果也会随着特征选取的成功与否表现出不同的预测成功率。
3.2.2 逻辑回归
逻辑回归是一种数学模型,可用于描述一个或多个自变量和一个因变量之间的关系[33]。因此,该模型可用于像热门音频预测这样的二分类问题。当将训练好的逻辑回归模型应用到测试数据的特征时,会输出是否为热门音频的置信概率,这个概率是0到1之间的一个数字。逻辑回归通常使用0.5作为分类阈值。对于热门音频预测,逻辑回归法是可以优化精度的理想方法,因为可以通过提高热门音频的分类阈值,从而在热门音频的定义上形成一个“更严格的”标准。并可以通过加入正则化系数λ,迭代减小过拟合。
2014年,Herremans等人[9]对热门舞曲的预测进行了研究。他们创建了从2009年到2013年的热门舞曲数据集,并在其中使用了决策树、朴素贝叶斯、逻辑回归和支持向量机等机器学习算法进行预测模型的训练。他们的研究结果表明,通过分析音频特征来预测舞曲的流行程度是可行的,其中预测效果最好的算法是逻辑回归,AUC为0.65,准确率为83%。同年, Wang[10]从MIDI音乐文件中提取乐器、旋律和节拍特征对热门音乐进行预测,并取得了令人惊讶的好结果。他们使用n元语言模型将原始音频浅层特征转换为词-文档频率矩阵(word-document frequency matrices),将逻辑回归作为分类器,并使用概率系数来优化精度。 同时使用乐器、旋律和节拍等特征进行预测,其预测准确率峰值为0.882,对应召回率为0.279。Herremans和Bergmans[11]在实验中既使用音频特征和元数据特征,又使用了一种基于社交媒体倾听行为的新特征,建立了逻辑回归和支持向量机等机器学习模型对热门音乐进行预测。其结果表明,基于早期听众行为分析特征的逻辑回归模型在预测排名前20的热门舞曲时表现最好,能够达到0.79的AUC值。2019年,Yang等人[20]对播客的非文本特征进行建模,提出了一种基于逆向学习的播客表示方法ALPR。其评价结果表明,同样使用逻辑回归的预测方法,相比于仅基于文本特征或先前研究中的音频特征表示,ALPR特征带来了显著的性能提升。同年,Georgieva等人[5]将美国热门歌曲排行榜Billboard年度排名前100名的歌曲看作热门歌曲,并整理了大约4000首热门和非热门歌曲的数据集,从Spotify Web API中提取了每首歌曲的音频深浅层特征对热门歌曲进行预测。通过五种机器学习算法,他们在验证集上以大约75%的准确率预测了一首歌曲是否可以成为热门歌曲。其中最成功的算法是逻辑回归模型和带有一个隐含层的神经网络方法。
逻辑回归是一种被人们广泛使用的算法,使用逻辑回归对热门音频进行预测的优势除了上文提到的分类标准的严格程度可通过设置不同阈值而自由调节外,还具有高效、不需要太大计算量和缩放输入特征、通俗易懂并且可以输出校准好的预测概率等优势。但它最大的劣势就是不能用来解决非线性问题,因为它的决策面是线性的。当去掉与输出变量无关的特征以及相似度较高的特征时,逻辑回归效果确实会更好。因此在热门音频预测中,特征工程质量的好坏亦在该算法的性能方面起着重要的作用。
3.2.3 其他机器学习方法
除了应用较为广泛并取得了较好的预测效果的支持向量机和逻辑回归法外,贝叶斯网络、移动感知器、随机森林和XG-Boost方法也曾被应用于热门数字音频的预测。
2009年,Singhi和Brown[4]使用歌曲的歌词信息进行了热门歌曲预测的探索。他们使用31种韵律和音节特征开发了一个热门音乐检测模型,对在2008年至2013年间进入Billboard年终热门100首单曲的歌曲进行训练。他们使用492首热门歌曲和6 323首非热门歌曲训练了贝叶斯网络,得到了0.451的召回率和0.214的预测准确率,结果优于随机结果。在他们的实验中,随着歌词长度的增加,预测效果也会随之提高。同年, Tsagkias等人[19]通过实验证明,根据对比分析iTunes上流行和非流行播客的指标特征,并使用PodCred评估模型[27]中的一组基于人工分析的浅层特征指标可以用来预测播客的听众偏好。这些特征更多的涉及元数据的完整性、一致性以及播客的完成质量等相关特性。他们成功在iTunes上的一组播客数据上进行了热门播客预测实验。使用多种机器学习方法,他们能够将iTunes上流行的播客与不流行的播客分类,并对播客进行排名,使iTunes上最流行的播客名列前茅。其中预测热门播客效果最好的是随机森林法,通过使用所有维度的所有特征,可以取得0.83的F1值。2019年,Joshi等人[21]研究了播客的文本内容特征,以探索在不同的热门播客和非热门播客中,文本线索的辅助作用。尽管一些文本内容的极性和主观性非常相似,但它们所包含的词汇线索却存在显著差异。因此,他们采用了一种基于三元组的训练方法,学习一个基于文本的播客表示,然后使用XG-Boost算法用于热门播客预测任务。其最佳模型的F1值为0.82,比对照组的最佳水平提高了12.3%。
不同的机器学习算法可能会在不同的数据集上产生不同的预测效果,但可以肯定的是,在避免过拟合的情况下,选取恰当而更具表示性的特征输入都会有助于提高各自算法的预测性能。
3.3 基于深度学习的预测算法
深度学习是人工智能的重要研究方向,也是人工智能技术发展迅速的领域之一,帮助计算机理解大量图像、声音和文本形式的数据。[34]人工神经网络,通常称为神经网络,是一种基于实际生物神经元功能的计算模型。它是一种非线性的统计工具,在模式识别领域广泛应用,同时也是深度学习的核心方法。神经网络是一种自适应系统,它根据训练数据在学习阶段自动进行参数的调整。第一次使用神经网络对热门音频进行预测的是Monterola等人[25],他们在从2004年至2006年发行的380首菲律宾语原创音乐(OPM,Original Pilipino Music)歌曲(其中有190首热门歌曲)中提取了56个单值音乐特征(如音高和速度),并定义了一个评价标准来衡量每一个特征的表示能力,将排名最高的20个音乐特征输入神经网络,使用梯度下降反向传播方法进行训练,最后得到了81%的平均预测准确率,比使用此相同的数据集和特征建立的其他机器学习方法高出了约20%的预测准确率。其实验结果显示了使用神经网络方法对热门音乐进行预测的乐观前景与可观优势,并在之后深度学习的发展历程中得到了许多****的实验佐证。
随着深度学习领域如火如荼的发展,对于热门音频预测领域的研究,****们纷纷开始使用卷积神经网络方法进行模型的建立。不同的是模型的结构有所不同,但都取得了较好的预测效果。同时,深层结构和多种类特征输入的模型预测效果往往优于浅层结构和单一特征输入模型的预测效果。
2017年,Yang等人[15]将热门歌曲预测问题表示为一个回归问题,并以原始的MFCC特征作为特征输入,训练了一个简单卷积神经网络模型、一个更高级的JYnet模型[30]和这两种模型的融合模型。其实验表明,在预测中文歌曲或西方歌曲在中国台湾地区的热门程度时,深层结构模型的预测效果比浅层结构模型更准确。对西方歌曲的预测更依赖于模型的深层结构,他们认为简单的浅层模型可能无法捕捉西方流行歌曲中丰富的声学特征和流派多样性。
同年,Yu等人[16]扩展了上述研究成果。他们建立了Siamese-CNN模型,以歌曲对为输入,然后联合优化两首歌曲在预测热门歌曲得分时的平均平方误差和判断两首歌曲得分高低的成对排名损失。使用普通的卷积神经网络模型通常将热门音频预测作为一个回归问题,而Siamese-CNN模型可以同时学习音频的流行性分数和相对排名。作者根据KKBOX提供的商业数据对歌曲的每日播放次数进行评估,证实了Siamese-CNN模型结构在区分热门歌曲和非热门歌曲方面比其他基本算法更有效。
2019年,Zangerle等人[6]采用了一个宽而深的神经网络模型,联合利用音频浅层特征、音频深层特征以及元数据特征(音频发行年份)预测美国Billboard歌曲排行榜中年度前100名的热门音乐,使用多种类特征的联合训练模型效果显著高于使用单一种类特征的预测模型,最高可达75.04%的准确率。
使用深度学习的方法对热门数字音频进行预测具有如下优势:他们在实践中往往表现出比普通机器学习更好的预测精准度,同时可以学习训练数据中非常复杂的底层特征,因为网络隐藏层的存在减少了对特征工程的需求。此外深度学习法特别适用于大型数据集和高维度数据集。但其劣势也相应表现在训练速度较慢、需要消耗巨大的计算资源以及对于较为少量的训练数据不能学习到效果较好的预测参数等方面。
3.4 预测算法小结
对上述热门音频预测算法进行性能分析总结,如表四所示。我们从预测类型、特征选择、方法复杂度、预测效果及方法优劣等几个角度进行了总结。Table4
表4
表4热门音频预测算法性能分析
Table4
方法 | 预测类型 | 特征选择 | 方法复杂度 | 预测效果 | 备注 |
---|---|---|---|---|---|
支持向量机 | 二分类 | 音频特征、文本特征和元数据特征 | 低 | 好 | 适用于小型样本库。 |
逻辑回归 | 二分类 | 音频特征、文本特征和元数据特征 | 低 | 好 | 不能解决非线性问题,依赖特征工程。 |
贝叶斯网络 | 二分类 | 文本特征 | 低 | 中 | 不能对特征变量进行筛选。 |
随机森林 | 二分类和排名预测 | 元数据特征 | 中 | 好 | 是机器学习算法中计算成本较高的方法。 |
XG-Boost | 二分类 | 文本特征 | 中 | 好 | 算法较复杂,计算成本较高。 |
卷积神经网络 | 二分类 | 音频特征和元数据特征 | 高 | 好 | 深层结构模型效果往往更好。 |
Siamese-CNN | 排名预测 | 音频特征和元数据特征 | 高 | 好 | 需使用歌曲对进行训练。 |
新窗口打开|下载CSV
4 总结与展望
如上文所述,热门音频预测领域自发展以来,大多数研究****在热门音乐或热门播客预测领域都取得了较为乐观的实验结果。通过建立不同的预测模型,选取不同的特征数据,从而取得了各不相同的预测效果,其中使用深度学习方法的预测效果最令人满意。但热门数字音频预测领域的研究并不是一帆风顺的,Salganik等人[35]曾在2006年提出过文化市场不可预测性的主张,Pachet和Roy[36]在2008年通过不成功的热门音乐预测实验检验了这一主张在音乐市场上的有效性,Borg和Hokkanen[14]以及Reiman和Örnell[37]同样认为,一首歌曲是否能成为热门歌曲很可能是由社会力量驱动的,而音频本身的内部特征不足以支撑成功的热门音频预测实验。对于这些质疑,笔者认为其实验失败的原因可能在于直接使用了第三方API获得特征进行训练,在实验中缺少了选取关键或者是有效特征的过程。此外,对音乐数据集“热门”这一指标的不同定义方法也会在一定程度上影响预测效果。同时,训练模型的维数灾难和过拟合现象可能也是导致预测失败的原因。
笔者对于热门音频预测领域未来的发展仍是看好的。科学研究活动必然借助于先进的数据与计算平台,先进的数据与计算平台也将因应用需求驱动演进出更新的技术,驱动当代科学研究的螺旋式上升[38]。随着深度学习、大数据和云计算技术的深入发展,会有更大量的可用实验音频数据集,对于“热门”指标的衡量也可以通过加入更多维度的数据计算过程来使其更加客观和准确。同时,计算机的数据计算和处理能力也会不断加强,各种改进的深度学习算法层出不穷,热门音频预测领域仍会有很大的探索空间,具体可归纳为以下三点:
(1)优化特征选取过程:特征选择的好坏与模型的预测效果息息相关,除了本文中介绍的****常用的特征外,选取表示性更强的音频浅层特征、发明更具针对性的音频深层特征、合理利用文本特征和元数据特征可能会取得更好的预测效果。
(2)优化“热门”指标的衡量方法:由于问题定义本身固有的类别不平衡,热门播客或歌曲在语料库中总是占少数,这会导致训练数据集的不平衡。此外目前大多数文献都是通过使用播放量或者是热门排行榜中的排名这种单维第三方数据来衡量音频的“热门”程度,因此该指标可能并不科学或客观。更多的社会影响要素如推广宣传、时事热点等状况未被考虑进去。这一领域更是需要更深入的跨学科研究过程。
(3)从预测模型算法方面进行优化:可以利用多层音频特征、文本特征以及元数据特征来构建改进的多模态模型或融合模型,使算法更具对热门数字音频预测领域的问题针对性。
此外,由上文可知,目前国内科研界对热门数字音频预测领域的研究内容较为欠缺,笔者在搜集文献时可查阅的中文文献相对较少。而在世界范围内,热门音乐预测领域的研究成果也远远多于热门播客预测领域的研究成果。但值得一提的是,目前我国移动网络电台发展迅速,根据前瞻产业研究院的报告显示,喜马拉雅FM在2020年5月的平台月活用户数已超过9937.39万人,因此对我国热门播客预测领域进行研究具备深远意义。
利益冲突声明
所有作者声明不存在利益冲突关系。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[R]. ,
[本文引用: 1]
[R]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[C].
[本文引用: 4]
[C].
[本文引用: 3]
[C].
[本文引用: 5]
[C].
[本文引用: 1]
[C].
[本文引用: 2]
[J]. ,
DOI:10.1080/09298215.2014.881888URL [本文引用: 2]
[C].
[本文引用: 2]
[J]. ,
[本文引用: 3]
[C].
[本文引用: 4]
[J]. ,
[本文引用: 1]
[C].
[本文引用: 5]
[C],
[本文引用: 6]
[J]. ,
[本文引用: 4]
[C].
[本文引用: 4]
[Z]. ,
[本文引用: 1]
[C],
[本文引用: 3]
[C].
[本文引用: 4]
[C].
[本文引用: 3]
[J]. ,
[本文引用: 1]
[C],
[本文引用: 1]
[J]. ,
DOI:10.1109/TMM.2018.2820903URL [本文引用: 3]
[J]. ,
DOI:10.1142/S0129183109014680URL [本文引用: 3]
[C].
[本文引用: 1]
[C].
[本文引用: 3]
[C].
[本文引用: 1]
[R]. ,
[本文引用: 1]
[C].
[本文引用: 2]
[C].
[本文引用: 1]
[J]. ,
[本文引用: 1]
[M]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
PMID:16469928 [本文引用: 1]
Hit songs, books, and movies are many times more successful than average, suggesting that "the best" alternatives are qualitatively different from "the rest"; yet experts routinely fail to predict which products will succeed. We investigated this paradox experimentally, by creating an artificial "music market" in which 14,341 participants downloaded previously unknown songs either with or without knowledge of previous participants' choices. Increasing the strength of social influence increased both inequality and unpredictability of success. Success was also only partly determined by quality: The best songs rarely did poorly, and the worst rarely did well, but any other result was possible.
[C].
[本文引用: 1]
[D]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]