matlab中 mirtoolbox工具 音乐matlab特征提取取怎么用啊

音乐情感认识的科技动态
音乐情感认识的科技动态
Youngmoo E. Kim等人
本文综述音乐领域里自动情感认识的科技进展。音乐经常被当作一种“语言的情感”,因此我们很自然要依据音乐的情感来对音乐进行分类。音乐的无数特性,例如和声,音色,表演方式,和歌词会影响情感,而对一首乐曲的心情也可能在倾听过程中产生变化。但在开发自动系统来组织音乐时,在情感内容方面我们会面临一种问题,它经常缺少一种适当规定的答案;人们对一首歌曲的情感或一部作品本身的模糊度引起的感受和诠释,可能有显著的不一致。当与其它音乐讯息检索任务(例如,风格辨别)相比时,音乐心情的识别研究工作仍然处于早期阶段,虽然近年来对它的注意力逐渐在增加。在本文里,我们对音乐情感认识展开广泛的探索,特别是把注意力集中在某些方法上,它们采用了包罗万象的文本讯息(例如,网址,标志,和歌词)和基于内容的手段以及结合多特征域的系统。
随着过去十年大量易用的数字音乐库的激增,音乐讯息检索研究迅速扩展,朝着搜索和组织音乐及其相关数据的自动化处理系统的方向发展。某些普通的搜索和检索范畴,比如说艺术家或风格,比较容易定量为一个“正确的”(或广泛同意的)答案,因此在音乐讯息检索研究中受到更多的关注。但音乐本身是情感的表达,它可能是高度主观性的而且难于定量化。音乐的情感(或心情)的自动认识仍然处于它的早期阶段,虽然近年来对它的注意力逐渐在增加。确定音乐音的情感内容,从计算方法上来说,自然需要各交叉学科尽力协作,不仅包括信号处理和机器学习,也需要理解听觉识别,心理学,和音乐理论。
音乐心情认识的计算系统可以根据一种心情的模型,虽然这种表达方式依然是一个心理学研究的热门话题。某些类别的和参数化的模型受到了先前对人类受试对象进行基本研究的支持,而这些模型将在以下各节更详细描述。所有模型都用于音乐讯息检索系统里,但是“基本事实”情感标志的集合,不考虑已经采用的表达方式,仍然是一个颇具挑战性的问题。关于有效的标签搜集,人们已经做出种种努力,包括广泛的有潜力的解决方案,例如听众调查,社会标志,和数据搜集游戏。对各种音乐情感数据搜集方法的评述也是本文的一个主题。
每年的音乐讯息检索交流活动(MIREX)是一种基于团体的框架,用于正式评价音乐讯息检索系统及其算法,它包括听觉音乐心情分类,此活动作为一种任务始于2007年。此领域内最高级的操作系统展示了每年的改善情况,它采用单独的声频特征(注意到某些系统被设计用来风格分类,然后也适用于心情分类任务)。但心情并不完全被封装在声音里(社会环境,举例来说,扮演一个重要的角色),所以结合音乐元数据的手段,比如各种标志和歌词,本文也详细予以评述。
为了评论目前关于音乐的自动情感认识的科技进展,我们首先讨论某些用于构造情感模型的心理学研究工作,然后讨论情感数据的详细计算表达方式。我们提出一个普通的框架以说明情感认识,随后它被用于各种特征域。我们对某些把各种特性的多模态结合在一起的系统作了概要说明,以此作为本文的结论。
2.情感的心理学研究
遍及过去的半个多世纪,有关音乐的许多定性化和定量化情感的研究方法已经取得了一些重要的进展。这种调查的开始远早于广泛可使用的音乐唱片的出现,它被当作一种临床试验可重复的音乐刺激(采用乐谱),但情感的现代调查研究采用的压倒多数的主要刺激形式是唱片。虽然乐谱能够提供丰富的相关讯息,读谱能力并不普遍,在本节和全文里我们的注意力将限制在通过听觉的音乐体验。
2.1& 体会的重要性
当进行任何情感测量时,从直接的生理指标到定性的自我报告,操作者也必须考虑被测量的情感来源。许多研究工作,采用分类的或标量/矢量的测量方法,表明在某人对音乐所表达情感的体会和音乐所诱发的情感之间有重要区别。两种情感反应及其报告易发生混淆。对环境心理反应的早期研究工作考虑了音乐的情感权重,既作为一种焦点的刺激源也作为一种分散的刺激源,结果发现对音乐的情感反应也会对环境和倾听内容相当敏感。Juslin和Luakka对情感体会和情感诱发之间的区别进行了研究,其结果证实两者不仅会受到倾听体验的社会环境(比如听众和表演场所)的支配,也会受到个人动机(即,音乐用来休息,刺激等)的支配。在本文的其余部分,我们将注意力集中那些系统上,它们试图鉴别音乐表达的情感而不是音乐诱发的情感。
2.2& 超文化的情感体会
音乐能力的交叉文化的研究提示可能存在超越语言和文化适应的普遍的心理生理和情感的线索。比较西方12音律和印度24音律音乐的调性特征提示确实有普遍的心情指向的旋律线索。最近对一群无西方音乐(或文化)背景的喀麦隆玛法土著进行了一项民族音乐学的研究,其音乐样本分类为3个情感类别,与西方人的分类相似。
2.3& 情感表示
音乐讯息研究系统倾向于采用分类的情感描述或参数化的情感模型来进行情感的分类或认识。每种表示都获得大量支持性心理研究工作的支持。
2.3.1& 分类的心理测量学
分类的方法涉及发现和组织某些情感描述符(标志)组,其根据是它们与提问中某些音乐的相关度。Hevner的早期研究著作之一,出版于1936年,起初采用66个形容词,然后安排成8组。尽管采用了这些形容词,然而其特定分组和分级仍然受到仔细检查,甚至颇有争议,自从Hevner研究工作以后实施的分类研究结果表明,这种标志方法可能是直觉的和始终如一的,无需考虑听众的音乐训练情况。
在最近一系列音乐倾听研究中,Zenter等人把一组801个“普通的”情感用语简化为一小组特别用来音乐心情分级的146个度量用语。他们的研究,涉及分级的音乐特性词汇和测试词汇,源于实验室和音乐会现场那些临时的和风格迷的听众,其结果揭示了这些心情词汇的解释在不同的音乐风格之间变化多端。
最近MIREX对自动音乐心情分类的评价已经把歌曲分类为5种心情组之一,这些心情形容词组是:组1,热情的、觉醒的、自信的、狂暴的、喧闹的。
组2,嬉戏的、欢快的、玩笑的、甜蜜的、友好的/善心的。
组3,识字的、辛辣的、希望的、苦乐参半的、抑郁的、沉思的。
组4,幽默的、愚蠢的、做作的、怪癖的、古怪的、机智的、嘲讽的。
组5,好斗的、激昂的、紧张的/焦虑的、热切的、易变的、发自肺腑的。
为了制订这5组分类,对一个心情标签的同时事件矩阵实行了分组,其中采用的流行音乐来自[音乐指南大全]。
2.3.2& 标量/n维心理测量学
其它研究提议心情能够由一连串的描述符或简单的多维度量来衡量和测量。Russell和Thayer在研究n维觉醒的基本工作过程中建立了一个基础,其中各组描述符可以组成低维模型。最值得注意的是2维效价-觉醒(V-A)空间,其中各种情感分布在沿着觉醒(强度)独立轴的平面上,范围从高到低,而效价(一种估价的倾向)的范围从正到负。这种2维音乐情感表示,对于范围广泛的音乐而言,其有效性已经得到多种研究工作的确认。
某些研究已经扩展这种方法来发展3维空间度量,以便比较分析音乐节录,虽然其第3维的意义性受到推测和否认。V-A模型本身的其它调查提出证据来分离不属于效价因素的觉醒路线。
适用于自我报告影响的一种相关的、分类的评价法是正负影响一览表(PANAS),它断定所有分离的情感(及其相关的标签),其存在作为正或负影响的出现率与效价相同。然而,在此事例里,正或负影响被处理为分离的类别,与V-A的参数方法相反。
3.& 情感认识的框架
情感认识可以被看做是一种多等级-多标签的分类或回归分析问题,其中我们试图用一组情感来注解每一段音乐。一段音乐可以是整首歌曲,一首歌曲(例如,合唱,赞美歌)的一节,一个固定长度的剪辑(例如,30秒的歌曲摘录),或一个短暂的片段(例如,1秒)。
我们将试图把心情表示为一种单一的多维矢量或一种时间系列的矢量,它们遍及一个情感的意义空间。就是说,一个矢量的每一维表示一个单一的情感或者一对双极的情感(例如,正/负)。一维数值编码音乐段落和情感之间的意义相关强度。有时这种表示用一个双标签来代表情感的出现与否,但更经常表示为一个实际值分数(例如,Likert的标量值,估计的概率)。当我们打算探寻某段音乐在整个时程内发生的情感变化时,我们将把情感表示为时间系列的矢量。
我们可以采用不同形式的数据来对具几种风格的一段音乐估计其情感矢量值。首先,我们可以询问听众对某段音乐相关情感的估计(详见第4节)。例如,采用一项调查,一种社会标志机制,或一种评注游戏,此事就能做好。我们也可以分析各种文本形式的讯息元数据(详见第5节)。这种方法可能包括文本挖掘网络资料(例如,艺术家传记,唱片评介)或大量搜集社会标志(称之为一片标志云),以及采用自然语言处理(比如,意见分析)的歌词分析。我们也可以分析乐音的内容,方法是采用信号处理和受控机器学习这两种手段来自动评注音乐片段的情感(详见第6节)。各种基于内容的方法也能用来分析其它相关形式的多媒体数据,如音乐视频和宣传片。此外,多数据资料,例如歌词和音频,可以结合起来确定音乐的情感内容(详见第7节)。
4. 听众的评注
一项调查是一种直接的技术,用于搜集有关音乐情感内容的讯息。[音乐指南大全]已经花费相当大量的金钱,时间和人力来评注其音乐数据库,使之具有高质量的情感标志。尽管如此,他们未必与音乐讯息检索团体充分共享这批数据。为了改善这个问题,Turnbull等人搜集了电脑试听实验室500首歌曲(CAL500)数据库里做了评注的音乐。此数据库包含500个独特艺术家每人的一首歌,其中每首歌已经至少由3个非专业评论员采用具174个标志的汇编作出手工标签,此汇编中的18个标志与各种情感有关。Trohidis等人也已经编制了公众可利用的数据库,其中包含593首歌,每首已经由3个专业听众采用6种情感作出评注。
直接从听众当中搜集情感评注涉及制订社会标志。例如,Last.fm是一个音乐发现网站,它允许使用者通过其音频播放接口设备里的一个文本箱作出社会标志。截至2007年初,其每月两千万使用者的庞大基地已经建立了未经编辑的、自由文本标志为96万的汇编,并用它来评注上百万首的歌曲。不象[音乐指南大全],Last.fm通过其公开的音频播放接口使其数据的大部分对公众开放。而这种数据对音乐讯息检索团体而言是一种有用的资源,Lamere和Celma指出社会标志存在一些问题:由于冷起动问题而致的稀少以及流行偏见,特定标签技术,标志的多种拼写,恶意的标志,等等。
4.1& 评注游戏
数据搜集的传统方法,例如招聘受试者,可能有瑕疵,因为作标签的任务既耗时,冗长乏味,又很昂贵。最近,大量的注意力已经集中于运用合作的在线游戏来搜集针对各种困难问题的那些基本事实标签,即所谓的“一个目的的游戏”。某些游戏已经被提出来搜集音乐数据,例如[大小调],[倾听游戏],和[标志A曲调],这些执行程序主要集中在搜集相对来说短的音频剪辑的描述性标签。
[心情变动]是另一种游戏,它根据觉醒-效价模型在线合作来评注情感。在此游戏里,选手将其光标置于V-A空间,这时与另一个参与者竞争(和合作)来评注一段30秒的音乐剪辑,其得分是由选手们的光标之间的交叉来决定的(鼓励一致意见而不鼓励无意义的标签)。采用一种相似参数的表示法,Bachorik等人得出结论,绝大多数听众需要8秒钟来估计一首歌的心情,当搜集这些时间变化多端的音乐评注时,理应考虑到一个时延。[让它漫游]结合多种类型的音乐评注游戏,包括各种剪辑的效价-觉醒评注,描述性标签,和音乐琐事。
5.包罗万象的文本讯息
在这一节里,我们讨论网络资料,社会标志云和歌词,我们能够把它们当作文本讯息的形式来进行分析,以便推导出一种音乐的情感表示。分析这些数据资料涉及所采用的从文本挖掘到自然语言处理的各种技术。
5.1& 网络资料
艺术家传记,唱片评介,和歌曲评论是有关音乐讯息的丰富资料。现有一些基于研究的音乐讯息检索系统采用问题搜索引擎,监听MP3日志,或漫游某个音乐网站等手段,以便从互联网搜集这些资料。在所有情况下,Levy和Sandler指出,这些从网络挖掘的资料可能受到干扰,因为某些检索网页将是无关紧要的,另外,多数相关网页的文本内容将是无用的。
绝大多数提议的网络挖掘系统采用一组与一首歌相关的一份或多份资料,然后把它们转换为一个简单的文本矢量(例如,用语出现率转变为文本出现率(TF-IDF)表示)。于是,这种矢量空间表示可用于一些音乐讯息检索任务,如计算音乐相似性和给某个基于文本的音乐检索系统编内容索引。新近,Knees等人已经提出一种值得期望的新网络挖掘技术,被称为“关联评价”,作为矢量空间表示法的一种替代。
5.2& 社会标志
社会标志已经被用来执行风格和艺术家分类以及评价音乐心情等诸如此类的音乐讯息检索任务。某些标志,如“愉快”和“忧郁”明显可用于情感认识,也能够直接应用于讯息检索系统。研究结果已经显示,其它标志,如那些与风格和专用乐器相关的,也能够用于此类任务。Bischoff等人采用来自[音乐指南大全]的基本事实心情标签以及来自Last.fm的社会标志特征,根据MIREX的心情分类以及V-A模型进行了情感分类。他们的实验采用了“支承矢量机器”,“逻辑回归”,“随机森林”,“高斯混合模型”,“K份资料最精确邻近值分类机”“决策树分类机”,和“朴素Bayes多项式分类机”,结果表明“朴素Bayes多项式分类机”比其它方法好。
其它研究涉及社会标志的分析,主要是把标志分成各组不同的情感并评价各种心理测量模型。使每一个标志成为唯一的种类会产生不可处理的庞大类型并难以解释许多用来描述音乐心情的用语之间的相似性。例如,“愉快的”,“欢乐的”,“快乐的”和“高兴的”是幸福感多样化的同义词。与此相似,形容词“悲观的”,“悲痛的”,“忧郁的”和“沮丧的”都与悲伤感有关。最近的努力已经表明,采用把类似的描述符分成各类同义词组就能获得良好的分类结果。
现有的一些方法把标志集中整理为同义词组。手工操作的分组涉及把标志分成预先建立的心情类型词组,但给定现有标志数据库的大小和种类,这种方法是不足挂齿的。一种直接自动的分类方法,来源于文本挖掘经常采用的TF-IDF度量,在心情标志内检索同时事件然后形成各类词组,直到没有同时事件出现为止。这种同时事件检索方法比较下述阈值,与两个标志有关的歌曲数目和与各别标志有关的最小歌曲数目之比。
其它自动分类标签的现有方法是潜伏语义分析(LSA),它是一种自然语言处理技术,采用的是把一个用语文件矩阵约化为一个较低秩矩阵的近似方法。在此情况下,用语文件矩阵这种稀疏矩阵描述每首歌用一个给定标签标记的次数。对于一个几千首歌和超过100个可能的心情标志的数据库,该用语文件矩阵将是非常高阶的。经过某些操作后,对已经变形的用语文件矩阵进行一种单值分解(SVD)会产生左和右单矢量,它们分别表示用语之间和文件之间的距离。Levy和Sandler起初的工作采用一个称之为“对应分析”的变量,从收集到的一批Last.fm的社会标志里推导出一个语义空间,涵盖超过24,000个专门的标志和5700条音轨。
经由计算每个标志矢量之间的余弦距离也可以对各个标志进行分组,然后采用一种随意的分类方法,例如期望值最大化方法,把这些用语组合起来。最近,Laurier等人的研究工作采用一种成本函数把分类数最小化,以便最好地表示超过40万的专门标志,结果发现恰好4种类型产生了心情空间的最佳分类。所形成的分类数与Russell和Thayer的V-A模型多少有些一致。此外,Levy和Sandler以及Laurier等人用实例说明,对其获得的语义心情空间运用一种自组织制图算法产生一种心情的2维表示,与V-A模型相符。
5.3& 歌词的情感认识
与基于标志的方法相比,相对说来小规模的研究早已推行把歌词当作情感认识的专用特征(虽然歌词一直被用作确定艺术家相似度的特征)。基于歌词的方法特别困难,因为其特征提取和制订歌词情感标签的计划非同小可,特别是考虑到其各种复杂性涉及文本里毫不含糊的情感。歌词也已经用来结合其它特征,其工作原理详述于第7节。
5.3.1&& 歌词特征选择
在基于歌词的情感认识任务中,建立“基本事实”标签来描述相互联系的词汇之间的情感是一种重大的挑战。Mehrabian和Thayer提议环境刺激是通过由愉快(效价),觉醒和支配(PAD)描述的情感反应联系到行为反应的。其后,Bradley开发了“英语词汇的情感规范(ANEW)”,它由具PAD值的一大组词汇组成。大量的受试对象被用来对词汇作出标签,他们要指明某个词使他们感觉如何,用比较幸福,兴奋和情景控制的字眼来表示,这些分别对应于愉快,觉醒和支配要素。ANEW里一种词汇的愉快和觉醒标签的分布表明它们是按照V-A模型很好地分布的。Hu等人采用Bradley的ANEW开发出一种转型,称为“汉语词汇的情感规范(ANCW)”,其操作前提是假定翻译词汇携带与其英语对方相同的情感意义。
这些情感词典并不说明多词汇结构,对歌词特征而言,多数方法应用一种词汇包(BOW)方法,用来计算某个词在整个文集里的使用率(例如,TF-IDF),而不是特定词汇的种类。Chen等人的一种原创方法应用矢量空间模型(VSM)特征,这些特征囊括了所有组成歌词的词汇。然而,新近,Xia等人采用只包括感情和与感情相关的词汇来细化特征矢量,他们称之为感情-
VSM(s- VSM)。把注意力集中在与感情相关的词汇是为了弄清修改的用语强化或弱化歌词的主要感情的作用并进一步减少特征维数。
5.3.2&& 歌词的情感认识系统
Meyer的“歌词指示符”系统根据歌曲的歌词内容提供某首歌的情感记号,目的是为了开发基于心情的音乐。歌词指示符的特征提取包括一首歌的歌词组成的词汇所具有的PAD标签。歌曲接受的一种综合的情感记号位于P-A模型的4个象限之一,此模型根据的是歌词里所有词汇具有的PAD值的总和。尽管这种方法是直接的,它并不是一种机器学习系统,也不使用自然语言处理方法来分清歌词的情感。
Xia和Chen的矢量空间方法应用支承矢量机器(SVM)分类法来排列和测试数据。Xia的文集包括2600首中文流行歌曲,其60%被手工标签为“心情轻松的”,其余标示为“心情沉重的”。依据精确度,回忆,和第一识别函数(F-1)测量法,其感情-
VSM特征标示的记号高于73% 。
Hu等人采用一种模糊分类技术来决定某个歌词的主要情感。于是其分类的加权利用了语法讯息,由此,根据诸如紧张度和句子之间的相互关系等因素来确定各别句子的置信度和加权值。具最大总加权值的类别被认为是歌曲的主要情感,其特征是它的平均V-A值位于V-A模型的4个象限之一。他们证实这个系统处理多类别任务比最初的“歌词指示符”系统更好。
Y.Yang开发了双措词BOW特征的应用,采用成对的词汇来检查消极用语(比如,“不幸福”不同于“幸福”)的影响并利用概率LSA(PLSA)和歌词出现率来建立歌曲主题模型。双措词BOW特征模型证实分类效价的增加可忽略不计,但已证明PLSA在减少训练组的规模方面更加高效。
6.& 基于内容的音频分析
很清楚,许多听众对音乐心情的评价来源于音频本身(毕竟,制作各种标志最经常的是根据人们倾听的音乐)。一段音乐前后关系的讯息可能是不全的或全部丢失(例如,新创作的音乐作品)。假定数字音乐库,包括具备上百万首歌曲的商业数据库,急剧扩展,那么就很清楚,手工标签方法将不能胜任此项工作。这样,基于内容的系统,其吸引力是显而易见的,而音频的情感认识一直是音乐讯息检索研究团体的一个长期目标(相应的MIREX任务集中在由音乐音启动的系统上)。
6.1& 听觉特征
情感可能受到以下特性的影响,如速度,音色,和声,和响度(仅列举几项),而有关音乐讯息检索的许多先前的工作一直指向音乐讯息听觉特征的应用研究。虽然某些研究已经集中在检索最具讯息量的情感分类上,支配性的单一特性并未发现。关于心情认识所采用的普通听觉特征,其概要简介如下:
类型&&&&&&&&&
动力学&&&&&&&
均方根能量
音色&&&&&&&&&
美☆-频谱逆谱系数,频谱包络,频谱对比度
和声&&&&&&&&&
刺耳感,和声变化,调性清晰度,大调性
音域&&&&&&&&&
声像图,音品中位值和偏差
节奏&&&&&&&&&
节奏强度,一致性,速度,节拍分布图
发音&&&&&&&&&
信号密度,起振斜率,起振时程
为了检索绝大多数的情感讯息并从音频提取表情特征,Mion和De
Poli调查了一个用于特征选择的系统,并把它表示为一组原始单维特征,包括强度和频谱包络以及某些音乐理论特性。他们的系统采用了系列特征选择法(SFS),在其子集上继之以主成分分析(PCA),以便辨别和消除冗余特征维。然而,他们研究的焦点是单声道乐器分类,其范围涉及情感及其表示的9种类别,与音乐合成器相反。在测试的17种特征里,发现最有讯息总量的是刺耳感,每秒音符数,起振时程,和峰值声级。
MacDorman等人检查了多种听觉特征的性能(声波图,频谱分布图,周期性频谱分布图,,涨落模式,和美-频谱逆谱系数-MFCCs)来预测音乐节录的愉快率和觉醒率。他们发现,在预测觉醒率而不是愉快率时,所有这些特征有更好的体现,而当所有5种特征一起采用时,可获得最佳预测值。
Schmidt等人,既根据个人的演奏情况也结合一种特征融合系统,调查了音乐节录的多种听觉特征域的使用结果。他们的特征收集数据包含MFCCs,音品,统计的频谱描述符(包括中位值,流强,和衰减),以及基于倍频程的频谱对比度。具有最高操作效能的个别特征是频谱对比度和MFCCs,但取得的最佳综合结果又是采用了特征组合。
Eerola等人,他们也是开源特征提取程序,即,音乐讯息检索工具箱(MIRtoolbox)的开发者,已经开发了一种音乐讯息音频特征的特殊子集。这些特征的集聚源于大范围的特征域,包括动力学,音色,和声,音域,节奏,和发音。最近其它的方法已经采取了一种综合手段来进行特征提取,编辑多种特征集合(导致高维空间)和应用维数约化技术。不考虑特征融合或维数约化方法,最成功的系统结合了多种听觉特征类型。
☆译注:Mel,美,音调单位,定义40dB,1000Hz纯音的音调为1000美。
6.2&& 基于音频的系统
用于情感认识的基于音频内容的方法采用一种情感类别模型或情感参数模型。前者引起一种分类任务,而后者引起一种回归分析任务,至于所有最近的系统,则应用了这些方法中的一种。
6.2.1& 情感类别的分类
在此课题的第一本出版物里,Li和Ogihara采用了与音色,节奏,和音高有关的听觉特征来训练支承矢量机器(SVMs),以便把音乐分类为13种心情类别中的一种。利用一个全部作了手工标签的499段音乐节录(每段30秒)的资料库,它涵盖了环境,古典,融合,和爵士等各种各样的风格,他们达到的准确率为45%。
Lu等人从事的心情探测和探索工作采用了各种相似的听觉特征,包括强度,音色,和节奏。他们的分类机利用高斯混合模型(GMMs)来说明V-A表示的4个主要心情象限。该系统的训练利用了一组800段音乐剪辑(源于一个有250首乐曲的数据库)。每段时程为20秒,已经将其标示在4个象限之一上。他们的系统达到的总体准确率为85%,尽管不清楚从相同录音资料抽取的多段剪辑是如何分布在训练组和测试组之间的。
Mandel等人提出一种音乐推荐的指导方案,由此开发了积极学习系统,这种方法能够根据使用者指定的音乐内容提供推荐意见。为了进行一种演出节目单的检索,使用者应该给这个系统提供一组“种子歌曲”,或表现所需节目类型的歌曲。该系统利用这些数据并结合使用者的检验数据,以此构造一种利用了MFCC特征的二元SVM分类机。当测试来自[音乐指南大全]标签的72种各别的心情时,该系统达到的一个峰值操作性能为45.2%。
Skowronek等人利用一组涵盖1059歌曲节录的数据开发了用于各个为12种非专用心情类别的二元分类机。根据时程调制,速度,和节奏,音品和调性讯息,以及打击乐事件出现率,利用这些特征他们训练了该机的针对各种心情的象限辨别函数,其准确率从77%(无忧的-游戏的)到91%(平静的-缓和的),取决于心情类别。
如引言所述,MIREX首先在2007年把音乐音的心情分类纳入某个任务。2007年,Tzanetakis运行一部SVM分类机,仅利用MFCC,以及频谱包络,中位值,和衰减这些特征,就取得了最高正确率为61.5%。2008年,Peeters的高级操作系统证实了某些改善(63.7%),它引进了一个更大的特征文集,其中包括MFCCs,频谱峰顶/频谱平顶,以及各种关于音品的测量。该系统利用一种GMM方法来进行分类,但首先应用惯性比值最大化和特征空间投影图(IRMFSP)来选择每个任务里最有讯息量的40种特征(此处是心情),并执行维数约化的线性辨别分析(LDA)。2009年,Cao和Li提出一个顶级操作系统来处理某些类别的问题,包括心情分类任务(65.7%)。他们的系统应用一种具低级听觉特征的“超级矢量”和一种高斯超级矢量继之以支持矢量机器(GSV-SVM)。值得注意的是,在每3年一次的评价里,最佳的操作系统是那些设计来执行多种MIREX任务的普通系统。
6.2.2& 情感参数回归分析法
最近对源于音频的音乐情感展开的预测工作已经提示,参数回归分析法作起来比采用等效特征的标签分类法更好。目标瞄准音频V-A坐标的预测,Yang等人介绍了如何利用回归分析法来把高维听觉特征映射到2维空间。支承矢量回归(SVR)和各种综合辅助算法,包括自适应提升和回归阈值算法(
AdaBoost.RT),已经用来处理回归分析问题,并搜集了195个音乐剪辑,每个有一个基本事实V-A标签。由于此类工作主要集中在作标签和回归分析技术上,特征提取利用公开可用的提取工具。例如听觉心理分析电脑程序(PsySound)和分析与综合的音乐检索系统(Marsyas),总共有114特征维。为了把数据减少到可探寻的维数,主成分分析法(PCA)的应用早于回归分析法。这种系统取得的R2(测定的系数)分数,对于觉醒的是0.58而对于效价是0.28。
Schmidt等人和Han等人利用一种V-A空间的定量表示,各自开始其调查然后应用SVMs进行分类。由于所获得的结果不能令人满意(Schmidt在一种V-A空间的4象限分类法中取得50.2%的准确率,而Han在一个11类问题中取得33%的准确率),两个研究组转向基于回归分析的方法,应用SVR和高斯混合模型(GMM)回归分析法,把预计的结果映射到原来的心情类别上。利用11个定量化类别和GMM回归分析法,他们获得的峰值操作性能达到95%的正确分类。
Eerola等人介绍了利用一种3维情感模型来给音乐作标签的情况;他们的工作完全采用回归分析法。其中调查了多种回归分析法,包括部分最小二乘法(PLS)的回归分析法,这种方法考虑到标签维数之间的相关关系。他们取得了分别代表效价,能动性,和紧张度的R2分数
0.72,0.85,和0.79,而采用PLS,他们也报告了用于5种基本情感类别(生气的,可怕的,幸福的,不快的,和温和的)的峰值R2预测率,其范围从0.58到0.74。
Schmidt等人注意到用象限来定量并不符合他们选择V-A标签的连续性,因此也采用SVR和多线性回归分析法(MLR)来探究这些问题。其最高操作效能的系统在归一化空间获得了13.7%的平均误差距离。在新近的工作里,Schmidt等人已经介绍了建立模型的想法,即,选择听众应答的音乐标签,把它们转换为V-A空间里随机分布的参数,还须注意到,只要多数流行音乐片段的标签具有合理的小规模,那么它们就能表示为单一的2维高斯模型。他们首先进行参数估计以便确定基本事实参数,N(μ,Σ)然后应用MLR,PLS,和SVR来研制参数预测模型。
6.3&& 随时的情感认识
由于少数其它音乐讯息检索任务受制于动力学的(时间变化的)“基本事实”,有人可能主张说明音乐的时间特性这件事也许比绝大多数其它的任务更加重要。因为这种变化,那些依赖于一个单独心情标签(它归属于整首歌或冗长剪辑)的系统受到分类上高度不确定性的限制。Lu等人从事的心情探寻法跨越4个主要的V-A象限,探测到的心情变化具有1秒的分辨率。他们报告在一个古典音乐作品9个乐章的文集上所取得的精确度和心情界限探测的检索率分别是84.1%和81.5%。
通过[心情摇摆游戏]选择秒-对-秒V-A标签,Schmidt等人也调查了随时的音乐心情讯息的探寻法。他们的分析随时间变化,仍然可表述为一种回归分析法以便开发一种制图法,把短时高维听觉特征映射到时间定位的情感空间坐标。图6显示一段音乐剪辑测得的频谱对比度特征和MLR预测值的V-A投影图。在此例中,一段15秒的剪辑已经被分割为3段5秒的片段(投影)来表示它们在V-A空间里的总体运动。这种随时间变化的回归分析系统的某个版本回到[心情摇摆游戏]里大展身手,作为一个模拟的“人工智能”伙伴参加单选手游戏。
7. 综合多特征域
很清楚,音乐数据的某些方面(例如,社会因素,比如“圣诞音乐”,或那些被认为是“轰动一时”的歌曲)并不由音频揭示出来,仅利用听觉(频谱)特征的音乐讯息检索任务所获得的研究结果,让许多人相信仅利用这些特征会有一个操作上限。这种情况已经导致数量不断增加的研究工作转向综合多特征域来改善音乐讯息检索系统的认识能力。利用多模式方法(结合源于不同领域的特征)来进行情感分类的最初尝试被应用在谈话中,采用了音频和面部表情的综合分析法。这些方法已经激发了某些其它的音乐讯息检索分类任务(比如风格认识)采用其它的多模式方法,但是这些对音乐情感讯息进行分类的综合方法,其出现仅仅是过去几年以来的事。
7.1& 综合音频和歌词
不管音频如何重要,某些音乐风格(例如,“圣诞歌曲”)很容易利用文本探测出来。这种情况激发Neumayer在研究工作中利用多种音频和文本特征的综合方法来进行音乐风格的分类。与此相似,下述的许多研究工作受到某种想法的激发,即,某些由音乐传递的情感,利用一种音频和歌词的综合方法,更容易探测出来。某些系统报告了相对谨慎的操作结果,但是经常发生的情况是在某些任务里,仅利用音频特征的基本操作就一直很高效。最具挑战性的结果显示,在某些情形,仅改善音频特征,证实在两种特征模式里所包含的讯息可能是高度互补的。
7.1.1& 综合音频和歌词的系统
第一个应用音频和歌词来进行情感分类的系统使用了歌词文本和大量的音频特征,比如每分钟节拍数和12个低级MPEG-7(活动图像专家组-7)描述符(例如,频谱中位值,衰减值,和流强),将其用在一组145段30秒音乐剪辑上。根据PANAS标签,每段剪辑手工标示为11种情感类别之一。虽然发现特定歌词和情感类别(敌意,不快感,犯罪感)之间有强的相关关系,但在其相对小的数据组上,附加歌词增加的分类操作效能仅是2.1%(82.8%对80.7%仅采用音频)。
一种新近的系统利用一个有1240首中文流行歌曲的数据库来综合歌词和音频特征。根据Russell和Thayer模型里4个觉醒-效价象限之一对这些歌曲作了手工标签,而进行计算听觉特征(MFCC和频谱描述符)的一段30秒片断从每首歌的中间抽出。利用BOW方法进行歌词(假设源于整首歌)的文本分析。这项工作比较了综合音频和文本特征的3种不同的方法,首次各自利用音频和文本分别对觉醒和效价进行分类,从而获得了最佳结果,然后利用SVMs合并这些结果来确定全部的V-A分类。把这些数据分割为80/20的训练-测试组,它们具有1000倍的交叉效力,单凭音频特征产生一个基本为46.6%的正确分类,而综合音频和歌词则达到57.1%的准确率(相对操作效能增加21%)。
Laurier等人的其它最近工作开发了音频和多歌词特征的使用方法,在4象限V-A空间里进行歌曲情感的分类。利用Last.fm标志对歌曲进行标示,而其过滤则利用了词典数据库“情感-词汇网络”来合并同义词(接着由听众确认)。该文集由1000首歌曲组成,相同分布跨越4个象限,对每首歌进行了音色,节奏,调性,和时程等综合特征的计算。调查了3种不同的方法,歌词相似性,LSA,和语言模型差异(LMD),以便了解歌词的特征。LMD比较不同心情类别的语言模型之间用语出现率的差异,此处用它来选择100个最具识别能力的用语,结果表明它与LSA相比,具有明显更高的分类操作效能。音频和文本特征被整合为一个单独的矢量以便进行联合分类,在两个象限里改善的操作效能超过单纯音频特征5%:“幸福”(81.5%对86.8%)和“不快”(87.7%对92.8%)。其它象限基本未变,但仅采用音频特征早已有很高的分类准确率:“休闲的”
(91.4%对91.7%) 和“生气的”(98.1对98.3%)。
Hu等人也综合音频和歌词来进行情感认识,采用的是一个相对大型的、接近3000首歌曲的数据库。根据来自Last.fm的社会标志形成18种情感类别,利用“情感-词汇网络”数据库来除掉与情感认识无关的标志并由听众的判断作出有效的改良。对于歌词特征而言,此系统采用BOW方法和TF-IDF加权法。BOW词根(前缀和后缀除掉)TF-IDF加权(BSTI)特征直接联结63个频谱衍生的音频特征以便训练SVM分类机。BSTI特征的选择利用了不同的方法,包括LMD选择法,改变各种特征维数来鉴定最佳操作效能。有趣的是,在识别18种心情类别中的12种时,采用单纯BSTI(歌词)特征的效果比采用单纯音频特征的更好。而在识别18种心情类别中的13种时(单纯音频操作最好的是3种类别,“幸福”,“乐观”和“渴望”,而单纯歌词操作最好的是“悲伤”和“兴奋”),证实音频+歌词方法具有最高的操作效能。音频加LMD特征选择(63维,等效于音频特征数目)的最高操作效能表现在5种类别里(“平静”,“不快”,“生气”,“自信”,和“诚挚”)并在半数事例里改善了操作效能,此处单纯音频的操作比歌词的更好,反之亦然,证实了综合特征法的效用。
最近,Schuller等人调查了利用音频特征,歌词,和元数据来把音乐自动标示在一个离散化版本的V-A空间上。对于一个有2648首流行歌曲的数据库,每首歌由4个听者选择5个离散标签之一来评级。他们的分类工作,最终约化为两个独立的3-类问题。他们的最佳操作系统运行时采用特征选择算法和标签过滤法,分别在效价和觉醒上达到64.1%和60.9%的准确率。
7.2&& 综合音频和标志
音乐讯息检索研究者也已经把注意力集中在多模式方法结合标志和低级音频特征上,以便进行分类工作。Turnbull等人综合源于网络资料,社会标志和CAL500数据库的音频分析结果的语义讯息来探索标志分类问题。他们比较了某些算法(例如,标定的得分平均,等级提升,核矩阵组合SVM)并发现多模式方法的操作效果明显比单模式方法更好。
Bischoff等人特别为了情感认识任务而采用把社会标志讯息和基于内容的音频分析综合起来的方法。对于4737首歌曲中的每一首,他们从Last.fm收集社会标志并形成各种具240维的音频特征矢量(包括MFCCs,音品特征,和其它频谱特征)。然后他们训练一部朴素Bayes分类机来识别社会标志以及一部SVM来识别音频特征矢量,利用一种简单的加权综合方法把它们结合起来。在一个实验里,采用这种方法来预测5种MIREX心情类别中的一种。在第二个实验里,采用这种方法来预测V-A心情空间4个象限中的一个。说明每条音轨基本事实的依据是人工确定的(特定的)制图法,其中在一个V-A象限上分布着178个心情标志之一和一种MIREX心情类别。在两个实验里,结果证实多模式方法的操作效能好于单纯基于标志的和单纯基于音频的方法。
7.3&& 综合音频和图像
最近,在音乐讯息检索任务里,结合相关图像(唱片封面,艺术家相片等)来分析音乐的音频特征这种新动向已经激发起非常大的研究兴趣。Dunker等人调查了各种用于心情分类的音乐和图像的综合方法。他们的工作调查了某种多媒体标志方法里音频配合图像的分类情况,并试图把已经分别作了标志的音频和图像配对。新近,Libeks和Turnbull利用基于内容的图像注释分析了某些艺术家的宣传像片。虽然他们用风格标志(由Last.fm提供)来标示这些艺术家,但是应该直接把他们的方法改造成利用情感标志。
认识音乐情感仍然是个难题,主要是由于人类情感的内在模糊性。虽然此课题的研究并不象其它音乐讯息检索任务那样成熟,然而很清楚,此领域正在迅猛发展。过去5年里,利用大量注释和基于内容的特征(和多模式特征组合)来运行的音乐情感认识自动系统已经取得显著进展。而许多音乐讯息检索任务的所有层面上,从情感表示和注释方法到特征选择和机器学习,仍然存在某些开放性问题。
尽管已经取得显著进展,最精确的系统迄今实现的预测仍应用相对短的音乐选样,经由大规模机器学习算法运行在庞大特征集合上,有时涵盖多领域。在激励音乐情感(即,不同特征的作用)体会的基本力量方面,特别是,音乐的情感如何随时间变化,这种方法时常揭示很少。未来,我们期望音乐讯息检索研究人员,心理学家,和神经科学家加强合作,这就可能导致不仅对音乐内含的心情而且对人类的普遍情感有更大的理解。此外,很清楚,各个人感受音乐内含的情感各不相同。给定现有的多种方法来为音乐心情的模糊性构造模型,一个真正个性化的系统应该好象需要结合某些方面的个人形象来调整其预测。
本文已经对音乐情感认识的科技进展作了广泛的调查,着重于许多未来研究的远景方向。随着对此问题关注度的增加,我们希望这方面研究的进展在不远的未来将继续加速。
译自& 11th International Society for Music
Information Retrieval Conference(ISMIR2010)删除图形及其说明。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 matlab特征提取 的文章

 

随机推荐