解释为什么没写文之二:人工智能与音乐讲稿

月之暗面 2005-1-16 23:55

浅论人工智能在音乐领域的几个发展方向(讲稿,还有一份演示PPT)

今天我的主题是浅论人工智能在音乐领域的几个发展方向。

首先我想引用《数字化生存中》中的几段话来说明一下计算机与音乐的关系。计算机对于音乐来说并不是一个简单的储存或者是传播工具，从后面的介绍中我们就可以发现，计算机与音乐其实有相当深厚的关系，甚至创造一段乐曲和构造一段程序在方法上也有异曲同工之处。

而在正式介绍人工智能在音乐领域的作用之前，我想先就自己的想法说一下人工智能会被应用于音乐领域的两个前置。一是电脑格式音乐的广泛流传。二是电脑技术在教育与创造领域的辅助作用的广泛应用。

电脑格式音乐的广泛流传一是得益于电脑格式音乐便于储存和传播，而为了将其他格式的音乐作一转化，就有了简单的音乐编辑软件，由此更进一步有了更加专业的音频编辑软件。
由简单的聆听到专业的处理，这一步步的发展应当说是得益于竞争激烈的播放器市场，各商家为了争夺用户，纷纷推出更加多样的界面和制作界面的软件，然后就是简单的处理功能，在音乐这个灵性空间里，自由是一切创作的起始点。
这些播放格式大家应当都有了解，这些软件大家也应当都使用过，大家可以看一下WINAMP和MEDIA PLAYER用户自己制作的界面。

音频的播放和转换我想大家都应该了解，我今天带来演示的是一段从DVD转录的VCD中抽取的一段音乐，软件界面如下，大家可以看到这个软件界面非常简单，事实只有输入文件路径和输出文件路径还有选择格式三个步骤，比较专业的音频数据处理用户不需理会。我想正是因为这类操作简单的软件才影响了越来越多的人进行电脑音乐的入门和研究。

以下是比较专业的音拼操作软件的介绍，大家可以稍微了解一下。这些软件都是以波频图为基础进行音乐处理，所以不管是对于电脑的操作还是音乐基础都有一定的要求。

从个人的音乐处理编辑到更加公众化的音乐创作等实际应用领域，中间的的过渡阶段就是教育与辅助创作。
在音乐教育方面，大家可以回想一下学校中的音乐欣赏课程，假如使用电脑多媒体设备代替音响和CD唱片的话，将可以使用更立体化的教学环境对学生进行音乐方面的熏陶，比如说，在播放音乐的时候可以用文字介绍作曲家的生平，或者用图象来加深音乐作品的意境。
至于乐理教育，我想举我自己的例子，我在钢琴考级的时候同时也有进行过乐理方面的学习，而当时有一项作业就是构造和弦，老师给一些基本音然后我们就在这个基础上构造从小二度一直到纯八度的十几种和弦，一次作业的量大约是几百个和弦，时间在三小时左右，而如果使用电脑软件来构造和弦的话，不但是节省时间与精力的问题，更重要的是电脑可以即时把和弦以模拟的钢琴声播放出来，这就不单是从纸上可以明白和弦的结构，更重要的是可以了解和弦的和声效果，对于一个音乐学习者，尤其是初学者来说，五线谱上的音符其实不是最重要的，了解声音的构成才是培养乐感的重要步骤。

最后要稍微提一下的部分是辅助创作的软件，它们基本有以下几种功能。素材的收集是指软件本身就集成了大部分的著名乐曲素材及各种格式的谱子，用户可以方便地在素材的基础上进行再编辑。而后三种基本都只能在MIDI这种电子格式的电脑音乐格式上实现，而对于其他格式的复杂的音乐格式上则无能为力。

当辅助创作软件相对成熟以后，人们自然而然就会考虑到是否能由电脑自己来进行一些更有创造性的工作，由此正式把人工智能技术引入了音乐领域。
现在我们就正式进入人工智能的介绍。
大家可以看一下这张照片，这是04年3月日本索尼公司的机器人在东京音乐会彩排上的指挥。由此可见人工智能目前在音乐领域已经造成了一定的影响。

从这个DJ机器上可以看出电脑辅助技术和自行创作乐曲之间的过渡。这个机器DJ的优势在于乐曲的储存量和打碟的速度，这都不是人类的DJ可以做到的。但是它被批评的没有创造力和个人风格和情感，类似的更尖锐评价我们还可以在后面的关于电脑作曲的部分看到，这可以看作是最早的对于人工智能参与创作时的反对意见。

目前人工智能几个主要的发展方向是电脑作曲，自动识谱和自动伴奏，和情感计算。
电脑作曲是这个领域比较早开始的方向，但是目前已进入瓶颈阶段，并且一部分人员已转向自动识谱和自动伴奏的领域，而情感计算是目前最新的方向，只有大概的设想，并没有很具体的研究成果。
在讨论电脑作曲的问题上，首先我要给出“曲式”的概念，就象编写程序时有“语句”这个概念一样，作曲时也有一个基本单位就是“曲式”的概念，曲式是音乐在时间上的结构
音乐在时间上的延续，无论长短，两三分钟或两三小时，都必须有一个结构框架，而不能是混沌一片。这种结构框架，就称之为“曲式”。简单地说，即使没有经过正式音乐教育的人，也应当听得出在一段乐曲中有一段不断重复的主题旋律，这个主题旋律就是这段音乐的“曲式”。
音乐的风格不同本质就是曲式的不同，曲式的分类有几种，
一是以国家分。
西方音乐以七音为一个音节，中国则是宫商角雉羽的五音，日本则是比中国多了几个特殊的音阶：琉球音阶/都节音阶/律旋音阶，这些就是造成各国音乐风格迥异的原因。
二是按复杂度分，这是相对正规的分法。基本的有一部曲式/二部曲式/三部曲式，一部曲式就是由一段基本旋律组成的曲式，在民歌中多见，二部曲式是两段旋律，三部曲式则是两段，而三部曲式还可以在结构上加以变化形成变奏曲式等。
当然最复杂的是以作者分类的曲式，对于每个作曲家来说，他的作品，即使是在不同的时间完成，仍会带有他自己特殊的风格，这种风格也是由他独特的曲式来表现。而风格正是作曲家的灵魂。

这里例举了巴赫的键盘音乐风格让大家对于曲式风格有更明确的了解。
5个特性

人作曲的过程大致是这样一个流程。
构建基本曲式
以曲式为基准，考虑是否需要多重主题
以多种手法安排后续的乐章，重覆、倒裝、变奏还有与副主题的镶嵌
不同的乐曲有不同的结构要求
最后一点是因为音乐作品有他自己的规则结构，比如奏鸣曲大致是3-4个乐章，每个乐章有自己特定的风格要求，这些规则基本是不能违背的，即使是单乐章的乐曲，它也有自己的结构要求，就象一个可运行的程序有自己必须遵守的语法规则一样。

而电脑作曲也是在模拟这个过程的基础上进行的。
1 利用”好聽”音樂的統計特性，由作曲者決定大概曲式後，即由電腦依據演算法或規則隨機選擇音符，完成樂曲
2 以人工智慧中的機器學習(Machine Learning)理論，學習某一音樂家的曲風(Style)，進而作出模仿該音樂家的曲子

以第一种方式完成的乐曲素材没有找寻到，而第二种则已有CD出版。

对于电脑作曲，反对的声音则是从一开始就有。除去由科学家统计的，在人工智能涉及的10个领域，最成功的是下棋，最失败的是作曲。这个最失败除去因为电脑在作出符合人类审美要求的音乐上比较薄弱之外，更因为音乐创作本身就是一种表现人类灵性的行为，中国有句古诗，谁能思不歌，谁能饥不食，音乐和诗歌都是表达人类的真挚情感的艺术行为，而电脑创作本身就违背了这最基本的一条。
关于电脑创作音乐的讨论我没有找到相关材料，我找到的是关于电脑诗歌的讨论，这是去年在一些媒体刊登了电脑做的现代诗后，一位相关人员与台湾学者针对这点进行的讨论节录。
请大家注意这两段：人为什么写诗呢﹣﹣有感而发，机器又为什么呢﹣﹣文字游戏吧了！今之电脑作诗、绘画、作曲，无论好坏，终究是程式分析师及程式写作者的能力表现。与任一个应用软体的好坏没有差别，谈不上什么新课题。阁下若以为电脑“看”到月亮，就会兴起「低头思故乡」的情怀，那是人脑不清了；若电脑看到月亮，无能兴起「不应有恨，何事长向别时圆」的感叹，无病呻吟的东西，好得起来吗？

因为这一点，有一部分学者就转向了自动识谱和自动伴奏。自动识谱和我前面提到的对于MIDI音乐的输入能直接画出相应谱子的识铺不同，这里所说的自动识谱是指在输入完全自然的复杂音乐比如交响乐等时，能辨认出不同的乐器和不同的主题。而自动伴奏则是在这个基础上对于输入的固定主题能够自动使用其他乐器进行伴奏，目前已经有当场可以进行伴奏的口琴等，当然有一部分学者认为这才是电脑作曲的前景，这种辅助能够大大减轻作曲家在创作一些复杂音乐时的工作量。

以下是我从一个台湾学者的站上找寻到的他和他的学生的研究成果。
第一张是以不同的波频和音色来辨认不同乐器的旋律，第二张则是以和弦为基础辨认不同的曲式。

最后要讲的是刚起步不久的情感计算。
在讲电脑的情感计算前先要说一下音乐与人类的感觉的关系。
当人们感受各种音响时，会不自觉的把这些听觉感受和其它非听觉器官的感受联系起来，这种现象常被称为“联觉”，用格式塔心理学派的观点属于一种“异质异构多一同态对应” 现象。这是人类和其它动物在适应自然的长期进化过程中，以及人类在几千年的社会活动中，通过先天遗传和后天积累逐渐形成的。
而不同的人在听同样的音乐时会有大致相同的感觉，比如高音区的音符经常和明亮的视觉感受、积极或快乐的情态感受等联系在一起，低音区的音符经常和昏暗的视觉感受、消沉或哀伤的情态感受等联系在一起；假如能让电脑也能产生同样的感情信号，就是人工智能中的情感计算。

但是在所有的艺术形式里，音乐可说是最抽象的一种，因为它本身并没有传达很具体的东西，而一样的音乐对于不同的欣赏者而言，传达出的讯息并不完全相同，这跟欣赏者本人的经历和教育环境等等都有关系，正因为如此，这也是情感计算发展非常缓慢的原因，因为电脑对于任何不能确认的东西都是比较无能为力。

所以在这方面我没有找到什么具体的论文或者材料，唯一的资料就是以下这段。
情感計算的目的為讓電腦感知人類情感，並能表現適當情感，增進人類與電腦溝通的效率。如果電腦與使用者對音樂有相同的情感認知，便有可能讓電腦與使用者借助音樂協助溝通，彷彿電影”第三類接觸”中人類與外星人之間的音樂對話。
而使用最方面技术最能得到帮助的，除去真正意义上的电脑作曲外，还有就是音乐检索，目前以有的音乐检索功能是使用音乐辨认功能，使用一段旋律将整首乐曲寻找出来，但是情感计算却可以分辨出使用者所喜欢的那一类音乐，同时提供相关的信息。

总结：
任何技术的存在都是为了将人类从不必要的多余劳动中解放出来，人工智能在音乐领域内的作用亦是这样，它将帮助人类进行更有创造力的工作，以前的作曲者在一部交响乐正式上演时只能使用几部钢琴的模拟来知道乐曲的效果，但是这个缺陷将很快能使用电脑技术来补足，这将使音乐创作的可行性提到更高。
同时，在任何以灵感为主旨的艺术领域内，电脑技术能够提供我们的就是自由，自由地接受与自由地再创作，这是电脑格式音乐诞生的那刻就已决定的事情。

其他的图片资料也就不贴了，就现现我几个作演示用的WINAMP SKIN算了

图片如下：