搜索 Search
采样合成 “采样”一次是由已有的概念数字样本(samples)以及采样率(sampling rate)的概念衍生而来的。不管是否带有琴键,采样乐器(sampling instruments)已非常普遍。所以采样乐器设计都围绕着一个基本理念,是使其能将先期录制的声音移到期望的音高上回放出来。 采样系统不是由一小段固定波表中读取一个波形周期,而是读取一个大的波表,里面有数千个单独周期,即几秒钟的先期录制声音。由于采样波形在声音事件的起冲、延留、衰减等不同部分的变化,所以能得到丰富且随时间变化的声音。我们随意决定采样波表的长度,唯一可以限制是采样器的存储容量。大部分采样器提供光盘或磁盘驱动的接口,可以迅速地将很多采样加载到采样器内。 具体音乐与采样:背景 20世纪40年代后期在变速唱机上的实验后,皮埃尔·舍费尔在1950年间,于巴黎成立具体音乐工作室。他与皮埃尔·亨利开始使用磁带录音机录制并制作具体声音。具体音乐(musique concrète)所指的,就是使用麦克风录下的声音,而不是在纯电子音乐中使用的合成手段生成的声音。但该词同时也指用声音来操作的一种作曲方式,具体音乐作曲家是直接用声音对象来作曲的。它们的作品需要新的图示记谱法,而不属于传统交响乐记谱的范畴。 Fairlight Computer Music Instrument(CMI)是第一个商用键盘采样器(1979年,澳大利亚)。 循环 循环可将键盘上播放的采样声源延长,如果音乐家按着琴键,采样器会“无接缝的”读取此声音,直到放开键盘为止。这可由指定采样循环的开始点与结束点来实现。在音符的起音结束后,采样器会重复读取波表中的循环部分,直到放开琴键,接着播放此音符波表的完结部分。 制造无接缝而自然的传统乐器取样需要格外小心。循环应从音符起音后开始,在衰减之前结束。 一个循环的开始点与结束点可以在两者共同的取样点上直接叠接(spliced),或用交互淡出(crossfaded)方式连接。叠接是从一个声音直接切到另一个声音。波形叠接会在切点上造成噼啪声,除非循环开始点与结束点恰好相配。交互淡出表示循环的末端会逐渐渐出,而循环前段再缓慢渐入;交互淡出的程序会在按住琴键时一遍一遍重复。 音高移位 在廉价采样器上,可能无法储存原始乐器演奏的每个音高。这些采样器在每三到四个半音间储存一个声音,从邻近的音高移位后得到中间的音高。如果你自己录下一个声音,存到采样器内存内,再按下不同的琴键播放之,采样器也运用了相同的音高移位技巧。简单的音高移位的副作用是,由于所按琴键不同,声音延长的时间长短不一。 音高移位的方法:两种方法都称为时域(time-domain)技术,因为他们都直接操纵时域上的波形。这与频域(frequency-domain)音高变移技术不同。 用恒定的采样播放频率方式获得取样率转换的音高移位。(上图)如果在播放时,每隔一个采样就略过一次的话,信号会被抽取,音高就会向上移动一个八度。(下图)如果在播放时用插值的方式使采样数量增加一倍,信号就会向下移动八度。
采样 获取样本的速率即采样频率(sample frequency),以每秒的采样数标示。这是数字音频系统中很重要的规约。采样频率常被称为采样率(sample rate),以赫兹表示。 模拟信号的重建 数字信号并没有显示柱形之间的值。一个柱形的持续性极窄,可能只持续0.00002秒(十万分之二秒)。这就意味着如果一个原始信号在柱与柱“之间”变化的话,这个变化并不会体现在柱形的高度上,至少等到获得下一个采样。专业术语称图1.3b中的信号是离散(discrete)时间定义的,每一个这样的时间由一个采样(垂直柱形)来表示。 数字声的一个神奇之处就在于,如果这信号是带宽受限的,那么DAC以及附属的硬件就可以根据采样精确地重建原信号!这就意味着,在一定条件下,在“采样之间”丢失的信号可以被复原。这在数字经过DAC和平滑滤波器时会发生。平滑滤波器在离散样本之间“连接各点”。由此,一个扬声器的信号看上去和听起来就像原信号一样。 混叠(迭影) 图1.6g表示一个每10个采样有11个周期的波形。这个关系也可以表示为每个采样为11/10个周期。 在图1.6i中,重新合成的波形则在极为关键的方面与原始信号大相径庭。即重新合成的波形的波长(循环的长度)与原始波形的波长不同。这一类错位被称为混叠(aliasing)或迭影(foldover)。 发生混叠时的频率是可以预计的。假设,尽量取简单的数字,我们每秒取1000个采样,那么,图1.6a中的信号就是每秒125个周波的频率(由于这里每周波有8个采样,即1000/8=125)。 * 1.16d, the signal has a frequency of 500 cycles per second (because 1000/2 = 500). *在图1.6d中,信号的频率是每秒500周波(因为1000/2=500)。 图1.6g中的原始信号的频率就已经被采样率转换(sample rate conversion)的过程改变了,而这对于音乐信号而言是不可接受的改变,必须尽量避免。 采样定理 只要原始波形的周期有不少于2个采样,我们就可以假定重新合成的波形会保持同样的频率。当每个周期少于2个采样,原始信号的频率(或音质)就会丢失。 假定我们将一个26kHz的模拟信号引入一个工作频率为50kHz的模拟-数字转换器中,转换器读取的是24kHz的音,因为50-26kHz=24kHz。 采样定理描述采样率与被传递信号带宽之间的关系。 采样定理的要旨可以简述如下:“为了能够重建一个信号,采样频率必须至少2倍于采样信号的频率。” 最高频率(采样率的一半)被称为“奈奎斯特频率”(Nyquist frequency)。这运用在音乐中,奈奎斯特频率通常是人耳所能听见的最高频率,超过20kHz。这样,采样频率即可设定在至少2倍,即40kHz。 理想采样频率 很多人在听20kHz范围内的信息(称为“空气”)时受听力限制(Neve 1992)。的确如此,鲁道夫·科尼格(Rudolf Koenig)在年届41岁时,他发现自己的听力已经延伸到23kHz(Koenig 1899)。看来奇怪,新数字压缩光盘应该比20世纪60年代发明的留声机录音设备的带宽更窄,一个新型数字录音机也应该比20年老的模拟磁带录音机更窄。很多模拟系统可以生成超过25kHz的频率。科学试验也从物理学和主观观点联方面验证了22kHz以上的声音效果。 在声音合成的运用中,在44.1kHz标准采样频率下缺乏“频率净空”会产生严重问题。这要求合成算法只生成11kHz(44.1kHz采样率)或12kHz(48kHz采样率)以上的正弦波,否则就会产生迭影。这是由于任何带有基音以外分音的高频分量含有超过奈奎斯特速率的频率。例如,12.5kHz的音高,其第三谐音是37.5kHz,这在一个以44.1kHz采样率运行的系统中会被反落到可听见的6600Hz音。在采样和音高移位的应用中,频率净空的缺乏要求样本在向上调变之前通过低通滤波器。这些限制加强的麻烦带来了不便。 抗混叠与镜像滤波器 两个重要的滤波器确保数字声音系统正常工作。一个放在ADC之前以确保输入信号中不包含任何(或越少越好)高于一半采样率的频率。只要这个滤波器正常工作,那么录制过程中就不会产生混叠现象。所以,这个滤波器就很逻辑地被称为“抗混叠滤波器”(antialiasing filter)。 另外一个滤波器被放置在DAC之后,主要的功能是将数字化储存的采样转化为平滑而连续的信号加以呈现。
声音的模拟表示法 留声机唱片的凹槽的两壁上包含着储存在唱片中声音的连续时间表示(continuous-time representation)。当你把一个模拟录音复制到另一个模拟录音时,拷贝永远不会和原始录音一样好。从本质上说,生成或复制数字声涉及将一连串数字转换为我们刚刚讨论过的某种时变性的变化(time-varying changes )。 模拟,数字转换 我们先看一下数字录音到重放的过程。与模拟环境中的连续时间信号不同,数字录音处理不连续时间信号(discrete-time signal)。麦克风感应气压的变化并转化成电压,电压经线路通过模拟一数字转换器(analog-to-digital converter),通常缩写为ADC(读为A-D-C)。这个设备将电压在每一个采样时钟(sample clock)周期上转换为一连串二进制数(binary numbers)。这些二进制数则被储存在数字录音介质,一种储存器之上。 二进制数 与采用由0到9这10个数字额的十进制(或以10为基)不同,二进制(或以2为基)只采用2个数字,0和1。比特(bit)一词是二进制数字(binary digit)的缩略语。 在一种录音媒介中将比特进行编码的物理方法有赖于那种媒介的属性。例如,在数字磁带录音机上,1可能表示为一个正磁荷,而0则表示无磁荷。这与模拟录音带录音不同,后者以连续变化的脉冲来表示。在光学介质上,二进制数据可能被编码为特定位置上的反射比的变化。 数字,模拟转换:简称DAC(发音为“dack”)。 简而言之,我们可以将空气里的声音变为可以被数字化储存的一连串二进制数字。这一转换过程的中心构件时ADC。当我们希望再次听到声音的时候,DAC就可以把那些数字变回声音。 数字录音与MIDI录音 当MIDI音序器通过键盘记录下人的行为,实际上只有相对很少的控制信息键盘传输给音序器。MIDI并不传输声音的采样波形。 例如一个在小型计算机上运行的48轨MIDI音序器录音程序的价格大约是100美元,允许处理每秒4000字节。相比之下,一个48轨数字磁带机则上万美元,每分钟可处理4.6M字节的音频信息,是MIDI数字率的上千倍。 数字录音的优势在于,它可以捕捉包括人声在内的任何麦克风能够捕捉的声音。MIDI音序器录音则仅限于录制对一系列音符时间指示其开始、结束、音高和振幅的控制信号。如果你将MIDI电缆从音序器接入一个与最初演奏该音序的合成器不一样的另外的合成器,出来的声音就可能完全变了。
频率 声音由一个音源发出通过空气传递到听者耳中。听者之所以能听到声音是由于气压在耳朵里起的微妙变化。如果这压力按照一定的重复模式在变化,我们说这声音有周期性波形(periodic waveform)。如果没有可以辨识的模式,那么就称噪音(noise)。在这两个极端之间是半周期声音与准噪音的广大区间。 周期性波形的一个反复称一个周波(cycle);波形的基频(fundamental frequency)指每秒钟发生的周波的数量。我们用Hz指代“每秒周波”(“cycles per second”)。(Hz是Hertz的缩略,以德国声学家Heinrich Hertz的名字命名。) 时域表示 一种描述声音波形的简单方法是绘制一张以空气压力对应时间的坐标图,称为时域(time-domain)表示。 频域表示 除了基频,在一个波形中还可以呈现很多频率。一个频域(frequency-domain)或频谱(spectrum)表示可以显出声音的频率内容。频谱的单一频率分量可称为谐波(harmonics)或分音(partials)。谐波频率是基频的简单整数倍。更常规地说,任何一个频率分量都可以称为一个分音,无论它是否是基频的整数倍。事实上,很多声音并没有独特的基频。 相位 在y轴或振幅轴上的周期性波形的起点就是它的初始相位(initial phase)。例如,一个典型的正弦波始于0振幅点,一个循环后止于0。如果我们将水平轴上的起始点置换为π/2(或90度),那么,正弦曲线波就将在振幅轴上起始于1并止于1。按常规,这被称作余弦波。实际上,一个余弦相当于一个90度相位移(phase shifted)的正弦波。 当两个信号始于同一点时,就称为同相(in phase)或对准相位(phase aligned)。与此形成对照,那些相对于另一个信号略有延迟的信号,我们称这两个信号为异相(out of phase)。当信号A和另一信号B的相位正好相反(错位180度,故信号A的每一个正值都对应信号B的一个负值)。
实验性数字录音 采样(Sampling)是数字录音的核心概念,即将连续的模拟信号(例如来自麦克风的信号)转化为非连续性时间取样信号(time-sampled)。采样的理论基础是采样定理(sampling theorem),它特别规范了采样率与音频带宽之间的关系。虽然这一定律在贝尔电话实验室的H.奈奎斯特的工作之后也被称为奈奎斯特定律(Nyquist 1928),不过,该定律的另一种形式则在1841年即由法国数学家A.柯希率先提出。英国研究者A.里维斯开发出并注册了专利的第一个脉冲编码调制系统(Pulse-code-modulation, PCM)以“振幅对分,时间量化”的(数字)形式传递信息。 面向公众的数字声 数字化声音在1982年通过压缩光盘(CD)的形式,一个由激光束对于读取的12厘米光学碟片,最初抵达普通大众。 适合音乐家的数字声 虽然CD机本身拥有价钱不高的16比特数模转换器,但1988年前,配置有高品质转换器的计算机并不普遍。在此之前,尽管少数计算机音乐中心等机构也特制了模数转换器和数模转换器,个人电脑系统的用户却还得等待些时日。 数字多轨录音 与立体声录音这种左右声道同时录制的方式有所不同,多轨录音机(multitrack recorder)拥有分立的各个声道(channel)或音轨(track),可以在不同的时间分别录制。例如,每个音轨可以录制一个单独的乐器,这样就使稍后各轨的混音留有余地。
MySQL (beta) at CHEARSdotinfo.co.uk Sample Libraries Since a sampler is a type of recording system, the quality of the samples depends on the quality of the recording techniques. Making high-quality samples requires good players with fine instruments, excellent microphones, and favorable recording environments. An Assessment of Samplers In any case, it is understandable that the "naturalness" or "realism" of a sampler should be held up as a criterion for judging between different brands. It is well known that a given instrument tone may sound much more realistic on one sampler than it does on another. In expressive instruments like voices, saxophones, sitars, guitars, and others, each note is created in a musical context.In addition to these contextual cues, transitional sounds like breathing, tonguing, key clicks, and sliding fingers along strings punctuate the phrasing. Constraints of style and taste determine when context-sensitive effects such as rubato, portamento, vibrato, crescendi and diminuendi, and other nuances are applied. These problems can be broken into two parts: (1) How can we model the sound microstructure of note-to-note transitions? (2) How can we interpret (analyze) scores to render a context-sensitive performance according to style-specific rules?
MySQL (beta) at CHEARSdotinfo.co.uk * Phase The starting point of a periodic waveform on the y or amplitude axis is its initial phase. For example, a typical sine wave starts at the amplitude point 0 and completes its cycle at 0. If we displace the starting point by 2π on the horizontal axis (or 90 degrees) then the sinusoidal wave starts and ends at 1 on the amplitude axis. By convention this is called a cosine wave. In effect, a cosine is equivalent to a sine wave that is phase shifted by 90 degrees. In phase:two signals start at the same point. Out of phase:a signal that is slightly delayed with respect to another signal, in which the two signals. 180 degrees out of phase: A is the exact opposite phase of another signal B. * Importance of Phase A filter phase shifts a signal(by delaying its input for a short time) and then combines the phase-shifted version with the original signal to create frequency-dependent phase cancellation effects that alter the spectrum of the original. Phase is also important in systems that resynthesize sound on the basis of an analysis of an existing sound. In particular, these systems need to know the starting phase of each frequency component in order to put together the different components in the right order. Finally, much attention has been invested in recent years to audio components that phase shift their input signals as little as possible, because frequency-dependent phase shifts distort musical signals audibly and interfere with loudspeaker imaging. (Imaging is the ability of a set of loudspeakers to create a stable "audio picture" where each audio source is localized to a specific place within the picture.) Unwanted phase shifting is called phase distortion. To make a visual analogy, a phase-distorted signal is "out of focus."