�(yǔ)音識(shí)�和語(yǔ)音技�(shù)是實(shí)�(xiàn)人機(jī)�(yǔ)音通信,建立一�(gè)有聽和講能力的口�(yǔ)系統(tǒng)所必需的兩�(xiàng)�(guān)鍵技�(shù).�電腦具有類似于人一樣的�(shuō)話和聽懂人說(shuō)話的能力,�90年代信息�(chǎn)�(yè)的重要競(jìng)�(zhēng)市場(chǎng).和語(yǔ)言�(shí)別相�,�(yǔ)言合成的技�(shù)相對(duì)�(shuō)�(lái)要成熟一�,是該�(lǐng)域中近期最有希望產(chǎn)生突破并形成�(chǎn)�(yè)化的一�(xiàng)技�(shù)�
�(yǔ)音技�(shù)方式講可分為波形編輯合成、參�(shù)分析合成以及�(guī)則合成等三種�
波形編輯合成,這種合成方式以語(yǔ)�、短�(yǔ)、詞或音節(jié)為合成單�,這些單元被分別錄音后直接�(jìn)行數(shù)字編�,�(jīng)適當(dāng)?shù)�?shù)�(jù)壓縮,組成一�(gè)合成�(yǔ)音庫(kù).重放�(shí),根據(jù)待輸出的信息,在語(yǔ)料庫(kù)中取出相�(yīng)單元的波形數(shù)�(jù),串接或編輯在一�,�(jīng)解碼還原出語(yǔ)�.這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統(tǒng)�(jié)�(gòu)�(jiǎn)�,�(jià)格低�,但合成語(yǔ)音的�(shù)碼率較大,存儲(chǔ)量也�,因而合成詞匯量有限�
參數(shù)分析合成,這種合成方式多以音節(jié)、半音節(jié)或音素為合成單元.首先,按照�(yǔ)音理�,�(duì)所有合成單元的�(yǔ)音�(jìn)行分�,提取有關(guān)�(yǔ)音參�(shù),這些參數(shù)�(jīng)編碼后組成一�(gè)合成�(yǔ)音庫(kù);輸出�(shí),根據(jù)待合成的�(yǔ)音的信息,從語(yǔ)音庫(kù)中取出相�(yīng)的合成參�(shù),�(jīng)編輯和連接,順序送入�(yǔ)音合成器.在合成器�,通過(guò)合成參數(shù)的控�,將語(yǔ)音波形重新還原出�(lái)�
�(guī)則合�,這種合成方式通過(guò)�(yǔ)音學(xué)�(guī)則來(lái)�(chǎn)生目�(biāo)�(yǔ)�.�(guī)則合成系�(tǒng)存儲(chǔ)的是較小的語(yǔ)音單�(如音素、雙音素、半音節(jié)或音節(jié))的聲�(xué)參數(shù),以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)�.�(dāng)輸入字母符號(hào)�(shí),合成系統(tǒng)利用�(guī)則自�(dòng)地將它們轉(zhuǎn)換成連續(xù)的語(yǔ)音波�.由于�(yǔ)音中存在�(xié)同發(fā)音效�(yīng),單獨(dú)存在的元音和輔音與連續(xù)�(fā)音中的元音和輔音不同,所�,合成�(guī)則是在分析每一�(yǔ)音單元出�(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效�(yīng)�,歸納其規(guī)律而制定的如共振峰頻率�(guī)則、時(shí)�(zhǎng)�(guī)�、聲�(diào)和語(yǔ)�(diào)�(guī)則等.由于�(yǔ)句中的輕重音,還要?dú)w納出�(yǔ)音減縮規(guī)��
1. 提高合成�(yǔ)音的自然�
提高合成�(yǔ)音的自然度仍然是高性能文語(yǔ)�(zhuǎn)換的�(dāng)�(wù)之�.就漢�(yǔ)�(yǔ)音合成來(lái)�(shuō),目前在單字和詞組一�(jí)�,合成�(yǔ)音的可懂度和自然度已基本解決,但是到句子乃至篇章一�(jí)�(shí)其自然度問題就比較大. -----基于�(yǔ)音數(shù)�(jù)�(kù)的語(yǔ)音合成方法有望�(jìn)一步提高語(yǔ)音合成的自然�. �?yàn)檫@是一種采用自然語(yǔ)音波形直接拼接的方法,�(jìn)行拼接的�(yǔ)音單元是從一�(gè)�(yù)先錄下的自然�(yǔ)音數(shù)�(jù)�(kù)中挑選出�(lái)�,因此有可能限度地保留�(yǔ)音的自然�.但由此產(chǎn)生了一系列新的需要研究的問題,包括:如何確定�(yǔ)音合成的基元,根據(jù)什么準(zhǔn)則去挑選合適的基�;韻律參數(shù)定量化問�,�(duì)�(shù)�(jù)�(kù)�(jìn)行定�(biāo)問題;以及如何將統(tǒng)�(jì)的方法和�(guī)則方法相�(jié)合使�(jī)器能自動(dòng)�(fā)�(xiàn)和找出所需的語(yǔ)音單�,保證的合成語(yǔ)句自然度等等. -----�(wú)論用哪種合成方法,韻律�(guī)則的總結(jié),特別是連續(xù)�(yǔ)音的韻律�(guī)則總�(jié),盡可能將定性的�(guī)則描述定量化,�(duì)自然度始終有最重要的影�.還有前端文本處理, �(duì)合成�(yǔ)音的自然度也具有舉足輕重的影�, 完整全面的解�, 需要自然語(yǔ)言理解的突破�
2 豐富合成�(yǔ)音的表現(xiàn)�
目前�(guó)�(nèi)外大多數(shù)�(yǔ)音合成研究是針對(duì)文語(yǔ)�(zhuǎn)換系�(tǒng),且只能解決以某種朗讀�(fēng)格將書面�(yǔ)言�(zhuǎn)換成口語(yǔ)輸出,缺乏不同年齡、性別特征及語(yǔ)氣、語(yǔ)速的表現(xiàn),更不用說(shuō)賦予�(gè)人的感情色彩.隨著信息社會(huì)的需求發(fā)�,�(duì)人機(jī)交互提出了更高的要求,人機(jī)口語(yǔ)�(duì)話系�(tǒng)的研究也提到了日程上.即語(yǔ)音合成研究已開始從文字到�(yǔ)音的�(zhuǎn)換階段向概念到語(yǔ)音的�(zhuǎn)換階段發(fā)�.這不僅對(duì)�(yǔ)音合成技�(shù)提出了更高的要求,而且涉及到計(jì)算機(jī)�(yǔ)言生成,涉及人類大腦的神�(jīng)活動(dòng).但就�(yǔ)音合成來(lái)�(shuō),仍是一�(gè)要豐富合成語(yǔ)音的表現(xiàn)力問�.相對(duì)�(lái)�(shuō)采用波形拼接方法�(lái)增強(qiáng)合成�(yǔ)音表�(xiàn)力比較困�,盡管也可以通過(guò)增加音庫(kù)容量和音�(kù)�(gè)�(shù)�(lái)�(dá)到改變合成語(yǔ)音的特�,但畢竟它�(duì)韻律的控制能力非常有�.更為有效的辦法是采用參數(shù)合成�,分析參數(shù)特征,通過(guò)�(duì)相關(guān)參數(shù)的調(diào)整來(lái)�(shí)�(xiàn)�(duì)年齡、性別特征的改�,�(jìn)一步實(shí)�(xiàn)�(yǔ)氣、語(yǔ)�(diào)的變�,由于這種改變是連續(xù)�,�(duì)象特征可以千千萬(wàn)�(wàn),顯得更有生命�.近年�(lái)提出的基于LMA(�(duì)�(shù)振幅近似)技�(shù)的語(yǔ)音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被證�(shí)是一些新穎的能合成出高質(zhì)量語(yǔ)音的參數(shù)合成方法,為此�(yīng)繼續(xù)深入這方面的研究,以期在參�(shù)合成技�(shù)上取得突��
3 降低�(yǔ)音合成技�(shù)的復(fù)雜度
�(yǔ)音合成技�(shù)正在走向市場(chǎng).為了適應(yīng)社會(huì)的需�,�(kuò)大文�(yǔ)合成的應(yīng)用場(chǎng)�,除了解決好上面兩�(gè)問題,提高合成�(yǔ)音的�(zhì)量和增強(qiáng)�(yǔ)音合成的表現(xiàn)力以�,在其他實(shí)用化方面也有要加以改�(jìn)的地�.就目前漢�(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng)而言,減小音庫(kù)容量就是一�(gè)重要課題.目前高質(zhì)量的漢語(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng)一般需要幾兆字節(jié)到幾十兆,甚至幾百兆字節(jié)的存�(chǔ)容量,這在以PC�(jī)或工作站為硬件平�(tái)的應(yīng)用中是沒有問題的,而對(duì)于象HPC, PDA及無(wú)線通信手機(jī),商務(wù)通等資源有限的設(shè)備上就沒法承�.解決的方法可以是通過(guò)�(yǔ)音壓縮編碼的方法�(lái)壓縮音庫(kù)所需的容�,或者采用更小的合成基元,例如用聲母、韻母或雙音�、半音節(jié), 以及減少合成�(yǔ)音所需的音節(jié)基元�(shù)等等.然而又不能增加算法的復(fù)雜度,�?yàn)檫\(yùn)算量及系�(tǒng)開銷同樣�(huì)直接影響漢語(yǔ)�(yǔ)音合成的�(yīng)�.既要提高�(yǔ)音合成的�(zhì)�,又要降低�(yǔ)音合成的�(fù)雜度,這始終是一�(gè)矛盾的兩�(gè)方面�
4 多語(yǔ)種文�(yǔ)合成
�(yǔ)言是人們交流的工具,不同民族有自己不同的�(yǔ)言,不同�(yǔ)言之間的交流在今天開放的信息社�(huì)和網(wǎng)�(luò)�(shí)代顯得十分重�,多語(yǔ)種的文語(yǔ)合成有著�(dú)特的�(yīng)用價(jià)�.例如在自�(dòng)電話翻譯,有聲的電子郵件等中都提出多語(yǔ)種的合成,即使是對(duì)漢語(yǔ)合成也有多方言文語(yǔ)�(zhuǎn)換的需�.理想的多�(yǔ)種合成系�(tǒng)是各種語(yǔ)言共用一種合成算法或�(yǔ)音合成器,但是�(xiàn)有的�(yǔ)音合成系�(tǒng)大多是針�(duì)某一種語(yǔ)言或若干種�(yǔ)言開發(fā)出來(lái)�,所采用的算法及�(guī)則都是和某種�(yǔ)言密切相關(guān)�,因此很難推廣到其他的�(yǔ)�.例如漢語(yǔ)就和西方�(yǔ)言有很大的差異,�(guó)�(nèi)的系�(tǒng)都是做漢�(yǔ)文語(yǔ)�(zhuǎn)�,它的一套韻律控制規(guī)則完全不適合于英�(yǔ),而且主要是合成漢�(yǔ)普通話,即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y�.可見要真正解決多�(yǔ)種的文語(yǔ)合成,從文本處理到�(yǔ)音合成都必須有新的思路.美國(guó)貝爾�(shí)�(yàn)室在多語(yǔ)種文�(yǔ)�(zhuǎn)換方面作了大量的工作,其中包括漢語(yǔ)普通話合成,值得注意�
綜觀�(yǔ)言合成技�(shù)的研究已有二百多年的歷史,但是真正有實(shí)用意義的近代�(yǔ)音合成技�(shù)是隨著計(jì)算機(jī)技�(shù)和數(shù)字信�(hào)處理技�(shù)的發(fā)展而發(fā)展起�(lái)�,主要是讓�(jì)算機(jī)能夠�(chǎn)生高清晰�、高自然度的連續(xù)�(yǔ)�.近幾十年�(lái)�(guó)際和�(guó)�(nèi)的研究主要集中在按規(guī)則文�(yǔ)�(zhuǎn)�,即將書面�(yǔ)言�(zhuǎn)換成口頭�(yǔ)言.在語(yǔ)音合成技�(shù)的發(fā)展中,早期的研究主要是采用參數(shù)合成方法.值得提及的是Holmes的并�(lián)共振峰合成器(1973)和Klatt的串/并聯(lián)共振峰合成器(1980),只要精心�(diào)整參�(shù),這兩�(gè)合成器都能合成出非常自然的語(yǔ)��
而代表性的文語(yǔ)�(zhuǎn)換系�(tǒng)�(shù)美國(guó)DEC 公司的DECtalk(1987),該系�(tǒng)采用Klatt的串/并聯(lián)共振峰合成器,可以通過(guò)�(biāo)�(zhǔn)的接口和�(jì)算機(jī)連網(wǎng)或單�(dú)接到電話�(wǎng)上提供各種語(yǔ)音信息服�(wù),它的�(fā)音清�,并可�(chǎn)生七種不同音色的聲音,供用戶選�.但是�(jīng)�(guò)多年的研究與�(shí)踐表�,由于�(zhǔn)確提取共振峰參數(shù)比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語(yǔ)�,但是整體合成�(yǔ)音的音質(zhì)難以�(dá)到文�(yǔ)�(zhuǎn)換系�(tǒng)的實(shí)用要�.自八十年代末期至�,�(yǔ)言合成技�(shù)又有了新的�(jìn)�,特別是基音同步疊�(PSOLA)方法的提�(1990),使基于時(shí)域波形拼接方法合成的�(yǔ)音的音色和自然度大大提高�
九十年代�,基于PSOLA技�(shù)的法�(yǔ)、德�(yǔ)、英�(yǔ)、日�(yǔ)等語(yǔ)種的文語(yǔ)�(zhuǎn)換系�(tǒng)都已�(jīng)研制成功.這些系統(tǒng)的自然度比以前基于LPC方法或共振峰合成器的文語(yǔ)合成系統(tǒng)的自然度要高,并且基于PSOLA方法的合成器�(jié)�(gòu)�(jiǎn)單易于實(shí)�(shí)�(shí)�(xiàn),有很大的商用前景.最近幾�,一種新的基于數(shù)�(jù)�(kù)的語(yǔ)音合成方法正引起人們的注意.在這�(gè)方法�,合成�(yǔ)句的�(yǔ)音單元是從一�(gè)�(yù)先錄下的龐大的語(yǔ)音數(shù)�(jù)�(kù)中挑選出�(lái)�, 不難想象只要�(yǔ)音數(shù)�(jù)�(kù)足夠�,包括了各種可能語(yǔ)境下的語(yǔ)音單�,理論上講有可能拼接出任何�(yǔ)�。由于合成的�(yǔ)音基元都是來(lái)自自然的原始�(fā)�,合成�(yǔ)句的清晰度和自然度都將會(huì)非常��
�(guó)�(nèi)的漢�(yǔ)�(yǔ)音合成研究起步較晚些,但從八十年代初就基本上與�(guó)際上研究同步�(fā)�.大致也經(jīng)歷了共振峰合成、LPC合成至應(yīng)用PSOLA技�(shù)的過(guò)�.在國(guó)�863�(jì)�,�(guó)家自然科�(xué)基金�,�(guó)家攻�(guān)�(jì)�,中國(guó)科學(xué)院有�(guān)�(xiàng)目等支持�,漢語(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng)研究近年�(lái)取得了令人舉目的�(jìn)�,其中不乏成功的例�:如中�(guó)科學(xué)院聲�(xué)所的KX-PSOLA(1993), �(lián)想佳�(1995);清華大學(xué)的TH_SPEECH(1993);中國(guó)科技大學(xué)的KDTALK(1995)等系�(tǒng).這些系統(tǒng)基本上都是采用基于PSOLA方法的時(shí)域波形拼接技�(shù),其合成漢�(yǔ)普通話的可懂度、清晰度�(dá)到了很高的水�.然而同�(guó)外其它語(yǔ)種的文語(yǔ)�(zhuǎn)換系�(tǒng)一�,這些系統(tǒng)合成的句子及篇章�(yǔ)音機(jī)器味較濃,其自然度還不能達(dá)到用戶可廣泛接受的程�,從而制約了這項(xiàng)技�(shù)的大�(guī)模�(jìn)入市�(chǎng). -----1998年中�(guó)科技大學(xué)在國(guó)�863 �(jì)劃和�(guó)家自然科�(xué)基金委支持下,研制成功KD-863漢語(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng).和采用國(guó)�(nèi)外流行的PSOLA技�(shù)的系�(tǒng)相比,在輸出語(yǔ)音的音質(zhì)和自然度上有了突破性的提高.KD-863采用了一種全新的基于�(yǔ)音數(shù)�(jù)�(kù)的語(yǔ)音合成方�, 該技�(shù)的基本思想是將�(shí)際語(yǔ)流中漢語(yǔ)音節(jié)千變?nèi)f化的音變�(jìn)行聽感上的量化歸�,�(shè)�(jì)出多樣本的漢�(yǔ)�(yǔ)音基元庫(kù),這�(gè)�(kù)�(yùn)涵了漢語(yǔ)韻律變化信息,合成�(shí)只要通過(guò)�(duì)基元�(kù)樣本的選取便可實(shí)�(xiàn)韻律控制�
同時(shí)�(yǔ)音基元庫(kù)中的樣本是直接從自然�(yǔ)音中截取,避免了采用信�(hào)處理技�(shù)獲取音變單元�(duì)音質(zhì)的損�,因而合成語(yǔ)音具有接近自然語(yǔ)音的音質(zhì).KD-863文語(yǔ)�(zhuǎn)換系�(tǒng)一�(jīng)推出,就因其合成語(yǔ)音的高清晰度與高自然度引起了社會(huì)各方的重�.先后�(yīng)用于為深圳華為技�(shù)公司�(shè)�(jì)�"114自動(dòng)電話�(bào)�(hào)系統(tǒng)",和為�(guó)家工商總局�(shè)�(jì)�"工商企業(yè)�(yǔ)�(傳真)查詢系統(tǒng)"。使得漢�(yǔ)�(yǔ)音合成技�(shù)走出�(shí)�(yàn)�,向市�(chǎng)�(yīng)用邁出了重要的一��
KD-863系統(tǒng)參加了在1998�4月國(guó)家科委組織的全國(guó)漢語(yǔ)�(yǔ)音合成系�(tǒng)的性能�(píng)�(cè),其輸出語(yǔ)音的自然度居同類系統(tǒng)之首,是達(dá)到用戶可以接受程度的系統(tǒng)。KD-863還在日本,新加�,香港的有�(guān)研究所和大�(xué)�(jìn)行過(guò)演示,均得到了有關(guān)方面專家的認(rèn)同�
最近中�(guó)科技大學(xué)又推出了KD-2000漢語(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng),不僅在語(yǔ)音合成技�(shù)方面有�(jìn)一步的�(fā)�,特別是在文本�(yù)處理中圍繞層次化�(jié)�(gòu)思想,�(yùn)用大量的�(tǒng)�(jì)和規(guī)則的方法,較好地解決了三�(gè)大的處理�(huán)節(jié):特殊符號(hào)處理,分詞處理和拼接處�,使得漢語(yǔ)文語(yǔ)�(zhuǎn)換系�(tǒng)的整體性能有很大提�.以KD-2000文語(yǔ)�(zhuǎn)換為核心�"暢言2000"智能漢語(yǔ)平臺(tái)軟件已開始�(jìn)入市�(chǎng)�