欧美国产调教一区二区_国产精品电影在线免费_亚洲成亚洲成网tv_一区二区三区国产在线

百度CTO王海峰公布“成績單”:語音能力日均調(diào)用量過100億

時間:2019-12-02 10:46:46

百度大腦宣布語音能力引擎日均調(diào)用量已經(jīng)超過100億次,為開發(fā)者提供了覆蓋云、端、芯的全棧全場景語音開放能力,推動智能語音技術(shù)在各行業(yè)落地應(yīng)用。

百度首席技術(shù)官王海峰表示,AI技術(shù)的進化和產(chǎn)業(yè)賦能正向循環(huán),相互促進,AI在應(yīng)用場景中不斷進化。百度的語音技術(shù)基于深度學(xué)習(xí)和產(chǎn)業(yè)應(yīng)用加速突破,已應(yīng)用到百度App,百度地圖、小度音箱,百度輸入法等百度產(chǎn)品,更通過AI開放平臺賦能眾多產(chǎn)業(yè)伙伴。

隨后,百度語音首席架構(gòu)師賈磊發(fā)布智能語音交互新技術(shù)——“基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的語音增強和聲學(xué)建模一體化端到端建模技術(shù)”,該方法拋棄了數(shù)字信號處理學(xué)科和語音識別學(xué)科的各種先驗假設(shè),消除學(xué)科間壁壘,直接端到端進行一體化建模。

賈磊介紹,百度提出的基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的語音增強和聲學(xué)建模一體化端到端建模技術(shù),相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,錯誤率降低超過30%。目前該方法已經(jīng)被集成到百度最新發(fā)布的百度鴻鵠芯片中。

具體而言,該模型底部以復(fù)數(shù)CNN為核心,利用復(fù)數(shù)CNN網(wǎng)絡(luò)挖掘生理信號本質(zhì)特征的特點,采用復(fù)數(shù)CNN, 復(fù)數(shù)全連接層以及CNN等多層網(wǎng)絡(luò),直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。在保留原始特征相位信息的前提下,同時實現(xiàn)了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現(xiàn)了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網(wǎng)絡(luò)的優(yōu)化準則完全依賴于語音識別網(wǎng)絡(luò)的優(yōu)化準則來做,完全以識別率提升為目標來做模型參數(shù)調(diào)優(yōu)。

與此同時,搭載該項語音技術(shù)的三款基于鴻鵠語音芯片的硬件產(chǎn)品也全新發(fā)布:芯片模組 DSP芯片+Flash、Android開發(fā)板DSP芯片+ RK3399、RTOS開發(fā)板DSP芯片+ESP32?,F(xiàn)場,賈磊還描述了基于鴻鵠語音芯片的端到端軟硬一體遠場語音交互方案以及全新發(fā)布的針對智能家居、智能車載、智能IoT設(shè)備的三大場景解決方案。

除此之外,在語音識別領(lǐng)域,百度大腦全面升級短語音識別、實時語音識別能力,發(fā)布音頻文件轉(zhuǎn)寫能力,升級可零代碼提升業(yè)務(wù)術(shù)語識別率的語音自訓(xùn)練平臺,以及呼叫中心語音解決方案;在語音合成方面,全新發(fā)布6個在線語音合成精品音庫和5個離線語音合成精品音庫。

目前,百度大腦通過AI開放平臺已開放228項技術(shù)能力,擁有超過150萬的開發(fā)者用戶。(完)