央廣網科技7月5日消息(記者 殷雨婷) “多模態(tài)深度語義理解能讓機器聽清、看清,更能深入理解它背后的含義,深度地理解真實世界,進而更好地支撐各種應用?!卑俣雀呒壐笨偛?、AI技術平臺體系(AIG)總負責人王海峰表示。

  日前,在百度AI開發(fā)者大會(Baidu Create 2018)上,王海峰發(fā)布百度大腦3.0。百度大腦3.0的核心是“多模態(tài)深度語義理解”,包括數(shù)據的語義,知識的語義,以及圖像、視頻、聲音、語音等各方面的理解。
  如何實現(xiàn)從“看清聽清”到“看懂聽懂”?
  視覺語義化可以讓機器從看清到看懂視頻,并提煉出結構化語義知識。百度視覺技術部、人臉技術部、增強現(xiàn)實技術部總監(jiān)吳中勤介紹,視覺語義化技術首先識別人、物體和場景,同時捕捉它們之間的行為和關系,通過時序化、數(shù)字化、結構化的方式形成語義知識,最終結合領域和場景進行智慧推理,落地行業(yè)應用。
  未來,視覺語義化技術還可進一步延展,它結合新型的傳感器和AI芯片,可以在感知層面和計算層面得到大幅提升;結合手機可以帶給用戶更佳地使用體驗。
  語音技術的升級則讓機器更好地聽懂世界。百度語音技術部總監(jiān)高亮表示,百度基于遠場的語音語義一體化技術已取得突破,可為業(yè)界提供更頂尖的遠場語音技術。
  語音語義一體化將遠場交互中高頻Query識別準確率提升10個點,并保持普通Query識別率不降;多語種混合聲學建模基于Deep Peak2大幅提升中英文混合Query識別準確率,相對錯誤率比業(yè)界最好競品降低20%;新升級的TTS技術業(yè)界首創(chuàng)傳統(tǒng)拼接技術與Wavenet技術融合方案,保證合成質量的同時大大降低成本,讓大規(guī)模應用落地成為現(xiàn)實。
  在對話理解方面,百度理解與交互技術平臺UNIT升級至2.0,進一步增強冷啟動能力,支持像人類一樣在對話當中學習,同時開放了第一個工業(yè)級對話系統(tǒng)開源框架,降低搭建門檻,讓開發(fā)者無縫對接云端。
  將自主研發(fā)的芯片納入技術體系
  數(shù)據、算法、算力是影響人工智能技術發(fā)展的重要因素。王海峰表示百度大腦3.0首次將芯片納入技術體系,帶動百度大腦算力爆發(fā)式增長。百度自主研發(fā)的中國第一款云端全功能AI芯片“昆侖”也在會上首次亮相。未來,AI芯片將與百度自主研發(fā)的PaddlePaddle深度學習框架相結合,推動百度AI產業(yè)生態(tài)快速發(fā)展。
  百度在2016年正式開源的PaddlePaddle,如今也迎來了PaddlePaddle3.0版本。百度AI技術生態(tài)部總經理喻友平對此進行了詳細解讀。PaddlePaddle3.0包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以讓開發(fā)者獲取AI能力的平臺。
  PaddlePaddle3.0核心框架對服務器版本以及移動端版本進行了全面優(yōu)化,PaddlePaddle Fluid提供豐富的滿足常見主流模型搭建需求的API,支持廣泛的模型搭建,訓練Runtime可以滿足各類型的模型訓練需求;PaddlePaddle Serving可靈活適配多種預測引擎;PaddlePaddle Mobile集成百度移動端預測的實踐經驗,提供多平臺支持。
  百度大腦升級至3.0是百度AI技術的一次跨越式升級,王海峰強調,“百度AI能力的核心是百度大腦,百度大腦3.0是百度AI能力的集大成者?!蔽磥恚俣葘⒅鸩桨鸦诎俣却竽X的技術突破開放給相關的開發(fā)者和企業(yè)。
									                        關鍵詞: 
                                                         
                            語義 
                                                                                     
                            看懂 
                                                                                     
                            深度