語音播報
日前,中科院自動化所的模式識別國家重點實驗室自然語言處理與機器翻譯研究團隊與人工智能公司出門問問進行了共建揭牌儀式,宣布正式共建“中國科學院自動化研究所——出門問問語言智能與人機交互聯(lián)合實驗室”(以下簡稱“LIHMI聯(lián)合實驗室”),共同致力于綠色、人文的智能化產業(yè)業(yè)態(tài),促進科技成果轉化。
那么?這個實驗室有什么特色呢?主要從事哪些方面的研究呢?近日,《中國科學報》記者就此采訪了自然語言處理與機器翻譯研究團隊的負責人宗成慶研究員。
應用于智能化信息服務系統(tǒng)
宗成慶介紹,團隊參與此次合作共建的主要技術包括口語對話理解、對話管理、情感分類和機器翻譯等。他表示,在這些合作方向上都是團隊的優(yōu)勢所在。1998年宗成慶就加入了模式識別國家重點實驗室,開始從事自然語言處理、人機對話系統(tǒng)和口語翻譯的研究,后來擴展到文本機器翻譯、文本分類及自動文摘等相關研究,并在實驗室的統(tǒng)一規(guī)劃下成立了自然語言處理研究組。2002年,在信息檢索和知識工程領域頗有研究的趙軍研究員加入了團隊。目前團隊已有研究人員10余人,博士生和碩士生30多人。
經過近20年的發(fā)展,該團隊已經具備了相當雄厚的技術積累,不僅在相關技術的基礎理論研究方面取得了一批優(yōu)秀成果,在本領域國際頂級學術會議和權威期刊上發(fā)表了大量有影響的學術論文,其中,關于情感分類的學術論文入選ESI高被引論文(前1%),而且在面向國家特定領域的應用系統(tǒng)研發(fā)中成績卓著。
其中,多語言機器翻譯系統(tǒng)多次在國際口語翻譯評測(IWSLT)和全國機器翻譯評測中取得多項評價指標和評測任務第一名的優(yōu)異成績,并成功應用于多個國家特定領域,為維護國家和公共安全,發(fā)揮了重要作用。
團隊2014年榮獲中國中文信息學會最高技術獎——“錢偉長中文信息處理科學技術獎”一等獎。與百度公司等多家單位聯(lián)合完成的“基于大數(shù)據(jù)的互聯(lián)網機器翻譯核心技術研究及產業(yè)化”成果獲得2015年度國家科技進步獎二等獎、中國電子學會科技進步獎一等獎。
攻堅語言智能與人機交互等關鍵技術
這個實驗室將著力于自然語言理解、多輪對話管理、問答系統(tǒng)、機器翻譯等四方面的研究,為雙方合作提供原創(chuàng)技術創(chuàng)新。
宗成慶介紹,在自然語言理解方面,科研人員的研究方向主要探索自然語言語義解析和表達能力,研究語義資源獲取和建設方法,研發(fā)深層語義理解算法。這將把語言分析或解析到語義層面,準確實現(xiàn)語義表達,讓機器真正理解千變萬化的語言。
在多輪對話管理方面,他們研究涉及對話任務定義和狀態(tài)空間表示方法,研發(fā)數(shù)據(jù)驅動的對話管理算法,研發(fā)個性化的對話管理算法,將幫助機器模仿如同人與人的對話,通過多個問答回合,確定最終的意圖,消除問題中的歧義。
在問答系統(tǒng)方面,他們將研究基于多源數(shù)據(jù)的知識表示方法,探索基于知識的語義理解、推理方法,開發(fā)多種答案類型的問答系統(tǒng)算法。問答系統(tǒng)能夠從不同來源的海量數(shù)據(jù)中找到問題的相關信息,并準確地給出一個明確的答案。由于數(shù)據(jù)來源不同,問題答案的格式差異很大,需要問答系統(tǒng)具備語義理解、推理等能力,才能很好地回答用戶問題。
在機器翻譯方面,科研人員致力于研發(fā)基于神經網絡和深度機器學習方法的機器翻譯模型及算法。由于自然語言復雜多變,機器翻譯一直是人工智能技術中的一個難點。近年來,隨著神經網絡和深度機器學習方法的興起,利用深度神經網絡技術進行機器翻譯逐漸成為主流并取得了很大進展。神經網絡機器翻譯方法主要是利用大規(guī)模神經網絡對源語言句子進行編碼,得到源語言句子的一個表示,再利用大規(guī)模神經網絡對該表示進行展開,并生成目標語言句子。
實現(xiàn)產學研良性循環(huán)
宗成慶表示,近期,團隊將致力于搭建面向特定應用任務的自然語言處理系統(tǒng),并在性能上達到學科內領先水平,主要研究內容包括在特定領域搭建完整語義理解和對話管理系統(tǒng);在特定領域內設計應用場景,研發(fā)具有先進技術水準的語義分析和對話管理算法;搭建智能問答系統(tǒng)框架,在性能指標上做到學科內領先水平。隨著合作取得進一步進展,之后團隊還將在場景構建和算法設計上做出有影響力的創(chuàng)新成果,設計和實驗具備演化能力的語義解析算法的自動演化方法,推動合作企業(yè)的業(yè)務迭代。
“選擇出門問問作為共建合作伙伴,一方面是因為出門問問作為一家技術驅動的人工智能領域科技公司,專注于人工智能交互技術的應用,近年來在語音交互、智能推送、手勢交互等方面推出了創(chuàng)新產品,其快速增長的市場發(fā)展在原創(chuàng)技術方面有迫切需求。另一方面,是緣于與出門問問公司的創(chuàng)始人李志飛多年的相互了解和信任?!弊诔蓱c說。
宗成慶表示,這次合作是面向長遠發(fā)展的一次嘗試,一方面依托團隊的自然語言處理與機器翻譯研究,為出門問問研發(fā)提供語言智能與人機交互等技術的基礎研究支持,增強出門問問產品的競爭力和市場領導力;另一方面,出門問問公司也將為團隊的科學研究創(chuàng)建良性互動的環(huán)境,保證研究需求來源于應用、研究成果服務于應用,面向市場的關鍵技術難題也將促進和推動理論創(chuàng)新。
宗成慶認為,產學研結合最忌諱兩種情況:一是合作雙方目標不統(tǒng)一,各打各的小算盤,同床異夢;二是對對方的期望值過高。這兩方面都無疑使合作無法持續(xù)進行,往往導致“一錘子買賣”,甚至半途而廢。此次LIHMI聯(lián)合實驗室的成立,正是在排除上述兩種不利因素的基礎上雙方一拍即合。一方面,作為中科院自動化所的研究團隊負責人,宗成慶充分認識到,雖然自然語言處理屬于信息科學和技術領域的范疇,但畢竟不是純基礎的科學,而更多的是面向實際需求的應用技術研究,因此,作為應用技術研究必須面向實際需求,研究的科學問題和關鍵技術要源于實際,用于實際,而出門問問公司恰好能夠提供這種具有挑戰(zhàn)性的科學問題和技術難題;另一方面,作為出門問問公司創(chuàng)始人和CEO的李志飛博士骨子里有一種科學家的情結。這種知根知底的合作基礎,為LIHMI聯(lián)合實驗室的未來發(fā)展排除了隱患。
對于LIHMI聯(lián)合實驗室的未來,宗成慶充滿了信心。他表示,雙方將在互信共融、互惠共贏的基礎上,努力推動語言智能與人機交互的關鍵技術在實用產品的應用中實現(xiàn)跨越式發(fā)展,形成產學研緊密配合、良性循環(huán)。
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權所有
京ICP備05002857號-1
京公網安備110402500047號
網站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn