語音播報
		  簡單問題需要復雜處理
汪昆先描摹了機器人參加高考的情境:在讀文字、聽聽力、識圖的過程中,機器人首先要把人類的語言、圖形“映射”為計算機能夠處理的形式語言,再進行分析、理解和處理,最后以人類能夠理解的方式呈現(xiàn)答案。
“這個過程會涉及語音識別、自然語言處理、自動問答和自然語言生成等諸多環(huán)節(jié)?!蓖衾フf。假如,我們給機器人出道題——姚明的身高是多少?對于這句話,機器人首先并不清楚哪幾個字是一個詞,它就要先做中文分詞,然后進行具體命名實體識別,把這個句子里關鍵的人物、地點等信息識別出來,接著進行句法和語義分析,最終理解問題后,再在相應的知識庫去搜索答案,然后以人類的方式給出回答。
機器人知識庫的形成可以通過人工總結(jié),也可以通過在互聯(lián)網(wǎng)大數(shù)據(jù)庫中自動挖掘。“相比之下,人工總結(jié)的方法成本較大,可靠性比較有保證。而網(wǎng)絡數(shù)據(jù)量大、時效性強,但有時受網(wǎng)絡資源本身的限制,有可能會產(chǎn)生一些誤差甚至錯誤?!蓖衾フf。
“推理”讓機器人“頭大”
姚明身高的問題可能還相對簡單,如果換成“姚明老婆的身高是多少”,機器人的“大腦”可就得多轉(zhuǎn)幾圈了。“因為這涉及知識推理?!蓖衾ソ忉屨f。機器人要把“姚明老婆”的表述準確轉(zhuǎn)化為“葉莉”,再到有關葉莉的知識庫里去搜尋答案。如果一個表達涉及多層的語義轉(zhuǎn)化和推理,對機器人來說就比較難了。
目前,“機器人高考”的每一個技術層面都有需要進一步攻克的難點。比如,自然語言處理目前在中文分詞和實體識別上的準確率是95%以上,而對于更難的句法和語義分析,仍有待提高。對于比較復雜的知識推理,機器人處理起來會覺得很“頭大”。
汪昆介紹說,相比中文,英文更容易被機器人理解。一方面由于英文的相關技術研發(fā)起步早、發(fā)展快,另一方面因為英文本身語言上的特點,便于機器人進行判斷。
據(jù)了解,目前我國在機器人自然語言處理及機器翻譯上的技術水平已經(jīng)達到國際領先,跟歐洲的技術水平不相上下,而跟該領域的強國——美國相比,差距也在逐漸縮小。但是,無論是哪一個國家,要實現(xiàn)機器人的自然語言處理水平跟人類一樣,還有很遠的路要走。
多國競技“高考”機器人
可見,以目前機器人的“智力”來說,要在高考中拿滿分,成為真“學霸”還是很難的。“現(xiàn)在如果讓機器人參加高考,可能英語的分數(shù)會相對高些,因為比起語文、數(shù)學等,推理的難度相對小一點。”汪昆說。我國目前也有一批科研團隊在專門研究“高考機器人”,目的就是通過“高考”這個應用場景以點帶面,不斷攻關難題,帶來相關技術的突破,拓展機器人應用。
實際上,其他國家也在“高考”機器人方面展開了競技。日本國立信息學研究所等機構在2011年啟動“東Robo君”人工智能開發(fā)項目,目的是讓機器人“東Robo君”在2021年前通過東京大學入學考試。盡管它近幾年的考試成績跟東京大學的分數(shù)線還相差較遠,但每一年都會有進步。IBM的機器人Watson曾在知識答題節(jié)目中擊敗兩位人類選手,如今還在不斷進行金融服務、零售、醫(yī)療等方面的深度學習,創(chuàng)造力不斷提升,甚至能自己設計菜譜。
汪昆對我國未來自然語言處理技術的發(fā)展很有信心。他認為,做針對中文的機器人自然語言處理研究,我國科研人員更有優(yōu)勢。“這是母語,而且現(xiàn)在我國一大批互聯(lián)網(wǎng)公司興起,互聯(lián)網(wǎng)+氛圍濃厚,很多創(chuàng)新創(chuàng)業(yè)都會涉及自然語言處理的相關技術。由于國家支持,很多公司愿意投入,這樣就會有更多的人才進入這個領域,很多學生也愿意從事相關方面的學習和技能培訓,一個良性發(fā)展的創(chuàng)新圈已經(jīng)形成。”
?。ㄔd于《經(jīng)濟日報》 2015-06-18 15版)
   
© 1996 -  中國科學院 版權所有 京ICP備05002857號-1 
京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 -  中國科學院 版權所有 京ICP備05002857號-1 
京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 -  中國科學院 版權所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
   86 10 68597289(總值班室)