行業資訊

人(rén)工智能基礎篇1——計算(suàn)機處理(lǐ)自然語言的(de)一些問題
2018/12/27 13:53:24

首先我們需要了(le)解信息是如何傳播的(de)。

事實上,即使現在的(de)通(tōng)信方式比之原始社會先進得(de)多(duō),而從傳播原理(lǐ)上講,卻是并沒有差别的(de),即

将信息源所要傳播的(de)信息進行編碼,接收者從信息通(tōng)道獲得(de)編碼後的(de)信息并将其解碼,從而獲得(de)信息源所要傳播的(de)信息。

信息經過了(le)編碼——傳播——解碼,實現了(le)信息的(de)傳播。

我們可(kě)以認爲,任何一種語言都是一種對(duì)信息的(de)一種編碼的(de)方式,而語言的(de)語法規則便是編解碼的(de)算(suàn)法。當我們将一個(gè)所要表達的(de)信息通(tōng)過一種語言表達出來(lái)之時(shí),便已經進行了(le)一次編碼,而編碼的(de)結果便是這(zhè)種語言表達的(de)一串文字。信息接收者如果懂(dǒng)得(de)這(zhè)種語言,那麽他(tā)便可(kě)以将這(zhè)串文字解碼,從而獲得(de)這(zhè)串文字所代表的(de)信息。這(zhè)便是人(rén)類語言的(de)本質。

我們要研究智能問題,那麽首先就要面對(duì)以下(xià)問題:

問題一:計算(suàn)機能否處理(lǐ)自然語言。

計算(suàn)機科學之父阿蘭圖靈(Alan Turing)在他(tā)的(de)一篇論文中提出了(le)一種驗證機器是否有智能的(de)方法,這(zhè)種方法也(yě)被稱爲圖靈測試(Turing Test):

讓人(rén)和(hé)機器進行交流,如果人(rén)無法判斷自己交流的(de)對(duì)象是人(rén)還(hái)是機器,就說明(míng)這(zhè)個(gè)機器有智能。

當然,計算(suàn)機能否處理(lǐ)自然語言,無論是真實情況還(hái)是出于假設,這(zhè)個(gè)答(dá)案必然是能,這(zhè)是研究下(xià)去的(de)前提。

問題二:計算(suàn)機如何處理(lǐ)自然語言。

對(duì)于這(zhè)個(gè)問題,人(rén)們的(de)第一反應便是,計算(suàn)機像人(rén)類一樣處理(lǐ)自然語言,換句話(huà)說,便是讓計算(suàn)機理(lǐ)解自然語言,再深入一層,便是計算(suàn)機擁有如人(rén)類大(dà)腦(nǎo)一般的(de)智能。那麽這(zhè)種想法是否可(kě)行?

從二十世紀五十年代到七十年代,研究智能的(de)科學家都抱著(zhe)這(zhè)種想法,然而二十年的(de)成果幾近爲零。如何理(lǐ)解自然語言,在于分(fēn)析語句和(hé)獲取語義。

分(fēn)析語句,如“我看書(shū)。”以文法規則重寫出來(lái),便是

句子→主謂賓句号

主語→名詞 謂語→動詞 賓語→名詞 句号→。

名詞→我 動詞→看 名詞→書(shū)

我們可(kě)以看到,即使是如此簡單的(de)一句話(huà),也(yě)需要八條文法規則,那麽如果是一個(gè)更爲複雜(zá)的(de)句子,如“一向自信的(de)他(tā)一直認爲他(tā)自己做(zuò)的(de)一切都是無可(kě)辯駁的(de)。”其中的(de)文法規則便複雜(zá)得(de)多(duō)了(le)。

那麽這(zhè)其中便出現了(le)一個(gè)無法解決的(de)問題,想要通(tōng)過文法規則覆蓋所有自然語言的(de)語法規則,數量至少達到十萬以上,而且爲了(le)語義準确,還(hái)必須說明(míng)每個(gè)規則規定的(de)使用(yòng)環境,到最後每增加一個(gè)新句子,就要加入一些新的(de)文法規則。

即便假設上面的(de)問題能夠解決,在獲取語義上也(yě)出現了(le)另一個(gè)無法解決的(de)問題。那就是無論在哪一種自然語言裏,要理(lǐ)解一個(gè)句子的(de)意思,往往要聯系上下(xià)文,這(zhè)個(gè)問題直接導緻了(le)自然語言處理(lǐ)研究的(de)停滞。

所以,讓計算(suàn)機理(lǐ)解自然語言至少目前是不可(kě)行的(de)。學者們也(yě)就将該想法稱爲“鳥飛(fēi)派”,即以爲模仿鳥便能造出飛(fēi)機,而不需要知道空氣動力學。

那麽計算(suàn)機是如何處理(lǐ)自然語言的(de)呢(ne)?

答(dá)案是使用(yòng)基于統計的(de)方法,即爲自然語言上下(xià)相關的(de)特性建立數學模型。一開始因爲計算(suàn)能力不足和(hé)數據量少的(de)問題,基于統計的(de)方法智能處理(lǐ)簡單的(de)自然語言,但近幾十年來(lái),計算(suàn)機的(de)硬件更新和(hé)數據量的(de)不斷增加,讓通(tōng)過統計模型完成精确複雜(zá)的(de)句法分(fēn)析變得(de)越加可(kě)行。