卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是受動物視覺皮層啟發(fā)的多層神經(jīng)網(wǎng)絡(luò)。這種架構(gòu)在包括圖像處理的很多應(yīng)用中都有用。第一個 CNN 是由 Yann LeCun 創(chuàng)建的,當(dāng)時 CNN 架構(gòu)主要用于手寫字符識別任務(wù),例如讀取郵政編碼。
LeNet CNN 由好幾層能夠分別實(shí)現(xiàn)特征提取和分類的神經(jīng)網(wǎng)絡(luò)組成。圖像被分為多個可以被接受的區(qū)域,這些子區(qū)域進(jìn)入到一個能夠從輸入圖像提取特征的卷積層。下一步就是池化,這個過程降低了卷積層提取到的特征的維度(通過下采樣的方法),同時保留了最重要的信息(通常通過最大池化的方法)。然后這個算法又執(zhí)行另一次卷積和池化,池化之后便進(jìn)入一個全連接的多層感知器。卷積神經(jīng)網(wǎng)絡(luò)的最終輸出是一組能夠識別圖像特征的節(jié)點(diǎn)(在這個例子中,每個被識別的數(shù)字都是一個節(jié)點(diǎn))。使用者可以通過反向傳播的方法來訓(xùn)練網(wǎng)絡(luò)。
圖 9.LeNet 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
對深層處理、卷積、池化以及全連接分類層的使用打開了神經(jīng)網(wǎng)絡(luò)的各種新型應(yīng)用的大門。除了圖像處理之外,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被成功地應(yīng)用在了視頻識別以及自然語言處理等多種任務(wù)中。卷積神經(jīng)網(wǎng)絡(luò)也已經(jīng)在 GPU 上被有效地實(shí)現(xiàn),這極大地提升了卷積神經(jīng)網(wǎng)絡(luò)的性能。
長短期記憶(LSTM)
記得前面反向傳播中的討論嗎?網(wǎng)絡(luò)是前饋式的訓(xùn)練的。在這種架構(gòu)中,我們將輸入送到網(wǎng)絡(luò)并且通過隱藏層將它們向前傳播到輸出層。但是,還存在其他的拓?fù)浣Y(jié)構(gòu)。我在這里要研究的一個架構(gòu)允許節(jié)點(diǎn)之間形成直接的回路。這些神經(jīng)網(wǎng)絡(luò)被稱為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它們可以向前面的層或者同一層的后續(xù)節(jié)點(diǎn)饋送內(nèi)容。這一特性使得這些網(wǎng)絡(luò)對時序數(shù)據(jù)而言是理想化的。
在 1997 年,一種叫做長短期記憶(LSTM)的特殊的循環(huán)網(wǎng)絡(luò)被發(fā)明了。LSTM 包含網(wǎng)絡(luò)中能夠長時間或者短時間記憶數(shù)值的記憶單元。
圖 10. 長短期記憶網(wǎng)絡(luò)和記憶單元
記憶單元包含了能夠控制信息流入或者流出該單元的一些門。輸入門(input gate)控制什么時候新的信息可以流入記憶單元。遺忘門(forget gate)控制一段信息在記憶單元中存留的時間。最后,輸出門(output gate)控制輸出何時使用記憶單元中包含的信息。記憶單元還包括控制每一個門的權(quán)重。訓(xùn)練算法(通常是通過時間的反向傳播(backpropagation-through-time),反向傳播算法的一種變體)基于所得到的誤差來優(yōu)化這些權(quán)重。
LSTM 已經(jīng)被應(yīng)用在語音識別、手寫識別、語音合成、圖像描述等各種任務(wù)中。下面我還會談到 LSTM。
深度學(xué)習(xí)
深度學(xué)習(xí)是一組相對新穎的方法集合,它們從根本上改變了機(jī)器學(xué)習(xí)。深度學(xué)習(xí)本身不是一種算法,但是它是一系列可以用無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)深度網(wǎng)絡(luò)的算法。這些網(wǎng)絡(luò)是非常深層的,所以需要新的計(jì)算方法來構(gòu)建它們,例如 GPU,除此之外還有計(jì)算機(jī)集群。
本文目前已經(jīng)介紹了兩種深度學(xué)習(xí)的算法:卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)。這些算法已經(jīng)被結(jié)合起來實(shí)現(xiàn)了一些令人驚訝的智能任務(wù)。如下圖所示,卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶已經(jīng)被用來識別并用自然語言描述圖片或者視頻中的物體。
圖 11. 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶來進(jìn)行圖像描述
深度學(xué)習(xí)算法也已經(jīng)被用在了人臉識別中,也能夠以 96% 的準(zhǔn)確率來識別結(jié)核病,還被用在自動駕駛和其他復(fù)雜的問題中。
然而,盡管運(yùn)用深度學(xué)習(xí)算法有著很多結(jié)果,但是仍然存在問題需要我們?nèi)ソ鉀Q。一個最近的將深度學(xué)習(xí)用于皮膚癌檢測的應(yīng)用發(fā)現(xiàn),這個算法比經(jīng)過認(rèn)證的皮膚科醫(yī)生具有更高的準(zhǔn)確率。但是,醫(yī)生可以列舉出導(dǎo)致其診斷結(jié)果的因素,卻沒有辦法知道深度學(xué)習(xí)程序在分類的時候所用的因素。這被稱為深度學(xué)習(xí)的黑箱問題。
另一個被稱為 Deep Patient 的應(yīng)用,在提供病人的病例時能夠成功地預(yù)測疾病。該應(yīng)用被證明在疾病預(yù)測方面比醫(yī)生還做得好——即使是眾所周知的難以預(yù)測的精神分裂癥。所以,即便模型效果良好,也沒人能夠深入到這些大型神經(jīng)網(wǎng)絡(luò)去找到原因。
認(rèn)知計(jì)算
人工智能和機(jī)器學(xué)習(xí)充滿了生物啟示的案例。盡管早期的人工智能專注于建立模仿人腦的機(jī)器這一宏偉目標(biāo),而現(xiàn)在,是認(rèn)知計(jì)算正在朝著這個目標(biāo)邁進(jìn)。
認(rèn)知計(jì)算建立在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)之上,運(yùn)用認(rèn)知科學(xué)中的知識來構(gòu)建能夠模擬人類思維過程的系統(tǒng)。然而,認(rèn)知計(jì)算覆蓋了好多學(xué)科,例如機(jī)器學(xué)習(xí)、自然語言處理、視覺以及人機(jī)交互,而不僅僅是聚焦于某個單獨(dú)的技術(shù)。
認(rèn)知學(xué)習(xí)的一個例子就是 IBM 的 Waston,它在 Jeopardy 上展示了當(dāng)時最先進(jìn)的問答交互。IBM 已經(jīng)將其擴(kuò)展在了一系列的 web 服務(wù)上了。這些服務(wù)提供了用于一些列應(yīng)用的編程接口來構(gòu)建強(qiáng)大的虛擬代理,這些接口有:視覺識別、語音文本轉(zhuǎn)換(語音識別)、文本語音轉(zhuǎn)換(語音合成)、語言理解和翻譯、以及對話引擎。
繼續(xù)前進(jìn)
本文僅僅涵蓋了關(guān)于人工智能歷史以及最新的神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法的一小部分。盡管人工智能和機(jī)器學(xué)習(xí)經(jīng)歷了很多起起伏伏,但是像深度學(xué)習(xí)和認(rèn)知計(jì)算這樣的新方法已經(jīng)明顯地提升了這些學(xué)科的水平。雖然可能還無法實(shí)現(xiàn)一個具有意識的機(jī)器,但是今天確實(shí)有著能夠改善人類生活的人工智能系統(tǒng)。
2024-03-07 10:20
2024-03-07 09:56
2024-03-07 09:43
2024-03-05 09:41
2024-03-05 09:39
2024-03-05 09:37
2024-03-05 09:32
2024-03-05 08:59
2024-03-04 09:11
2024-03-04 09:07