亚洲精品少妇久久久久久海角社区,色婷婷亚洲一区二区综合,伊人蕉久中文字幕无码专区,日韩免费高清大片在线

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

人工智能深度學習簡史(1956~2024)

[羅戈導讀]本文概述人工智能與深度學習發(fā)展史,從早期神經(jīng)網(wǎng)絡(luò)到現(xiàn)代大型語言模型和多模態(tài)系統(tǒng),探討關(guān)鍵里程碑及其對各領(lǐng)域的影響,強調(diào)未來多方法協(xié)同發(fā)展的潛力。

原文:A Brief History of AI with Deep Learning,Aug 31, 2024

原作者:LM Po,一位科技專欄作家

編譯者:唐隆基博士

編譯者注:本文編譯者在一場意外的左手創(chuàng)傷中走出來后,又繼續(xù)開始了他的新興技術(shù)發(fā)展趨勢及戰(zhàn)略和應用的研究,研究中發(fā)現(xiàn)兩篇介紹人工智能簡史的文章,特編譯發(fā)布以供讀者學習參考,以幫助讀者提高對人工智能革命的認識和促進人工智能技術(shù)的釆用。本文是兩篇文章之一,另一篇待發(fā)布的是《大模型(LMMs)發(fā)展簡史(2017~2025)》。

過去幾十年來,人工智能 (AI) 和深度學習取得了顯著進步,徹底改變了計算機視覺、自然語言處理和機器人等領(lǐng)域。本文概述了深度學習在人工智能發(fā)展史上的重要里程碑,從早期的神經(jīng)網(wǎng)絡(luò)模型到現(xiàn)代的大型語言模型和多模態(tài)人工智能系統(tǒng)。下圖描繪了一個人工智能深度學習的簡史。

1. 《人工智能的誕生》(1956年)

人工智能 (AI) 的概念已存在數(shù)百年,但我們今天所知的現(xiàn)代人工智能領(lǐng)域始于 20 世紀中葉。“人工智能”一詞最初由計算機科學家和認知科學家約翰?麥卡錫于 1956 年在達特茅斯人工智能夏季研究項目中提出。

達特茅斯會議通常被認為是人工智能研究領(lǐng)域的發(fā)源地。會議匯集了一群計算機科學家、數(shù)學家和認知科學家,探討創(chuàng)造能夠模擬人類智能的機器的可能性。與會者包括馬文?明斯基、納撒尼爾?羅切斯特和克勞德?香農(nóng)等知名人士。下圖拍于馬文?明斯基、克勞德?香農(nóng)、雷?所羅門諾夫和其他科學家參加達特茅斯人工智能夏季研究項目。

1.1人工智能的演變:從基于規(guī)則的系統(tǒng)到深度學習

人工智能的演進始于 20 世紀 50 年代,當時出現(xiàn)了用于國際象棋和問題解決等任務的算法,第一個人工智能程序“邏輯理論家”于 1956 年誕生。20 世紀 60 年代和 70 年代出現(xiàn)了基于規(guī)則的專家系統(tǒng),例如 MYCIN,它可以協(xié)助復雜的決策過程。20 世紀 80 年代出現(xiàn)了機器學習,它使人工智能系統(tǒng)能夠從數(shù)據(jù)中學習并不斷改進,為現(xiàn)代深度學習技術(shù)奠定了基礎(chǔ)。

 

如今,大多數(shù)尖端人工智能技術(shù)都由深度學習技術(shù)驅(qū)動,這些技術(shù)徹底改變了人工智能的格局。深度學習是機器學習的一個分支,它利用多層人工神經(jīng)網(wǎng)絡(luò)從原始輸入數(shù)據(jù)中提取復雜特征。本文將探討人工智能的歷史,并重點介紹深度學習在其發(fā)展過程中所扮演的角色。

2. 早期人工神經(jīng)網(wǎng)絡(luò)(20世紀40年代至60年代)

2.1 Muclloch-Pitts神經(jīng)元(1943年)

神經(jīng)網(wǎng)絡(luò)的概念可以追溯到 1943 年,當時 Warren McCulloch 和 Walter Pitts 提出了第一個人工神經(jīng)元模型。McCulloch-Pitts (MP) 神經(jīng)元模型是對生物神經(jīng)元的突破性簡化。該模型通過聚合二進制輸入,并使用閾值激活函數(shù)基于該聚合結(jié)果進行決策,最終得到二進制輸出 {0, 1},從而奠定了人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

這個簡化的模型抓住了神經(jīng)元行為的本質(zhì)——接收多個輸入,對其進行積分,并根據(jù)積分信號是否超過閾值產(chǎn)生二進制輸出。盡管簡單,MP神經(jīng)元模型卻能夠?qū)崿F(xiàn)基本的邏輯運算,展現(xiàn)了神經(jīng)計算的潛力。

2.2 Rosenblatt的感知器模型(1957)

1957 年,弗蘭克?羅森布拉特 (Frank Rosenblatt) 提出了感知器 (Perceptron),這是一種能夠?qū)W習和識別模式的單層神經(jīng)網(wǎng)絡(luò)。感知器模型是一種比 MP 神經(jīng)元更通用的計算模型,旨在處理實值輸入并調(diào)整權(quán)重以最小化分類誤差。

 

羅森布拉特還為感知器開發(fā)了一種監(jiān)督學習算法,使得網(wǎng)絡(luò)可以直接從訓練數(shù)據(jù)中學習。

羅森布拉特對感知器能力的雄心勃勃的宣稱,包括其識別個體和翻譯不同語言語音的潛力,在當時引發(fā)了公眾對人工智能的濃厚興趣。感知器模型及其相關(guān)的學習算法標志著神經(jīng)網(wǎng)絡(luò)演進的重要里程碑。然而,一個關(guān)鍵的局限性很快顯現(xiàn)出來:感知器的學習規(guī)則在面對非線性可分離的訓練數(shù)據(jù)時無法收斂。

2.3艾達琳 (1959)

1959年,Widrow 和 Hoff提出了ADALINE(自適應線性神經(jīng)元,又稱 Delta 學習規(guī)則),這是對感知器學習規(guī)則的改進。ADALINE 解決了二進制輸出和噪聲敏感性等限制,并能夠?qū)W習和收斂非線性可分離數(shù)據(jù),這是神經(jīng)網(wǎng)絡(luò)發(fā)展的重大突破。 

ADALINE 的主要功能包括:

  • 線性激活函數(shù):與感知器的階躍函數(shù)不同,ADALINE 使用線性激活函數(shù),使其

  • 適用于回歸任務和連續(xù)輸出。

  • 最小均方 (LMS) 算法:ADALINE 采用LMS 算法,最大限度地減少預測輸出和實際輸出之間的均方誤差,從而提供更高效、更穩(wěn)定的學習過程。

  • 自適應權(quán)重:LMS 算法根據(jù)輸出中的誤差自適應地調(diào)整權(quán)重,使 ADALINE即使在存在噪聲的情況下也能有效地學習和收斂。

ADALINE 的推出標志著神經(jīng)網(wǎng)絡(luò)第一個黃金時代的開啟,它克服了羅森布拉特感知器學習的局限性。這一突破實現(xiàn)了高效學習、連續(xù)輸出以及對噪聲數(shù)據(jù)的自適應,引發(fā)了該領(lǐng)域的創(chuàng)新浪潮和快速發(fā)展。 

然而,與感知器一樣,ADALINE 仍然局限于線性可分離問題,無法解決更復雜、更非線性的任務。這一局限性后來被 XOR 問題凸顯,從而催生了更高級的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

2.4異或問題(1969)

1969年,馬文?明斯基(Marvin Minsky)和西摩?帕普特(Seymour Papert)在他們的著作《感知器》(Perceptrons)中強調(diào)了單層感知器的一個關(guān)鍵局限性。他們指出,由于感知器的決策邊界是線性的,它無法解決簡單的二分類任務——異或(XOR)問題。異或問題不是線性可分的,這意味著沒有任何一個線性邊界能夠正確地對所有輸入模式進行分類。

這一發(fā)現(xiàn)凸顯了對能夠?qū)W習非線性決策邊界的更復雜神經(jīng)網(wǎng)絡(luò)架構(gòu)的需求。感知器局限性的暴露導致人們對神經(jīng)網(wǎng)絡(luò)失去信心,并轉(zhuǎn)向符號人工智能方法,標志著從 20 世紀 70 年代初到 80 年代中期“神經(jīng)網(wǎng)絡(luò)的第一個黑暗時代”的開始。

然而,從解決異或問題中獲得的洞見使研究人員認識到,需要更復雜的模型來捕捉非線性關(guān)系。這一認識最終促成了多層感知器和其他先進神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,為未來幾十年神經(jīng)網(wǎng)絡(luò)和深度學習的復興奠定了基礎(chǔ)。

3. 多層感知器(20世紀60年代)

多層感知器 (MLP) 于 20 世紀 60 年代問世,是對單層感知器的改進。它由多層互連的神經(jīng)元組成,從而彌補了單層模型的局限性。蘇聯(lián)科學家AG Ivakhnenko 和 V. Lapa在感知器的基礎(chǔ)工作基礎(chǔ)上,為 MLP 的發(fā)展做出了重大貢獻。

3.1隱藏層

隱藏層的添加使 MLP 能夠捕獲并表示數(shù)據(jù)中復雜的非線性關(guān)系。這些隱藏層顯著增強了網(wǎng)絡(luò)的學習能力,使其能夠解決非線性可分的問題,例如異或問題。

3.2 MLP 的歷史背景和挑戰(zhàn)

MLP 標志著神經(jīng)網(wǎng)絡(luò)研究的重大進步,展現(xiàn)了深度學習架構(gòu)在解決復雜問題方面的潛力。然而,在 20 世紀 60 年代和 70 年代,MLP 的發(fā)展受到了以下幾個挑戰(zhàn)的阻礙:

  • 缺乏訓練算法:早期的MLP模型缺乏有效的訓練算法來調(diào)整網(wǎng)絡(luò)權(quán)重。缺乏反向傳播使得訓練多層深度網(wǎng)絡(luò)變得困難。

  • 計算限制:當時的計算能力不足以處理訓練深度神經(jīng)網(wǎng)絡(luò)所需的復雜計算。這一限制減緩了 MLP 研發(fā)的進度。

神經(jīng)網(wǎng)絡(luò)的第一個黑暗時代于 1986 年隨著反向傳播算法的重新發(fā)現(xiàn)和發(fā)表而結(jié)束,從此開啟了神經(jīng)網(wǎng)絡(luò)的第二個黃金時代。

4. 反向傳播(1970年代-1980年代)

1969 年,異或問題凸顯了感知器(單層神經(jīng)網(wǎng)絡(luò))的局限性。研究人員意識到多層神經(jīng)網(wǎng)絡(luò)可以克服這些局限性,但他們?nèi)狈τ柧氝@些復雜網(wǎng)絡(luò)的實用算法。反向傳播算法歷時 17 年才得以開發(fā),使得神經(jīng)網(wǎng)絡(luò)能夠在理論上逼近任何函數(shù)。有趣的是,后來人們發(fā)現(xiàn),該算法實際上在其發(fā)表之前就已經(jīng)被發(fā)明出來了。如今,反向傳播是深度學習的一個基本組成部分,自 20 世紀 60 年代和 70 年代誕生以來,它經(jīng)歷了重大的進步和完善。 

4.1早期發(fā)展(20 世紀 70 年代)

  • Seppo Linnainmaa(1970):引入了自動微分的概念,這是反向傳播算法的關(guān)鍵組成部分。

  • Paul Werbos (1974):提出使用微積分的鏈式法則來計算誤差函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)重的梯度,從而實現(xiàn)多層神經(jīng)網(wǎng)絡(luò)的訓練。

4.2細化與普及(20世紀80年代)

  • David Rumelhart、Geoffrey Hinton 和 Ronald Williams (1986):提出反向傳播是一種訓練深度神經(jīng)網(wǎng)絡(luò)的實用且有效的方法,并展示了其在各種問題中的應用。 

4.3反向傳播的主要特點:

  • 梯度下降:反向傳播與梯度下降結(jié)合使用,以最小化誤差函數(shù)。該算法計算網(wǎng)絡(luò)中每個權(quán)重的誤差梯度,從而允許迭代更新權(quán)重以減少誤差。

  • 鏈式法則:反向傳播算法的核心是應用微積分的鏈式法則。該法則允許將誤差的梯度分解為一系列偏導數(shù),這些偏導數(shù)可以通過網(wǎng)絡(luò)的反向傳播有效地計算出來。

  • 分層計算:反向傳播以逐層的方式進行,從輸出層開始,反向傳播到輸入層。這種分層計算確保梯度在網(wǎng)絡(luò)中正確傳播,從而實現(xiàn)深度架構(gòu)的訓練。

4.4通用近似定理(1989)

喬治?西本科(George Cybenko)于 1989 年提出的通用近似定理,為多層神經(jīng)網(wǎng)絡(luò)的功能奠定了數(shù)學基礎(chǔ)。該定理指出,在給定足夠多的神經(jīng)元并使用非線性激活函數(shù)的情況下,具有單個隱藏層的前饋神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任何連續(xù)函數(shù)。該定理凸顯了神經(jīng)網(wǎng)絡(luò)的強大功能和靈活性,使其適用于廣泛的應用。

具有單個隱藏層的多層神經(jīng)網(wǎng)絡(luò)可以將任何連續(xù)函數(shù)近似到任何所需的精度,從而能夠解決各個領(lǐng)域的復雜問題。

4.5第二個黃金時代(20 世紀 80 年代末 — 90 年代初)

反向傳播和通用逼近定理 (UAT) 的發(fā)展標志著神經(jīng)網(wǎng)絡(luò)的第二個黃金時代的開始。反向傳播提供了一種訓練多層神經(jīng)網(wǎng)絡(luò)的有效方法,使研究人員能夠訓練更深層、更復雜的模型。UAT 為多層神經(jīng)網(wǎng)絡(luò)的使用提供了理論依據(jù),并增強了人們對其解決復雜問題能力的信心。這一時期橫跨 20 世紀 80 年代末至 90 年代初,人們對該領(lǐng)域的興趣再次高漲,并取得了顯著的進展。

4.6第二個黑暗時代(20 世紀 90 年代初 — 21 世紀初)

然而,由于以下幾個因素,神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 20 世紀 90 年代初至 21 世紀初經(jīng)歷了“第二個黑暗時代”:

  • 支持向量機(SVM)的興起,為分類和回歸任務提供了一種數(shù)學上優(yōu)雅的方法。

  • 計算限制,因為訓練深度神經(jīng)網(wǎng)絡(luò)仍然耗時且需要大量硬件。

  • 過度擬合和泛化問題,早期的神經(jīng)網(wǎng)絡(luò)在訓練數(shù)據(jù)上表現(xiàn)良好,但在未知數(shù)據(jù)上表現(xiàn)不佳,這使得它們在實際應用中不太可靠。

這些挑戰(zhàn)導致許多研究人員將注意力從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移,導致該領(lǐng)域陷入停滯。

 

4.7深度學習的復興(21 世紀初至今)

神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 21 世紀末和 2010 年代初經(jīng)歷了一次復興,這得益于以下領(lǐng)域的進步:

  • 深度學習架構(gòu)(CNN、RNN、Transformer、擴散模型)

  • 硬件(GPU、TPU、LPU)

  • 大型數(shù)據(jù)集(ImageNet、COCO、OpenWebText、WikiText 等)

  • 訓練算法(SGD、Adam、dropout)

這些進步促成了計算機視覺、自然語言處理、語音識別和強化學習領(lǐng)域的重大突破。通用近似定理與實踐進步相結(jié)合,為深度學習技術(shù)的廣泛應用和成功鋪平了道路。

5. 卷積神經(jīng)網(wǎng)絡(luò)(1980 年代 - 2010 年代)

卷積神經(jīng)網(wǎng)絡(luò) (CNN) 極大地改變了深度學習的格局,尤其是在計算機視覺和圖像處理領(lǐng)域。從 20 世紀 80 年代到 2010 年代,CNN 的發(fā)展反映了其在架構(gòu)、訓練技術(shù)和應用方面的顯著進步。

5.1早期發(fā)展(1989-1998)

CNN 的概念最早由福島健二 (Kenji Fukushima) 在 20 世紀 80 年代提出,他提出了Neocognitron,這是一種模仿人類視覺皮層結(jié)構(gòu)的分層神經(jīng)網(wǎng)絡(luò)。這項開創(chuàng)性的工作為 CNN 的發(fā)展奠定了基礎(chǔ)。20 世紀 80 年代末到 90 年代初,Yann LeCun 和他的團隊進一步開發(fā)了 CNN,推出了專為手寫數(shù)字識別而設(shè)計的LeNet-5架構(gòu)。

5.2 CNN 的關(guān)鍵組件

CNN 由三個關(guān)鍵組件構(gòu)成:

1.  卷積層:這些層通過應用一組可學習的過濾器自動從輸入圖像中學習特征的空間層次結(jié)

構(gòu)。

2. 池化層:池化層減少了輸入的空間維度,增強了對變化的魯棒性并降低了計算負荷。

3. 全連接層:在卷積層和池化層之后,全連接層用于分類任務,整合從先前層學習到的特

征。

5.3 CNN 的主要特點

  • 局部感受野:CNN 使用局部感受野來捕獲輸入數(shù)據(jù)中的局部模式,使其對于圖像和視覺任務非常有效。

  • 共享權(quán)重:在卷積層中使用共享權(quán)重可以減少網(wǎng)絡(luò)中的參數(shù)數(shù)量,從而提高效率并更易于訓練。

  • 平移不變性:池化層引入了平移不變性,使得網(wǎng)絡(luò)能夠識別模式,而不管其在輸入圖像中的位置如何。

5.4 CNN 的興起:AlexNet 的影響(2012 年)

2012年,CNN發(fā)展迎來了重要的里程碑,AlexNet在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中取得巨大勝利,取得了顯著的勝利優(yōu)勢,標志著圖像分類領(lǐng)域取得了重大突破。 下面是AlexNet 的架構(gòu)(2012): 

ILSVRC 是一項年度圖像識別基準測試,其基于超過 1000 萬張帶注釋圖像的數(shù)據(jù)集評估算法,這些圖像被分為 1000 個類別。AlexNet 的創(chuàng)新包括:

1. ReLU 激活函數(shù):ReLU 的引入是為了克服傳統(tǒng)激活函數(shù)的問題,它可以加快訓練速度

并提高性能。

2. 丟棄正則化:該技術(shù)通過在訓練期間隨機丟棄單元來減少過度擬合。

3.   數(shù)據(jù)增強:通過人為增加訓練數(shù)據(jù)的多樣性,對訓練數(shù)據(jù)集的增強提高了泛化能力。

AlexNet 的成功標志著 CNN 發(fā)展的一個轉(zhuǎn)折點,為圖像分類和物體檢測的進一步發(fā)展鋪平了道路。

AlexNet 開啟神經(jīng)網(wǎng)絡(luò)的第三個黃金時代:

 

當前的黃金時代(2010 年代至今)以深度學習、大數(shù)據(jù)和強大計算平臺的融合為標志。這個時代見證了圖像識別、自然語言處理和機器人技術(shù)方面的顯著突破。持續(xù)進行的研究不斷突破人工智能能力的界限。

5.5后續(xù)架構(gòu)

繼 AlexNet 之后,出現(xiàn)了幾種有影響力的架構(gòu):

  • VGGNet(2014):VGGNet 由牛津大學視覺幾何小組開發(fā),強調(diào)更深的架構(gòu)和更小的卷積濾波器(3x3),實現(xiàn)了顯著的準確性。

  • GoogLeNet/Inception(2014):引入了 Inception 模塊,使網(wǎng)絡(luò)能夠有效地捕獲多尺度特征。

  • ResNet(2015):殘差網(wǎng)絡(luò)引入了跳過連接,使得非常深的網(wǎng)絡(luò)訓練成為可能,同時緩解了梯度消失問題。

5.6 CNN 的應用

CNN 的進步徹底改變了各個領(lǐng)域:

  • 計算機視覺:CNN 已成為現(xiàn)代計算機視覺的支柱,推動了圖像分類、對象檢測和語義分割方面的突破。

  • 醫(yī)學成像:CNN 用于疾病診斷、腫瘤檢測和圖像引導手術(shù)等任務,顯著提高診斷準確性。

  • 自動駕駛汽車:CNN 是自動駕駛汽車感知系統(tǒng)不可或缺的一部分,使它們能夠解釋和響應周圍環(huán)境

下圖展示了CNN 的計算機視覺應用。 

CNN 從誕生到如今成為深度學習基石的歷程,展現(xiàn)了其對人工智能的深遠影響。CNN 的成功也為深度學習的進一步發(fā)展鋪平了道路,并啟發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 RNN 和 Transformer)的發(fā)展。CNN 的理論基礎(chǔ)和實踐創(chuàng)新,為深度學習技術(shù)在各個領(lǐng)域的廣泛應用和成功做出了重要貢獻。

6. 循環(huán)神經(jīng)網(wǎng)絡(luò)(1986-2017)

循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 旨在處理序列數(shù)據(jù)。與傳統(tǒng)的前饋網(wǎng)絡(luò)(又稱多層感知器 (MLP))不同,RNN 會維護內(nèi)部隱藏狀態(tài)或“記憶”,從而能夠捕捉序列元素之間的時間依賴關(guān)系。這使得 RNN 在語言建模、時間序列預測和語音識別等任務中尤為有效。

6.1早期發(fā)展(20 世紀 80 年代至 90 年代)

RNN 的概念可以追溯到 20 世紀 80 年代,像 John Hopfield、Michael I. Jordan 和 Jeffrey L. Elman 這樣的先驅(qū)為這些網(wǎng)絡(luò)的發(fā)展做出了貢獻。John Hopfield 于 1982 年提出的 Hopfield 網(wǎng)絡(luò)為理解神經(jīng)網(wǎng)絡(luò)中的循環(huán)連接奠定了基礎(chǔ)。Jordan 網(wǎng)絡(luò)和 Elman 網(wǎng)絡(luò)分別于 20 世紀 80 年代和 90 年代提出,是捕捉序列數(shù)據(jù)中時間依賴關(guān)系的早期嘗試。

RNN 使用時間反向傳播 (BPTT) 進行訓練,這是用于前饋網(wǎng)絡(luò)的標準反向傳播算法的擴展。BPTT 涉及隨時間展開網(wǎng)絡(luò),將每個時間步視為一個層。在前向傳播過程中,處理輸入序列,并在輸出層計算誤差。然后將得到的梯度從最后一個時間步反向傳播到第一個時間步,更新 RNN 的參數(shù)。然而,由于梯度消失問題,RNN 難以學習長時間依賴性,在這種情況下,梯度會變得非常小,導致無法學習。相反,梯度可能會變得過大,導致訓練不穩(wěn)定,這被稱為梯度爆炸問題。

6.2 LSTM、GRU 和 Seq2Seq 模型(1997 年至 2014 年)

  • 長短期記憶網(wǎng)絡(luò) (LSTM) (1997):Sepp Hochreiter 和 Jürgen Schmidhuber 提出了 LSTM 網(wǎng)絡(luò)來解決傳統(tǒng) RNN 中的梯度消失問題。LSTM 使用門控機制來控制信息流,使其能夠捕獲序列數(shù)據(jù)中的長期依賴關(guān)系。它由單元狀態(tài)(存儲長期信息)、隱藏狀態(tài)(承載當前時間步的短期輸出)和三個門控(輸入門、遺忘門、輸出門)組成。在每一步中,LSTM 都會基于多個數(shù)學運算和門控來決定需要遺忘多少信息、需要將多少信息添加到單元狀態(tài)以及需要將多少信息輸出到下一步。

 

  • 門控循環(huán)單元 (GRU) (2014):Kyunghyun Cho 等人提出了 GRU,它是 LSTM 的精簡版本,也采用門控機制來調(diào)節(jié)信息流。與具有三個門和兩個狀態(tài)的 LSTM 不同,GRU 僅使用兩個門和一個狀態(tài)。LSTM 的遺忘門和輸入門合并為一個更新門,該更新門決定保留多少過去信息以及合并多少新信息。此外,LSTM 的輸出門在 GRU 中被重置門取代,重置門決定在整合新信息之前需要“重置”或遺忘多少過去信息。GRU 的參數(shù)比 LSTM 少,因此訓練速度通常更快。

  • 序列到序列模型(Seq2Seq) (2014):Ilya Sutskever 和他的團隊提出了 Seq2Seq 模型,該模型使用編碼器-解碼器架構(gòu)將輸入序列映射到輸出序列。該模型已廣泛應用于機器翻譯、語音識別和文本摘要等任務。

下面是使用 LSTM 的序列到序列模型的編碼器-解碼器架構(gòu): 

6.3 RNN應用

RNN 對各個領(lǐng)域產(chǎn)生了重大影響,包括:

1. 自然語言處理:RNN 徹底改變了自然語言處理領(lǐng)域,使得語言建模、機器翻譯、情感分析和文本生成等任務取得了重大進步。

2. 語音識別:RNN 廣泛應用于語音識別系統(tǒng),它們對口語中的時間依賴性進行建模,將語音信號轉(zhuǎn)換為文本。

3. 時間序列預測:RNN 對于時間序列預測非常有效,它們對序列數(shù)據(jù)中的時間依賴性進行建模以預測未來值。

2016年,谷歌翻譯改用神經(jīng)機器翻譯系統(tǒng),大大提高了翻譯質(zhì)量。

6.4 RNN 的挑戰(zhàn)

盡管 RNN 取得了成功,但它仍面臨一些挑戰(zhàn):

  • 梯度消失和梯度爆炸:盡管 LSTM 和 GRU 提供了一些解決方案,但傳統(tǒng)的 RNN 仍難以解決這些問題。

  • 計算復雜性:訓練 RNN 可能需要大量資源,尤其是在處理大型數(shù)據(jù)集時。

  • 并行化:RNN 的順序特性使得并行訓練和推理過程變得復雜。

RNN 的成功為深度學習的進一步發(fā)展鋪平了道路,并激發(fā)了其他專用神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 Transformer)的發(fā)展,這些架構(gòu)在各種序列數(shù)據(jù)任務中都取得了卓越的性能。RNN 的理論基礎(chǔ)和實踐創(chuàng)新為深度學習技術(shù)在各個領(lǐng)域的廣泛應用和成功做出了重要貢獻。

7. 《變形金剛》(2017年至今)

Transformer 憑借其出色的處理序列數(shù)據(jù)的能力改變了深度學習的格局,成為從自然語言處理 (NLP) 到計算機視覺等許多領(lǐng)域的關(guān)鍵。

7.1 Transformer簡介(2017)

Transformer 模型由Vaswani 等人(2017) 在開創(chuàng)性論文《Attention is All You Need 》中提出。該模型放棄了傳統(tǒng)的 RNN 順序處理,轉(zhuǎn)而采用自注意力機制,從而實現(xiàn)并行處理并更好地處理長距離依賴關(guān)系。下圖是自注意力機制:

7.2 Transformer 的主要特性

  • 自注意力機制:允許序列中的每個位置關(guān)注所有位置,比 RNN 或 LSTM 更靈活地捕捉上下文。

  • 并行化:通過同時處理所有輸入數(shù)據(jù)來提高訓練速度,這與 RNN 的順序性形成鮮明對比。

  • 編碼器-解碼器結(jié)構(gòu):編碼器和解碼器堆棧都利用自注意力和前饋神經(jīng)網(wǎng)絡(luò)層,并使用位置編碼來維持序列順序。

下面是具有編碼器-解碼器結(jié)構(gòu)和多頭注意力機制的原始 Transformer 架構(gòu): 

下面是基于 Transformer 的語言模型: 

7.3基于 Transformer 的語言模型(2017 年至今)

  • BERT(2018): Transformers 的雙向編碼器表示,一種僅編碼器的 Transformer,通過對掩碼語言建模(masked language modeling)和下一句預測進行預訓練,徹底改變了 NLP。

  • T5(2019):文本到文本傳輸轉(zhuǎn)換器,一種編碼器-解碼器轉(zhuǎn)換器,將 NLP 任務重新定義為文本到文本的格式,簡化了模型架構(gòu)和訓練。

 

 

上圖是BERT 和GTP 與 T5的對比。

7.3.1 OpenAI GPT 系列概述

OpenAI 的生成式預訓練 Transformer (GPT) 系列自 2018 年誕生以來,顯著推動了自然語言處理 (NLP) 領(lǐng)域的發(fā)展。每次迭代都建立在上一次迭代的基礎(chǔ)上,引入了更強大的模型和更強大的功能。以下是每個版本的詳細概述。

GPT 的自回歸語言模型架構(gòu)旨在根據(jù)輸入的前一個標記來預測序列中的下一個標記。

  • GPT(2018):最初的 GPT 模型于 2018 年推出,是一個自回歸解碼器專用 Transformer,擁有1.17 億個參數(shù)。它旨在預測序列中的下一個標記(子詞),展現(xiàn)出強大的理解和生成類人文本的能力。這一基礎(chǔ)模型為生成式語言模型的后續(xù)發(fā)展奠定了基礎(chǔ),展現(xiàn)了在大型文本語料庫中進行無監(jiān)督學習的潛力。

  • GPT-2 (2019): GPT-2 于 2019 年發(fā)布,標志著模型規(guī)模和能力的顯著飛躍,可擴展至15 億個參數(shù)。該版本展現(xiàn)出了一些新興能力,例如零樣本任務性能,即無需專門訓練即可執(zhí)行任務。然而,它能夠生成連貫但有時具有誤導性的文本,這引發(fā)了人們對其潛在濫用的倫理擔憂,尤其是在生成虛假新聞或虛假信息方面。

  • GPT-3 (2020): GPT-3 于 2020 年發(fā)布,其模型規(guī)模進一步擴展至令人印象深刻的1750 億個參數(shù)。該模型在少樣本學習方面展現(xiàn)出卓越的能力,能夠基于提示期間提供的少量示例適應各種任務。它能夠生成類似人類的文本,使其成為內(nèi)容創(chuàng)作、編碼輔助和對話代理等眾多應用的多功能工具。GPT-3 的架構(gòu)使其無需進行大量微調(diào)即可執(zhí)行各種 NLP 任務,鞏固了其作為當時最強大的語言模型之一的地位。

  • ChatGPT(2022):經(jīng)過微調(diào)的 GPT-3.5 模型,通過人類反饋強化學習 (RLHF) 針對多輪對話進行了優(yōu)化,擅長處理后續(xù)問題和維護上下文,通過指令調(diào)整和偏好數(shù)據(jù)使響應與用戶意圖保持一致。

高級大型語言模型 (LLM) 訓練流程涉及預訓練、指令調(diào)整和偏好調(diào)整的組合,使用人類反饋強化學習 (RLHF) 或直接偏好優(yōu)化 (DPO)。

  • GPT-4(2023):最新版本的 GPT-4 于 2023 年發(fā)布,延續(xù)了功能和參數(shù)擴展的趨勢,盡管目前有關(guān)其架構(gòu)和參數(shù)數(shù)量的具體細節(jié)尚未完全公開披露。預計它將進一步提升先前模型的性能,尤其是在推理和理解復雜情境等領(lǐng)域。 

詳見https://klu.ai/glossary/large-language-model 。

7.4其他著名的大型語言模型(LLM)

大型語言模型 (LLM) 的領(lǐng)域因各種杰出模型而得到了顯著豐富,每種模型都提供了獨特的功能,并在人工智能領(lǐng)域取得了進步。以下是一些知名 LLM 的最新概述:

  • Anthropic 的 Claude (2022):優(yōu)先考慮人工智能輸出的安全性和道德考慮,旨在與人類價值觀保持一致。

  • Meta 的 LLaMA(2023):為不同的計算需求提供不同大小的模型,在自然語言處理基準測試中取得了令人印象深刻的成果。

  • Mistral.AI 的 Mistral (2023):平衡高性能和資源效率,非常適合實時應用,專注于開源 AI 解決方案。

  • 阿里巴巴的Qwen(2023年):為英語和中文創(chuàng)建高質(zhì)量的雙語人工智能模型,促進跨語言應用并鼓勵創(chuàng)新。

  • 微軟的 Phi(2023 年):強調(diào)跨各種應用程序的多功能性和集成性,并具有用于情境理解和用戶交互的高級培訓技術(shù)。

  • Google 的 Gemma 系列(2024 年):輕量級、最先進的開放模型,適用于各種應用,包括文本生成、摘要和提取,重點關(guān)注性能和效率。

詳見https://www.analyticsvidhya.com/blog/2023/07/build-your-own-large-language-models/

 

詳見https://medium.com/towards-data-science/fine-tune-llama-3-1-ultra-efficiently-with-unsloth-7196c7165bab,此外,此文沒有包括后起之秀的中國大模型DeepSeak。關(guān)于更詳細的內(nèi)容請關(guān)注待發(fā)布的另一篇文章《大模型簡史》。

8. 多模態(tài)模型(2023年至今)

8.1 GPT-4V (2023) 和 GPT-4o (2024)

  • GPT-4V(2023)將多模態(tài)功能集成到本已強大的基于文本的模型中,標志著人工智能發(fā)展邁出了重要一步。它不僅可以處理和生成文本內(nèi)容,還可以處理和生成圖像內(nèi)容,為更全面的人工智能交互奠定了基礎(chǔ)。

 

  • GPT-4o (2024)是 GPT-4V 的演進版,它增強了多模態(tài)集成能力,并具備復雜的語境理解能力。相比前代產(chǎn)品,GPT-4o 的改進之處在于:在不同媒體之間實現(xiàn)了更佳的連貫性,能夠根據(jù)文本提示生成高級圖像,并基于視覺輸入進行精細推理。此外,GPT-4o 還包含先進的倫理道德訓練機制,確保其輸出不僅準確,而且負責任,符合人類價值觀。

8.2谷歌的 Gemini(2023 年至今)

  • Gemini Pro (2023):谷歌 Gemini 推出了一系列專為多模態(tài)任務設(shè)計的模型,集成了文本、圖像、音頻和視頻處理功能。Gemini Pro 尤其以其可擴展性和效率而著稱,使高級 AI 能夠應用于各種應用,從實時分析到跨不同媒體格式的復雜內(nèi)容生成。

  • Gemini 的多模態(tài)能力:Gemini 模型(包括適用于不同規(guī)模應用的 Ultra 和 Nano 版本)旨在執(zhí)行需要理解多種數(shù)據(jù)類型的任務。它們在視頻摘要、多模態(tài)翻譯和交互式學習環(huán)境等任務中表現(xiàn)出色,彰顯了 Google 致力于提升 AI 在多媒體環(huán)境中地位的決心。

8.2 Claude 3.0 和 Claude 3.5(2023 年至今)

  • Claude 3.0(2023)由 Anthropic 推出,該模型專注于增強人工智能響應的安全性和可靠性,并改進了情境理解和倫理考量。它旨在提高對話性和實用性,同時嚴格避免產(chǎn)生有害或帶有偏見的輸出。

  • Claude 3.5(2024)進一步完善了 Claude 3.0 的功能,使其在復雜任務中表現(xiàn)更佳,處理效率更高,用戶請求的處理也更加細致入微。此版本也強調(diào)了多模態(tài)交互,盡管它主要擅長文本和邏輯任務,但其在處理視覺或其他感官輸入方面也逐漸增強,從而帶來更加集成的用戶體驗。

8.3 LLaVA(2023年)

LLaVA(大型語言和視覺助手)代表了一種創(chuàng)新的多模態(tài)人工智能方法,它將語言理解與視覺處理相結(jié)合。LLaVA 于 2023 年開發(fā),能夠解讀圖像并將其與文本內(nèi)容關(guān)聯(lián)起來,從而能夠回答關(guān)于圖像的問題、描述視覺內(nèi)容,甚至根據(jù)視覺線索生成文本。其架構(gòu)充分利用了 Transformer 模型的優(yōu)勢,在需要視覺和語言理解的任務中實現(xiàn)了最佳性能。該模型因其開源特性而備受矚目,這將鼓勵人們在多模態(tài)人工智能應用方面進行進一步的研究和開發(fā)。下圖描繪了LLaVA的架構(gòu)。

這些模型共同標志著人工智能系統(tǒng)向著新的方向發(fā)展:它不僅能夠理解和生成文本,還能跨多種模態(tài)解釋和創(chuàng)作內(nèi)容,從而更貼近人類的認知能力。人工智能模型的這種演進將催生更具交互性、更直觀的應用程序,并使其能夠通過融合不同的感官輸入來處理現(xiàn)實世界的場景,從而拓展人工智能在日常生活、研究和行業(yè)應用中的潛力。

9. 擴散模型(2015年至今)

擴散模型已成為一類頗具影響力的生成模型,它提供了一種從復雜數(shù)據(jù)分布中創(chuàng)建高保真樣本的全新方法。與 GAN 和 VAE 等傳統(tǒng)模型相比,擴散模型采用了一種漸進式去噪技術(shù),該技術(shù)在眾多應用中均表現(xiàn)出色。

9.1擴散模型簡介(2015)

Sohl-Dickstein 等人(2015)在其論文中引入了擴散模型,奠定了基礎(chǔ)。他們概念化了一個生成過程,通過逆轉(zhuǎn)逐漸添加的噪聲,可以將噪聲重新轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。

 

9.2擴散模型的主要特征

  • 去噪過程:這些模型逐步添加噪聲(前向過程)并學習逆轉(zhuǎn)這一過程(后向過程),從而有效地去噪以生成樣本。

  • 馬爾可夫鏈:這兩個過程都以馬爾可夫鏈的形式構(gòu)建,每個前向步驟都會添加高斯噪聲,模型會反向?qū)W習消除這些噪聲。

  • 訓練目標:目標是最小化每一步預測噪聲和實際噪聲之間的差異,優(yōu)化證據(jù)下限(ELBO)的形式。

  • 穩(wěn)定性和魯棒性:它們比 GAN 具有更好的穩(wěn)定性,避免了模式崩潰等問題,從而持續(xù)生成多樣化、高質(zhì)量的輸出。

9.3擴散模型的進展(2020 年至今)

  • 去噪擴散概率模型 (DDPM) (2020):改進了擴散過程,為圖像合成設(shè)定了新的基準。

  • 去噪擴散隱式模型 (DDIM) (2021):通過非馬爾可夫采樣提高效率,使生成過程更加靈活。

  • 基于分數(shù)的隨機微分方程生成模型(2021):利用隨機微分方程進行有效的樣本生成。

  • 潛在擴散模型(2022):成為穩(wěn)定擴散等流行的文本到圖像生成系統(tǒng)的基礎(chǔ),顯著推動了人工智能生成圖像領(lǐng)域的發(fā)展,并為更易于訪問和高效的生成人工智能工具鋪平了道路。

9.3文本到圖像生成

  • DALL-E 3 和 Stable Diffusion 3 等模型擅長根據(jù)文本描述生成高質(zhì)量圖像,其中 DALL-E 3 提供詳細而準確的視覺效果,而 Stable Diffusion 則提供一種開源替代方案,使圖像生成技術(shù)的訪問更加民主化。

 

來源:https://generativeai.pub/dall-e-3-vs-midjourney-5-2-vs-stable-xl-same-prompt-different-resultsa68ae19b223e 

  • FLUX.1 (2024):黑森林實驗室發(fā)布了 FLUX.1,這是一款用于 AI 圖像生成的先進擴散模型,提供卓越的速度、質(zhì)量和快速執(zhí)行。FLUX.1 提供三個版本——Schnell、Dev 和 Pro,并利用 Rectified Flow Transformers 等創(chuàng)新技術(shù)來生成高度逼真的圖像。FLUX.1 可以生成文本并處理手指和腳趾等細節(jié)——具備優(yōu)秀圖像生成器所需的一切。

上圖是一張由 FLUX.1 Shenell 模型生成的圖像,上面畫著一個簡單的“側(cè)面寫著 FLUX.1 的咖啡杯”。這張高質(zhì)量的咖啡杯圖像清晰可見“FLUX.1”字樣,展現(xiàn)了 FLUX.1 生成文本的能力。

  • DreamBooth(2022):能夠在特定主題的少量圖像上訓練擴散模型,從而實現(xiàn)個性化圖像生成。

  • LoRA(2022):低秩自適應 (Low-Rank Adaptation) 是一種允許使用最少的附加參數(shù)對擴散模型進行微調(diào)的技術(shù),從而使模型更容易適應特定任務或數(shù)據(jù)集。

 

上圖是單概念生成的定性比較。左欄顯示每個概念的參考圖像。基于 LoRA 的方法在保真度方面優(yōu)于自定義擴散。此外,正交自適應和 SBoRA 表現(xiàn)出與混合展示相當?shù)男阅埽瑫r還引入了正交約束,這在多概念場景中具有優(yōu)勢。

  • ControlNet(2023):根據(jù)草圖或深度圖等附加輸入對擴散模型進行條件化,從而對生成的圖像提供更多控制。利用帶有姿勢控制的 ControlNet 實現(xiàn)穩(wěn)定擴散(見下圖)

  • Multi-SBoRA (2024):Multi-SBoRA 是一種針對多概念定制擴散模型的新方法。它使用正交標準基向量構(gòu)建低秩矩陣進行微調(diào),從而實現(xiàn)區(qū)域和非重疊權(quán)重更新,從而減少跨概念干擾。這種方法保留了預訓練模型的知識,降低了計算開銷,并增強了模型靈活性。實驗結(jié)果表明,Multi-SBoRA 在多概念定制方面取得了最優(yōu)性能,同時保持了獨立性并減輕了串擾效應。

上圖展現(xiàn)了多概念生成的定性比較。結(jié)果分為三種情況:(1)角色生成,(2)物體生成,以及(3)角色和物體組合生成。每個概念的參考圖像顯示在上行。缺乏正交設(shè)計的方法(例如自定義擴散和混合顯示)表現(xiàn)出概念身份的顯著損失,尤其是在面部特征復雜的角色中。正交自適應方法展現(xiàn)出更好的身份保留效果,但可能會損害模型的整體知識,導致模型崩潰。相比之下,我們提出的方法取得了卓越的效果,有效地保留了每個概念的身份,同時確保了更穩(wěn)定的生成。

擴散模型研究的軌跡預示著光明的未來,集成模型有可能結(jié)合各種人工智能架構(gòu)的優(yōu)勢,同時優(yōu)化速度和質(zhì)量。

9.4文本轉(zhuǎn)視頻:OpenAI Sora(2024年)

OpenAI Sora 是一個全新的文本轉(zhuǎn)視頻生成模型,擴展了 OpenAI 多模態(tài) AI 產(chǎn)品的功能。該模型允許用戶根據(jù)文本描述創(chuàng)建視頻,有效地彌合文本與動態(tài)視覺內(nèi)容之間的鴻溝。Sora 與多模態(tài)框架的集成增強了創(chuàng)意應用的潛力,使用戶能夠以最少的輸入生成豐富的多媒體內(nèi)容。這一進展標志著我們朝著更直觀、更具交互性的 AI 系統(tǒng)邁出了重要一步,這些系統(tǒng)能夠理解和生成復雜的媒體形式。

10.  結(jié)論

人工智能和深度學習的發(fā)展史充滿了重大進步和變革性創(chuàng)新。 從早期的神經(jīng)網(wǎng)絡(luò)到如今復雜的架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、Transformer 和擴散模型,該領(lǐng)域已經(jīng)徹底改變了各個領(lǐng)域。

近期的進展推動了大型語言模型 (LLM) 和大型多模態(tài)模型 (LMM) 的發(fā)展,例如 OpenAI 的 GPT-4o、谷歌的 Gemini Pro、Antropic 的 Claude 3.5 Sonnet 和 Meta 的 LLaMA3.1,它們展現(xiàn)了卓越的自然語言和多模態(tài)能力。此外,生成式人工智能 (包括文本轉(zhuǎn)圖像和文本轉(zhuǎn)視頻生成模型,例如 Midjourney、DALL-E 3、Stable Diffusion、FLUX.1 和 Sora) 的突破,拓展了人工智能的創(chuàng)造潛力。

擴散模型也已成為功能強大的生成模型,擁有廣泛的應用前景。隨著研究持續(xù)聚焦于開發(fā)更高效、更易解釋、更強大的模型,人工智能和深度學習對社會和技術(shù)的影響將與日俱增。這些進步正在推動傳統(tǒng)領(lǐng)域的創(chuàng)新,并為創(chuàng)造性表達、問題解決以及人機協(xié)作創(chuàng)造新的可能性。

然而,深度學習并非人工智能的唯一或最佳方法。符號人工智能、強化學習和神經(jīng)符號人工智能各有其獨特的優(yōu)勢,并彌補了深度學習的局限性,例如可解釋性和計算資源需求。對人工智能的全面審視應該涵蓋這些不同的方法論。

人工智能的未來在于多種方法的協(xié)同作用。隨著研究的不斷進步,構(gòu)建多元化的人工智能技術(shù)生態(tài)系統(tǒng)將確保其均衡有效的演進,造福社會和技術(shù)發(fā)展。

編后注: 本文既然是簡史,它只包含了人工智能和深度學習發(fā)展史上的重要里程碑。同時它也缺乏介紹中國人工智能科學家的一些貢獻。但該文仍不愧為一份珍貴的學習資料。


免責聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時間聯(lián)系,核實后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:怡亞通與蘇州相城區(qū)攜手共建產(chǎn)業(yè)供應鏈綜合服務平臺
下一篇:京東工業(yè)與音飛儲存達成戰(zhàn)略合作
羅戈訂閱
周報
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄
活動/直播 更多

2025第四屆低碳供應鏈&物流創(chuàng)新發(fā)展高峰論壇

  • 時間:2025-05-21 ~ 2025-06-20
  • 主辦方:羅戈網(wǎng)、物流沙龍、羅戈研究
  • 協(xié)辦方:億通國際、亞太碳中和創(chuàng)新示范社區(qū)
報告 更多

2025年5月物流行業(yè)月報-個人版

  • 作者:羅戈研究

¥:9.9元