AI百科:CHATGPT的工作原理
By Benjamin Hendricks
ChatGPT迅速獲得了數(shù)百萬人的關(guān)注,但許多人都持謹慎態(tài)度,因為都不了解它的工作原理。而本文就是試圖將其分解,以便更容易理解。
然而,就其核心而言,ChatGPT是一個非常復(fù)雜的系統(tǒng)。如果想要玩ChatGPT或者想弄懂它是什么,核心界面是一個聊天窗口,可以在其中提問或提供查詢,AI會做出回應(yīng)。要記住的一個重要細節(jié)是,在聊天中,上下文會被保留,這意味著消息可以引用先前的信息,而ChatGPT將能夠根據(jù)上下文地理解這一點。
當(dāng)在聊天框中輸入查詢時會發(fā)生什么?
神經(jīng)網(wǎng)絡(luò)
首先,在ChatGPT的框架下,有很多東西待發(fā)現(xiàn)。機器學(xué)習(xí)在過去10年里一直在迅速發(fā)展,ChatGPT利用了許多最先進的技術(shù)來實現(xiàn)其結(jié)果。
神經(jīng)網(wǎng)絡(luò)是相互連接的“神經(jīng)元”層,每個神經(jīng)元負責(zé)接收輸入、處理輸入,并將其傳遞給網(wǎng)絡(luò)中的下一個神經(jīng)元。神經(jīng)網(wǎng)絡(luò)構(gòu)成了當(dāng)今人工智能的支柱。輸入通常是一組稱為“特征”的數(shù)值,表示正在處理的數(shù)據(jù)的某些方面。例如,在語言處理的情況下,特征可能是表示句子中每個單詞的含義的詞嵌入。
詞嵌入只是一種文本的數(shù)字表示,神經(jīng)網(wǎng)絡(luò)將使用它來理解文本的語義,然后可以將其用于其他目的,比如以語義邏輯的方式進行響應(yīng)!
因此,在ChatGPT中按回車鍵后,該文本首先被轉(zhuǎn)換為詞嵌入,這些詞嵌入是在整個互聯(lián)網(wǎng)上的文本上進行訓(xùn)練的。然后有一個經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò),在給定輸入詞嵌入的情況下,輸出一組合適的響應(yīng)詞嵌入。然后,使用應(yīng)用于輸入查詢的逆操作將這些嵌入入翻譯成人類可讀的單詞。這個解碼后的輸出就是ChatGPT打印出來的內(nèi)容。
ChatGPT模型大小
轉(zhuǎn)換和輸出生成的計算成本非常高。ChatGPT位于GPT-3之上,GPT-3是一個擁有1750億個參數(shù)的大型語言模型。這意味著在OpenAI使用其大型數(shù)據(jù)集調(diào)整的廣泛神經(jīng)網(wǎng)絡(luò)中有1750億個權(quán)重。
因此,每個查詢至少需要兩次1750億次計算,這加起來很快。OpenAI可能已經(jīng)找到了一種方法來緩存這些計算以降低計算成本,但不知道這些信息是否已經(jīng)發(fā)布到任何地方。此外,預(yù)計將于今年年初發(fā)布的GPT-4,據(jù)稱參數(shù)增加了1000倍!
計算復(fù)雜性會導(dǎo)致實際成本!如果ChatGPT很快成為付費產(chǎn)品,不必感到驚訝,因為OpenAI目前正在花費數(shù)百萬美元免費運營它。
編碼器、解碼器和RNN
自然語言處理中常用的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是編碼器-解碼器網(wǎng)絡(luò)。這些網(wǎng)絡(luò)的設(shè)計目的是將輸入序列“編碼”為緊湊表示,然后將該表示“解碼”為輸出序列。
傳統(tǒng)上,編碼器-解碼器網(wǎng)絡(luò)已經(jīng)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)配對,用于處理順序數(shù)據(jù)。編碼器處理輸入序列并產(chǎn)生固定長度的向量表示,然后將其傳遞給解碼器。解碼器處理這個向量并產(chǎn)生輸出序列。
編碼器-解碼器網(wǎng)絡(luò)已廣泛應(yīng)用于機器翻譯等任務(wù),其中輸入是一種語言的句子,輸出是將該句子翻譯成另一種語言。它們也被應(yīng)用于摘要和圖像說明生成任務(wù)。
變壓器與注意力
與編碼器-解碼器結(jié)構(gòu)類似,變壓器包括兩個組件;然而,轉(zhuǎn)換器的不同之處在于它使用一種自關(guān)注機制,允許輸入的每個元素關(guān)注所有其他元素,從而允許它捕獲元素之間的關(guān)系,而不管它們彼此之間的距離如何。
變壓器還使用多頭注意力,允許它同時關(guān)注輸入的多個部分。這使得它能夠捕獲輸入文本中的復(fù)雜關(guān)系并產(chǎn)生高度準確的結(jié)果。
在2017年發(fā)表“Attention is All You Need”論文時,變壓器取代了編碼器-解碼器架構(gòu),成為自然語言處理的最先進模型,因為它可以在較長的文本中實現(xiàn)更好的性能。
變壓器架構(gòu),來自https://arxiv.org/pdf/1706.03762.pdf
生成式預(yù)訓(xùn)練
生成式預(yù)訓(xùn)練是一種在自然語言處理領(lǐng)域特別成功的技術(shù)。它涉及以無監(jiān)督的方式在海量數(shù)據(jù)集上訓(xùn)練廣泛的神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)數(shù)據(jù)的通用表示。這個預(yù)訓(xùn)練網(wǎng)絡(luò)可以針對特定任務(wù)進行微調(diào),比如語言翻譯或問答,從而提高性能。
生成式預(yù)訓(xùn)練架構(gòu),摘自《通過生成式預(yù)訓(xùn)練提高語言理解能力》
在ChatGPT的例子中,這意味著對GPT-3模型的最后一層進行微調(diào),以適應(yīng)在聊天中回答問題的用例,這也利用了人工標(biāo)記。下圖可以更詳細地了解ChatGPT微調(diào):
ChatGPT 微調(diào)步驟,來自https://arxiv.org/pdf/2203.02155.pdf
把一切結(jié)合在一起
因此,在ChatGPT的框架下有許多活動部件,這些部件只會不斷增長。看到它如何繼續(xù)發(fā)展將是非常有趣的,因為許多不同領(lǐng)域的進步將幫助類似GPT的模型獲得進一步的采用。
在接下來的一兩年里,我們可能會看到這種新的使能技術(shù)帶來的重大顛覆。--------------------------峰會預(yù)告
據(jù)悉,由千家網(wǎng)主辦的2022年第23屆中國國際建筑智能化峰會上海站與北京站將于近期正式拉開帷幕,本屆峰會主題為“數(shù)智賦能,碳索新未來”,屆時將攜手全球知名建筑智能化品牌及專家,共同分享AI、云計算、大數(shù)據(jù)、IoT、智慧城市、智能家居、智慧安防等熱點話題與最新技術(shù)應(yīng)用,并探討如何打造“更低碳、更安全、更穩(wěn)定、更開放”的行業(yè)生態(tài),助力“雙碳”目標(biāo)的實現(xiàn)。
歡迎建筑智能化行業(yè)同仁報名參會,分享交流!
報名方式
上海站(2023年2月21日):https://www.huodongxing.com/event/3638582473900
北京站(2023年2月23日):https://www.huodongxing.com/event/4638577546900
更多峰會信息,詳見峰會官網(wǎng):http://summit.qianjia.com/
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 天音移動:將100個虛商號段交還中國聯(lián)通
- 長沙電信員工反映加班嚴重 公司回應(yīng):避免無謂加班
- 中國移動11月5G網(wǎng)絡(luò)客戶凈增143萬戶,累計達5.47億戶
- 5G-A無源物聯(lián):夯實數(shù)字化底座,助力萬物智聯(lián)發(fā)展
- Wi-Fi7:6GHzWi-Fi如何支持醫(yī)療保健新時代
- 未來最值得關(guān)注的人工智能和機器學(xué)習(xí)趨勢是什么?
- 物聯(lián)網(wǎng)實現(xiàn)智能農(nóng)業(yè)的五大方式
- 人工智能在網(wǎng)絡(luò)安全中的作用
- 光迅科技:自研光芯片沒有直接對外銷售,主要滿足自用需求
- 中國電信11月5G套餐用戶凈增184萬戶,累計3.4937億戶
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。