基於神經網路的語言模型
基於神經網路的語言模型是一種利用深度學習技術,特別是透過循環神經網絡(RNN)或注意力機制(Transformer)的模型,來處理自然語言文本並生成下一個詞彙的模型。相較於傳統的方法,這種模型具有以下特點:
- 直接學習預測下一個詞彙: 這些模型直接從大量的文本資料中學習,不需要手動設計特徵或規則。它們通過觀察先前的詞彙序列,學習預測接下來的詞彙。
- 利用詞彙相量表徵語意資訊: 在進行預測時,這些模型使用詞彙的向量表示,這些向量捕捉了詞彙之間的語意關係。這使得模型能夠捕捉到詞彙之間的語義相似性,而不僅僅是單純的字符匹配。
- 克服死板的字符匹配: RNN和Transformer網絡並不僅僅是計算連續N個詞彙的頻率,它們能夠捕捉到更複雜的詞彙之間的關係,包括不同詞彙之間的語義相似性和語境相依性。
- 減少稀疏性: 由於詞彙向量化,模型能夠減少稀疏性,從而可以從有限的資料中學習到更豐富的詞彙組合和上下文意義。這意味著即使在有限的資料情況下,模型也能夠產生更加流暢和自然的文本。
依據用戶的指示,LLMs可以執行各種從所未見的新任務,甚至不需要任何樣本、範例。
T5 (Text-to-Text Transfer Transformer) 模型
所有自然語言處理的任務,都可以化為序列對序列的生成任務
缺點包括:
- 只能執行已經學過的任務
- 對提示極其敏感,無法泛化
- 缺乏推理能力,無法處理新任務
- 即使在已知任務上,性能也可能有限
- 有著輸入和輸出長度的限制。
LLM的演化歷史
大型語言模型具有以下特別能力:
- In-context learning(上下文學習): 這些模型能夠通過理解輸入文本的上下文來進行學習和產生輸出。它們能夠利用先前的信息和對話歷史來生成更加連貫和相關的回應。
- Instruction following(遵循指示): 大型語言模型能夠理解和遵循輸入中的指示或命令。它們能夠從自然語言描述中抽取出指示的含義,並執行相應的操作或生成符合指示的輸出。
- Step-by-step reasoning(逐步推理): 這些模型能夠通過逐步推理的方式來解決複雜的問題。它們能夠理解問題的各個步驟,從中推斷出答案或採取相應的行動,進而解決問題。
微調過程
微調過程如下:
- 從預訓練的 GPT 模型開始。
- 使用反向傳播算法訓練模型以最小化誤差。
- 使用上下文學習技術提高模型的性能。
- 使用元梯度 AWICL 算法進一步提高模型的性能。
此圖表顯示了微調過程的各個步驟
Dual View 是一種 上下文學習 技術,允許模型考慮輸入句子和查詢句子的上下文。它通過向模型提供兩個視圖來實現: