基於神經網路的語言模型

基於神經網路的語言模型是一種利用深度學習技術，特別是透過循環神經網絡（RNN）或注意力機制（Transformer）的模型，來處理自然語言文本並生成下一個詞彙的模型。相較於傳統的方法，這種模型具有以下特點：

直接學習預測下一個詞彙： 這些模型直接從大量的文本資料中學習，不需要手動設計特徵或規則。它們通過觀察先前的詞彙序列，學習預測接下來的詞彙。
利用詞彙相量表徵語意資訊： 在進行預測時，這些模型使用詞彙的向量表示，這些向量捕捉了詞彙之間的語意關係。這使得模型能夠捕捉到詞彙之間的語義相似性，而不僅僅是單純的字符匹配。
克服死板的字符匹配： RNN和Transformer網絡並不僅僅是計算連續N個詞彙的頻率，它們能夠捕捉到更複雜的詞彙之間的關係，包括不同詞彙之間的語義相似性和語境相依性。
減少稀疏性： 由於詞彙向量化，模型能夠減少稀疏性，從而可以從有限的資料中學習到更豐富的詞彙組合和上下文意義。這意味著即使在有限的資料情況下，模型也能夠產生更加流暢和自然的文本。

依據用戶的指示，LLMs可以執行各種從所未見的新任務，甚至不需要任何樣本、範例。

T5 (Text-to-Text Transfer Transformer) 模型

所有自然語言處理的任務，都可以化為序列對序列的生成任務

缺點包括：

大型語言模型具有以下特別能力：

In-context learning（上下文學習）： 這些模型能夠通過理解輸入文本的上下文來進行學習和產生輸出。它們能夠利用先前的信息和對話歷史來生成更加連貫和相關的回應。
Instruction following（遵循指示）： 大型語言模型能夠理解和遵循輸入中的指示或命令。它們能夠從自然語言描述中抽取出指示的含義，並執行相應的操作或生成符合指示的輸出。
Step-by-step reasoning（逐步推理）： 這些模型能夠通過逐步推理的方式來解決複雜的問題。它們能夠理解問題的各個步驟，從中推斷出答案或採取相應的行動，進而解決問題。

微調過程如下：

此圖表顯示了微調過程的各個步驟

Dual View 是一種上下文學習技術，允許模型考慮輸入句子和查詢句子的上下文。它通過向模型提供兩個視圖來實現：