Machine Learning – 第 6 頁

發佈日期: 2024-06-24 下午 6:032024-06-24 下午 6:03 作者: Claire Chang

Tesseract – Google開源的光學文字辨識系統

關於Tesseract

Tesseract 是一個開源的光學字符識別（OCR）引擎，能夠將圖像中的文本轉換為可編輯的文本。它由 Google 維護和開發，支持多種語言和字符集。

GitHub位置: https://github.com/tesseract-ocr/tesseract

Tesseract 4 添加了一個新的基於神經網路（LSTM）的 OCR 引擎，該引擎專注於行識別，但仍然支援 Tesseract 3 的傳統 Tesseract OCR 引擎，該引擎通過識別字元模式來工作。使用舊版 OCR 引擎模式（–oem 0）啟用與 Tesseract 3 的相容性。它還需要支援舊引擎的 traineddata 檔，例如來自 tessdata 儲存庫的檔。

Tesseract 支援 unicode （UTF-8），可以「開箱即用」地識別 100 多種語言。支援多種圖像格式，包括 PNG、JPEG 和 TIFF。支援各種輸出格式：純文本、hOCR （HTML）、PDF、不可見文本 PDF、TSV、ALTO 和 PAGE。

主要功能和特點

多語言支持： Tesseract 支持超過 100 種語言，包括繁體中文。
高準確度： Tesseract 在文本識別方面具有較高的準確度，特別是經過適當的預處理後。
易於集成： Tesseract 可以與多種編程語言和工具集成，例如 Python、C++、Java 等，方便開發者在不同的應用場景中使用。
開源和免費： Tesseract 是開源軟件，可以自由使用和修改。

安裝 Tesseract

需要安裝兩個部分：引擎本身和語言的 traineddata。超過 130 種語言和超過 35 種腳本的軟體包也可以直接從 Linux 發行版獲得。語言 traineddata 包稱為“tesseract-ocr-langcode”和“tesseract-ocr-script-scriptcode”，其中 langcode 是三個字母的語言代碼， scriptcode 是四個字母的腳本代碼。

安裝教學: https://tesseract-ocr.github.io/tessdoc/InstallationOpenSuse.html

以 root 身份運行以下命令：(CentOS7)

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
yum install tesseract-langpack-deu

使用方式

從發佈頁面下載AppImage
開啟終端應用程式
流覽到 AppImage 的位置
使 AppImage 可執行：$ chmod a+x tesseract*.AppImage
執行它：./tesseract*.AppImage -l eng page.tif page.txt

安裝 pytesseract

pytesseract 是一個 Python 包裝器，用於調用 Tesseract OCR 引擎。

pip install pytesseract
pip install pillow

使用 Tesseract 進行 OCR

from PIL import Image
import pytesseract

# 設定 tesseract 執行檔的路徑
pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/tesseract'  # 替換為你的 tesseract 安裝路徑

# 打開圖像文件
image = Image.open('example.png')

# 使用 Tesseract 進行 OCR
text = pytesseract.image_to_string(image, lang='chi_tra')  # 使用繁體中文語言包
print(text)

發佈日期: 2024-06-09 下午 8:122024-06-21 下午 2:13 作者: Claire Chang

安裝Postgresql和PgAdmin過程記錄

Postgresql安裝教學

安裝的指令如下

sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %rhel)-x86_64/pgdg-redhat-repo-latest.noarch.rpm
sudo yum -qy module disable postgresql
sudo yum install -y postgresql13-server postgresql13
sudo /usr/pgsql-13/bin/postgresql-13-setup initdb
sudo systemctl enable postgresql-13
sudo systemctl start postgresql-13
sudo -i -u postgres
psql

接著建立資料庫

CREATE USER myuser WITH PASSWORD 'mypassword';
CREATE DATABASE mydb;
GRANT ALL PRIVILEGES ON DATABASE mydb TO myuser;

退出命令行

\q
exit

安裝PgAdmin

以下為安裝的指令建議

$ sudo mkdir /var/lib/pgadmin
$ sudo mkdir /var/log/pgadmin
$ sudo chown $USER /var/lib/pgadmin
$ sudo chown $USER /var/log/pgadmin
$ python3 -m venv pgadmin4
$ source pgadmin4/bin/activate
(pgadmin4) $ pip install pgadmin4
...
(pgadmin4) $ pgadmin4
NOTE: Configuring authentication for SERVER mode.

Enter the email address and password to use for the initial pgAdmin user account:

Email address: user@domain.com
Password: 
Retype password:
Starting pgAdmin 4. Please navigate to http://127.0.0.1:5050 in your browser.
 * Serving Flask app "pgadmin" (lazy loading)
 * Environment: production
   WARNING: Do not use the development server in a production environment.
   Use a production WSGI server instead.
 * Debug mode: off

強烈建議使用 Python 虛擬環境，不然因為牽涉到的library眾多，很容易會有函式庫之間的彼此衝突

安裝及啟動pgAdmin的方法

以下為安裝方式

$ sudo mkdir /var/lib/pgadmin
$ sudo mkdir /var/log/pgadmin
$ sudo chown $USER /var/lib/pgadmin
$ sudo chown $USER /var/log/pgadmin
$ python3 -m venv pgadmin4
$ source pgadmin4/bin/activate
(pgadmin4) $ pip install pgadmin4
...
(pgadmin4) $ pgadmin4
NOTE: Configuring authentication for SERVER mode.

Enter the email address and password to use for the initial pgAdmin user account:

Email address: user@domain.com
Password: 
Retype password:
Starting pgAdmin 4. Please navigate to http://127.0.0.1:5050 in your browser.
 * Serving Flask app "pgadmin" (lazy loading)
 * Environment: production
   WARNING: Do not use the development server in a production environment.
   Use a production WSGI server instead.
 * Debug mode: off

啟動則只需要

$ source pgadmin4/bin/activate
(pgadmin4) $ pgadmin4

問題1 : 無法啟動pgAdmin

錯誤訊息

No module named '_sqlite3'

解決方法

首先先安裝所需要的套件

sudo apt update
sudo apt install libsqlite3-dev

接著要找到PYTHON的位置並且重新編譯

把下面的/path/to/python/source換成你的PYTHON的根目錄

cd /path/to/python/source
sudo ./configure --enable-optimizations
sudo make
sudo make altinstall

然後就可以正常啟動囉!

問題2：只能從127.0.0.1連線

使用下面指令找到套件位置

pip show pgadmin4 | grep Location

修改config

找到下面這行並將127.0.0.1改成0.0.0.0

DEFAULT_SERVER = '0.0.0.0'

問題3: 開啟防火牆5050端口

sudo systemctl start firewalld
sudo systemctl enable firewalld
sudo firewall-cmd --zone=public --add-port=5050/tcp --permanent
sudo firewall-cmd --reload
sudo firewall-cmd --zone=public --list-ports

最後一行是用以檢查是否已打開，如果 5050/tcp 在列表中，則表示已成功打開。

接著把SELINUX的端口打開

sudo semanage port -a -t http_port_t -p tcp 5050

就可以成功連線啦!

發佈日期: 2024-06-07 下午 6:132024-06-07 下午 6:14 作者: Claire Chang

Prompt engineering 提示工程

獲得更好結果的六種策略

寫清楚的說明

在查詢中包含詳細資訊以獲得更相關的答案
要求模型採用角色
使用分隔符清楚地指示輸入的不同部分
指定完成任務所需的步驟
舉例說明
指定所需的輸出長度
提供參考文本

提供參考文本

指示模型使用參考文本回答問題
指示模型使用參考文本的引用來回答

將複雜的任務拆分為更簡單的子任務

正如軟體工程中的良好做法是將複雜系統分解為一組模組化元件一樣，提交給語言模型的任務也是如此。複雜任務往往比簡單任務具有更高的錯誤率。此外，複雜任務通常可以重新定義為更簡單任務的工作流，其中早期任務的輸出用於構造後續任務的輸入。

使用意圖分類來標識與用戶查詢最相關的指令
對於需要很長對話的對話應用程式，請總結或過濾以前的對話
分段總結長文檔，並以遞歸方式構建完整的摘要

給模型時間“思考”

如果要求將 17 乘以 28，您可能不會立即知道，但仍然可以隨著時間的推移計算出來。同樣，模型在試圖立即回答時會犯更多的推理錯誤，而不是花時間找出答案。在回答之前要求一個「思維鏈」可以説明模型更可靠地推理出正確的答案。

在匆忙得出結論之前，指示模型制定自己的解決方案
使用內心獨白或一系列查詢來隱藏模型的推理過程
詢問模型在之前的刀路中是否遺漏了任何內容

使用外部工具

通過向模型提供其他工具的輸出來補償模型的弱點。例如，文本檢索系統（有時稱為RAG或檢索增強生成）可以告訴模型有關相關文檔的資訊。像 OpenAI 的 Code Interpreter 這樣的代碼執行引擎可以説明模型進行數學運算和運行代碼。如果一項任務可以通過工具而不是語言模型更可靠或更高效地完成，請卸載它以充分利用兩者。

使用基於嵌入的搜索實現高效的知識檢索
使用代碼執行來執行更準確的計算或調用外部 API
授予模型對特定函數的訪問許可權

系統地測試更改

如果可以衡量性能，則更容易提高性能。在某些情況下，對提示的修改將在幾個孤立的示例上獲得更好的性能，但在更具代表性的示例集上會導致整體性能較差。因此，為了確保更改對性能有淨積極影響，可能需要定義一個全面的測試套件（也稱為“eval”）。

參考黃金標準答案評估模型輸出

發佈日期: 2024-06-06 上午 7:242024-11-11 下午 2:42 作者: Claire Chang

RAG中準備檢索資料的概念及方向

相關論文: https://arxiv.org/abs/2005.11401

Embedding向量搜尋的概念

在RAG（Retrieval-Augmented Generation）模型中，embedding 向量搜尋是一個關鍵步驟，用於在資料庫中找到與當前查詢相關的資訊。RAG結合了檢索和生成的能力，通過將外部知識融入生成過程中來提高生成內容的質量和相關性。以下是 embedding 向量搜尋的主要步驟：

查詢嵌入 (Query Embedding)：
將用戶的查詢轉換成嵌入向量。這通常是通過一個預訓練的語言模型（如BERT或RoBERTa）來完成。這些模型能夠將文字表示成固定長度的向量，捕捉文字的語義信息。
資料庫嵌入 (Database Embedding)：
資料庫中的每個文本片段（如文章、段落、句子）也被轉換成嵌入向量。這些嵌入向量通常預先計算並存儲起來，以便在查詢時能快速檢索。
相似度計算 (Similarity Calculation)：
使用某種相似度度量（如餘弦相似度）來計算查詢嵌入向量與資料庫中嵌入向量之間的相似度。餘弦相似度測量兩個向量之間的夾角，角度越小，相似度越高。
檢索相關資料 (Retrieve Relevant Data)：
根據相似度分數，選擇與查詢最相關的前N個資料庫片段。這些片段將作為檢索結果返回。
融合與生成 (Fusion and Generation)：
RAG模型將檢索到的相關片段與查詢結合起來，通過生成模型（如GPT-3）生成最終的回應。生成模型利用檢索到的資訊，生成更為準確和豐富的回答。

簡單範例

假設我們有一個簡單的資料庫，包含以下句子：

“Python是一種流行的編程語言。”
“GPT-3是OpenAI開發的語言模型。”
“嵌入向量是機器學習中的重要概念。”

用戶查詢：「什麼是GPT-3？」

查詢嵌入：將「什麼是GPT-3？」轉換成嵌入向量Q。
資料庫嵌入：將資料庫中的每個句子轉換成嵌入向量D1, D2, D3。
相似度計算：計算Q與D1, D2, D3的相似度。例如，相似度分數可能是：
Q與D1: 0.2
Q與D2: 0.9
Q與D3: 0.3
檢索相關資料：根據相似度分數，檢索到最相關的片段是「GPT-3是OpenAI開發的語言模型」。
融合與生成：RAG模型將檢索到的片段與查詢結合，生成關於GPT-3的詳細說明。

以下為一個用書名做向量檢索的文章，看了此文章會更能理解向量空間的文字意義檢索的概念

https://towardsdatascience.com/building-a-recommendation-system-using-neural-network-embeddings-1ef92e5c80c9

從Fancy AI了解準備資料的幾種方式

網站如下: https://www.fancyai.co/

從上面的圖片我們可看出大概可分為【直接分段】或【以QA方式去呈現】，而QA方式又分成【讓AI自動整理問答對】、【人工整理問答對】。

三種方式的優缺點比較

這三種方法各有其優缺點，適用於不同的應用場景和需求。

1. 手動輸入問答對

優點：

高準確性： 手動輸入的問答對由專家或知識擁有者編寫，確保了答案的準確性和相關性。
高度針對性： 可以針對特定領域或問題編寫，回答更具針對性。
質量控制： 可以進行嚴格的審查和驗證，確保資料的質量。

缺點：

耗時耗力： 手動編寫問答對需要大量人力和時間，尤其是資料量大的情況下。
不易擴展： 隨著知識庫的增長，維護和更新問答對會變得愈發困難。

2. AI自動產生問答對

優點：

自動化程度高： 使用AI技術（如自然語言處理）自動生成問答對，大幅減少人力投入。
快速生成： 可以在短時間內生成大量問答對，適合快速擴展知識庫。
適應性強： 可以根據需要自動更新和擴展問答對。

缺點：

準確性不穩定： AI自動生成的問答對可能存在錯誤或不精確的情況，需要人工審核。
質量參差不齊： 自動生成的答案質量可能不均一，部分回答可能缺乏深度或詳細性。

3. 直接將文件做分段

優點：

節省時間： 直接將長文檔分段，可以快速建立起知識庫，節省了人工編寫問答對的時間。
完整性： 保留了原始文檔的完整信息，便於系統檢索和引用。
多樣性： 文檔中的信息可能涵蓋多個方面，能夠提供更豐富的回答。

缺點：

相關性不一定高： 分段的文檔內容可能不是針對具體問題，回答的針對性和相關性可能不如手動問答對。
需要處理和優化： 分段後的文檔需要進行處理和優化，以確保分段的合理性和檢索的效率。
資料雜亂： 如果文檔內容過於雜亂或不夠結構化，可能會影響檢索結果的質量。

適用的場景

手動輸入問答對 適合需要高度精確和針對性回答的應用場景，如專業領域的技術支持或知識管理。
AI自動產生問答對 適合需要快速建立和擴展知識庫的情況，如大型網站的常見問題解答（FAQ）系統。
直接將文件做分段 適合需要處理大量現有文檔資料的應用，如文檔管理系統或數字圖書館。

直接分段的範例

以上面的例子來說，用戶查詢「怎麼串接GPT-3的API？」，

假設我們有以下一段文檔：

Python是一種流行的編程語言。它擁有豐富的庫和框架，適用於各種應用場景。GPT-3是由OpenAI開發的一個強大的語言模型，可以生成高質量的自然語言文本。嵌入向量是機器學習中的重要概念，用於表示文字的語義信息。

我們可以將這段文檔拆分成以下分段：

“Python是一種流行的編程語言。”
“它擁有豐富的庫和框架，適用於各種應用場景。”
“GPT-3是由OpenAI開發的一個強大的語言模型，可以生成高質量的自然語言文本。”
“嵌入向量是機器學習中的重要概念，用於表示文字的語義信息。”

然後對每個分段生成嵌入向量，並在檢索系統中建立索引。當用戶查詢「什麼是GPT-3？」時，系統會找到與該查詢最相關的分段（如第三個分段），並用它來生成回應。

產生問答對的範例

問答對生成

問題：Python是什麼？
回答：Python是一種流行的編程語言。
問題：Python有哪些特點？
回答：Python擁有豐富的庫和框架，適用於各種應用場景。
問題：GPT-3是什麼？
回答：GPT-3是由OpenAI開發的一個強大的語言模型，可以生成高質量的自然語言文本。
問題：嵌入向量是什麼？
回答：嵌入向量是機器學習中的重要概念，用於表示文字的語義信息。
問題：Python的應用場景有哪些？
回答：Python適用於各種應用場景，因為它擁有豐富的庫和框架。
問題：GPT-3的開發者是誰？
回答：GPT-3是由OpenAI開發的。

生成問答對的步驟

文本分析：
- 對給定的文本進行語義分析，識別出關鍵概念和信息點。
- 例如，在這段文本中，關鍵概念包括「Python」、「庫和框架」、「GPT-3」、「OpenAI」、「嵌入向量」、「機器學習」等。
生成問題：
- 根據關鍵概念生成相關的問題。
- 問題應該簡潔明了，針對文本中的具體信息點。
生成答案：
- 根據文本中提供的信息生成相應的答案。
- 答案應該準確反映文本中的內容，並且與問題直接相關。

發佈日期: 2024-05-24 下午 11:182024-05-24 下午 11:50 作者: Claire Chang

使用LlamaIndex載入多種類文件

LlamaIndex的教學資料

這邊有許多的簡單範例:

https://github.com/SamurAIGPT/LlamaIndex-course

這邊則是載入文件的範例:

https://github.com/SamurAIGPT/LlamaIndex-course/blob/main/dataconnectors/Data_Connectors.ipynb

範例程式載入PDF如下

from pathlib import Path
from llama_index.core import download_loader

PDFReader = download_loader("PDFReader")

loader = PDFReader()

pdf_document = loader.load_data(file=Path('./sample.pdf'))

載入YouTube的字幕的範例如下

from llama_index.core import download_loader

YoutubeTranscriptReader = download_loader("YoutubeTranscriptReader")

loader = YoutubeTranscriptReader()
youtube_documents = loader.load_data(ytlinks=['https://www.youtube.com/watch?v=nHcbHdgVUJg&ab_channel=WintWealth'])

使用上面的寫法我們會發現會跳出這樣的警告

DeprecationWarning: Call to deprecated function (or staticmethod) download_loader. (`download_loader()` is deprecated. Please install tool using pip install directly instead.) PDFReader = download_loader(“PDFReader”)
錯誤警告訊息

新的文件讀取方式

現在官方推薦的檔案讀取方式如下

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./files").load_data()

不過，如果我們需要這個Reader使用特別的解析器去解析特別格式的文件的話，則要使用額外相關的函式庫，如下面的介紹

讀取各式文件的函式庫

首先先安裝所需的套件

pip install llama-index-readers-file

那Reader頁面中許多各式各樣的Reader則請參考此文件:

https://llamahub.ai/l/readers/llama-index-readers-file?from=readers

使用範例如下，下面這子我們會可以用doc.text去取得這張圖片的一個文字描述

from llama_index.core import SimpleDirectoryReader
from llama_index.readers.file import ImageCaptionReader
# Image Reader example
parser = ImageCaptionReader()
file_extractor = {
    ".jpg": parser,
    ".jpeg": parser,
    ".png": parser,
}  # Add other image formats as needed
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()
for index, doc in enumerate(documents):
    print(doc.text)

要注意的是，當我們這邊使用圖片閱讀器，事實上他會載入Hugging Face的一些transformers模型去做圖片辨識，有一些模型只能使用GPU，所以，我們一定要記得我們的Pytorch要使用GPU版本的

參考此文件: https://pytorch.org/get-started/locally/

如果已經安裝了CPU版本的，記得先把torch反安裝後再重新安裝GPU版本

發佈日期: 2024-05-17 下午 6:302024-05-18 上午 10:23 作者: Claire Chang

在LlamaIndex中的查詢流程

查詢流程解析

檢索器（Retrievers）

檢索器就像是一個數據查找工具，它會根據用戶的查詢從索引中高效地獲取相關的上下文信息。選擇合適的檢索策略至關重要，它會影響檢索到的數據的相關性和效率。

路由器（Routers）

路由器決定了應該使用哪個檢索器從知識庫中獲取相關的上下文信息。更確切地說，RouterRetriever 類負責基於查詢選擇一個或多個候選檢索器來執行查詢。它們會使用選擇器基於每個候選檢索器的元數據和查詢來選擇最佳選項。

節點後處理器（Node Postprocessors）

節點後處理器接收一組檢索到的節點，然後可以對它們進行轉換、過濾或重新排序等操作。

響應合成器（Response Synthesizers）

響應合成器使用大型語言模型 (LLM)、用戶查詢和給定的一組檢索到的文本片段來生成響應。

甚麼是Retriever

檢索器（Retriever）是用來根據給定的查詢從數據源中提取相關的資訊（節點）。這是檢索增強生成（Retrieval-Augmented Generation，RAG）流程中的關鍵步驟，其中檢索器有助於識別可用於生成回應的最相關數據。

以下是檢索器在LlamaIndex中的工作方式概述：

數據攝取：從各種來源（例如PDF、SQL數據庫）中攝取數據並建立索引。
檢索：當提出查詢時，檢索器會從已索引的數據中提取相關的節點（數據片段）。
回應合成：然後使用檢索到的節點來生成回應，通常是將它們與查詢一起輸入語言模型。

檢索器建立在索引之上，指定了如何從索引中檢索節點。

不同的Retriever介紹

https://docs.llamaindex.ai/en/stable/module_guides/querying/retriever/retrievers/

有許多不同種的檢索器，較基本的有下面這些

向量存儲檢索器(Vector index retriever)
向量存儲檢索器從向量存儲索引中檢索出前 k 個最相似的節點。在這裡，模式不具有顯著意義。
列表檢索器
您可以使用列表檢索器從列表索引中檢索出所有節點。這個檢索器支持兩種模式：default 和embeddings。默認模式檢索所有節點，而嵌入模式使用嵌入檢索出使用嵌入檢索出前 k 個節點。
樹形檢索器 (GPT all leaf retriever)
正如其名，樹形檢索器從節點的分層樹中提取節點。這個檢索器支持許多不同的模式，默認是選擇select_leaf。
關鍵字表檢索器 (Base Keyword Table Retriever)
關鍵字表檢索器從查詢中提取關鍵字，並使用它們來查找具有匹配關鍵字的節點。這個檢索器支持三種不同的模式： default、simple、和rake模式。
知識圖檢索器 (KG Table Retriever)
知識圖檢索器從節點的分層樹中檢索節點。支持 keywords、embeddings、和hybrid模式。
1. 關鍵字模式(keywords)： 使用查詢中提取的關鍵字來尋找相關的節點。
2. 嵌入模式(embeddings)： 使用嵌入向量來尋找相關的節點。
3. 混合模式(hybrid)： 同時使用關鍵字和嵌入向量來尋找相關的三元組。混合模式的思想是將關鍵字和嵌入向量結合起來，以更全面地找到與查詢相關的信息。這樣可以充分利用關鍵字的文本特徵和嵌入向量的語義信息。

簡單的使用範例

以下是使用ListIndex且模式為embedding的使用範例

from llama_index import ListIndex
from llama_index import download_loader

YoutubeTranscriptReader = download_loader("YoutubeTranscriptReader")

loader = YoutubeTranscriptReader()
docs = loader.load_data(ytlinks=['https://www.youtube.com/watch?v=nHcbHdgVUJg&ab_channel=WintWealth'])
list_index = ListIndex(docs)
retriever = list_index.as_retriever(
    retriever_mode='embedding',
)

使用範例

retriever.retrieve('What is the difference between a stock and a bond?')

檢索出的資訊

[NodeWithScore(node=Document(id_='nHcbHdgVUJg', embedding=[0.006401017773896456, -0.02431839518249035, -0.005019601434469223, -0.03640920668840408, -0.021309370175004005, 0.02166498266160488, ......, -0.011140232905745506], metadata={'video_id': 'nHcbHdgVUJg'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text="I'm a Commerce graduate I went to Vijay\nCollege which is like a Government\nCollege type so I'm also not from IIT\nI graduated from MIT Pune Pu......t for it or not and like\nnobody tell you that you're cut out to\nbe a founder or not one thing which\nwhich is common in all the founders who\nsucceed is they don't give up so that's\nwhat that's probably yeah so\nhello", start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n'), score=0.7269996487772504)]

發佈日期: 2024-05-17 下午 5:382024-05-17 下午 6:15 作者: Claire Chang

在LlamaIndex中使用索引(Index)

甚麼是索引(Index)

在 LlamaIndex 中，索引是一種資料結構，用於組織和存儲來自各種數據來源的信息，使搜索變得更加容易。索引是建立在一組節點(Node)之上的。節點(Node)是 LlamaIndex 的基本單位，一種包含一段文本的資料結構。每當提供一個文件時，可以將其分割成多個片段並存儲在節點中。

索引類型

LlamaIndex 提供不同類型的索引，以下是要學習的一些類型：

List Index

將節點存儲為像鏈表結構那樣的順序鏈。默認情況下，它會從所有節點中獲取數據並作為響應的一部分發送。

可以使用基於嵌入的查詢來獲取前 k 個節點，或者添加關鍵字過濾器進行查詢。

Vector Store Index

向量存儲索引將每個節點及其對應的嵌入存儲在一個向量存儲中。在查詢向量索引時，它總是提供與查詢最相關的前 k 個最相似的節點。

Tree Index

樹形索引從一組節點建立一個分層的樹狀結構。

在內部，樹是通過摘要提示形成的。它以一系列文本文件作為輸入，然後以自下而上的方式建立樹形索引，其中每個父節點是其下方節點的摘要。

查詢樹形索引涉及從根節點向下到葉節點的過程。默認情況下（child_branch_factor=1），查詢在給定父節點的情況下選擇一個子節點。如果 child_branch_factor=2，則查詢在每一層選擇兩個子節點。

Keyword Table Index

GPTKeywordTableIndex 實現從索引的節點中提取關鍵字，並使用這些關鍵字來查找相關的文檔。當我們提出問題時，這個實現首先會從問題中生成關鍵字。接著，索引會搜尋相關的文檔並將它們發送給大語言模型（LLM）。

Knowledge Graph Index

官方教學文件: https://docs.llamaindex.ai/en/stable/examples/index_structs/knowledge_graph/KnowledgeGraphDemo/

KnowledgeGraphIndex類別透過自動從文本中提取實體和關係識別來簡化 RAG 知識圖構建，消除複雜的手動解析。它還提供了客製化的靈活性，可讓您根據您的特定需求定製圖形結構和推理規則。知識圖捕捉了實體之間豐富的關係，使得 RAG 中的查詢和推理比向量資料庫更加精確、多樣化和複雜。

從技術上講，KG 提供比 Vector DB 更多的 precise 輸出，KG 還支援比 Vector DB 更多的 diverse 和complex 查詢。此外，KG 比 Vector DB 具有更好的 reasoning 和推理功能……但通常情況下，KGs 與 Vector DBs 的比較是蘋果與柳丁的遊戲。

知識圖譜最適合具有清晰 relationships 的文檔，而向量資料庫則與基於 similarity 的上下文更相關。因此，在 KG 和 Vector DB 之間進行選擇取決於 RAG 專案的具體要求和目標。

何時使用特定的索引

列表索引 當您的文檔數量不多時，ListIndex 是理想的選擇。與其嘗試找到相關數據，索引會將所有片段連接起來並全部發送給大語言模型（LLM）。如果結果文本太長，索引會分割文本並請 LLM 精煉答案。

當使用“embedding”參數時，它與 VectorStoreIndex 非常相似，區別在於列表索引會發送所有匹配的節點而無需任何門檻，而 VectorStoreIndex 只有在節點達到某個匹配分數門檻時才會發送。

向量索引 當我們希望獲取通過一定匹配分數門檻的前 K 個相關文檔時，可以使用 Vector Index。

樹形索引 當處理基於摘要的任務時，樹形索引（Tree Index）非常有用。

關鍵字表索引 在 Keyword Table Index 中，每個節點都會被發送到 LLM 以生成關鍵字。將每個文檔發送給 LLM 會大幅增加索引成本。這比其他索引更慢且更昂貴。因此，除非使用此索引所提供的結果遠好於其他索引，否則不建議使用。

發佈日期: 2024-05-17 下午 5:242024-05-17 下午 5:25 作者: Claire Chang

使用LlamaIndex載入文檔

YouTube 文件載入器

將 YouTube 影片的文字記錄轉換為文件格式

from llama_index.core import download_loader
# 載入環境變數
from dotenv import load_dotenv 
load_dotenv()

YoutubeTranscriptReader = download_loader("YoutubeTranscriptReader")

loader = YoutubeTranscriptReader()
youtube_documents = loader.load_data(ytlinks=['https://www.youtube.com/watch?v=nHcbHdgVUJg&ab_channel=WintWealth'])

會得到如下格式的json資料

[Document(id_='nHcbHdgVUJg', embedding=None, metadata={'video_id': 'nHcbHdgVUJg'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text="I'm a Commerce graduate.......", start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')]

載入PDF文件

使用下面的程式碼可以讀取本地端的pdf文件，請確保該檔案存在

from pathlib import Path
from llama_index.core import download_loader

PDFReader = download_loader("PDFReader")

loader = PDFReader()

pdf_document = loader.load_data(file=Path('./sample.pdf'))

會產生如下的json檔案

[Document(id_='c63920fc-1f19-4112-ab6a-d18aa193c037', embedding=None, metadata={'page_label': '1', 'file_name': 'sample.pdf'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text=' \n \n \n \n \n \nLangChain 技术解密： \n构建大模型应用的全景指南 \n \n \n王浩帆 编著 \n \n \n \n \n \n \n \n \n \n \n \n \n', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n'), ......]

載入Notion筆記本

from llama_index.core import download_loader
import os

NotionPageReader = download_loader('NotionPageReader')

integration_token = "your-notion-token"
database_id = "your-database-id"
reader = NotionPageReader(integration_token=integration_token)
notion_documents = reader.load_data(database_id=database_id)

建立對話機器人

import os
from llama_index.core import VectorStoreIndex

all_documents = youtube_documents + pdf_document
index = VectorStoreIndex.from_documents(all_documents)

對話測試

query_engine = index.as_query_engine()
response = query_engine.query("介紹LangChain")
print(response)

LangChain是一个基于大语言模型的应用程序开发框架，旨在简化创建大模型应用程序的过程。它提供了一套完整的工具、组件和接口，使开发者能够轻松地利用大语….
可得到以上回應

發佈日期: 2024-05-17 下午 4:562024-05-17 下午 4:56 作者: Claire Chang

LlamaIndex的基礎元件

基礎元件

LlamaIndex 的基礎元件包括:

Nodes（節點）：LlamaIndex 的基本單位，是一個包含一段文本的資料結構。當提供一個文件時，可以將其分割成多個片段並存儲在節點中。
Document Loader（文檔加載器）：用於從各種來源（如網頁、YouTube 視頻、PDF 等）提取數據的接口。LlamaIndex 支持多種文檔加載器，用於不同類型的數據源。
Indexes（索引）：在 LlamaIndex 中，索引是一種組織和存儲來自各種數據源信息的資料結構，使得搜索變得更加容易。索引是建立在多個節點之上的。LlamaIndex 提供不同類型的索引，方便應對不同的使用場景。
Retrievers（檢索器）：在 LlamaIndex 中，檢索器幫助從索引中基於給定的查詢檢索一組節點。它類似於一個搜索工具，從大型數據集中找到相關信息以回答用戶的問題。LlamaIndex 提供不同類型的檢索器，以應對不同的檢索需求。
Query Engines（查詢引擎）：在 LlamaIndex 中，查詢引擎處理用戶輸入的查詢，與底層數據結構（如索引）交互，並返回一個綜合的響應。LlamaIndex 提供不同類型的查詢引擎，以應對不同的查詢處理需求。

載入資料

使用SimpleDirectoryReader來載入本地端資料

from llama_index import SimpleDirectoryReader

documents = SimpleDirectoryReader('./data').load_data()

將資料分割成節點

節點是基本的資料結構，用於保存輸入。我們將使用以下程式碼將上述輸入分割成多個節點。

from llama_index.node_parser import SimpleNodeParser
parser = SimpleNodeParser()
nodes = parser.get_nodes_from_documents(documents)

產生索引

現在我們已經創建了節點，可以在其上建立索引。我們將使用 VectorStoreIndex，它會從節點中的所有文本創建嵌入，並將其存儲在向量數據庫中。

from llama_index import LLMPredictor, VectorStoreIndex
from langchain import OpenAI
os.environ["OPENAI_API_KEY"] = "api-key"

index = VectorStoreIndex(nodes)

建立檢索器

我們將使用 VectorIndexRetriever，它會根據相似度檢索出前 k 個匹配的文件。在這個例子中，我們將 k 設為 2。

from llama_index.retrievers import VectorIndexRetriever

retriever = VectorIndexRetriever(
    index=index,
    similarity_top_k=2,
)

建立查詢引擎

現在我們可以在檢索器之上構建一個查詢引擎來開始進行查詢。

from llama_index.query_engine import RetrieverQueryEngine

query_engine = RetrieverQueryEngine(
    retriever=retriever
)

詢問問題

現在我們可以在檢索器上建立一個查詢引擎來開始進行查詢。

response = query_engine.query("What did the author do growing up?")
print(response)

Jupyter Notebook完整範例下載

https://github.com/SamurAIGPT/LlamaIndex-course/blob/main/fundamentals/Fundamentals.ipynb

發佈日期: 2024-05-17 下午 4:302024-05-17 下午 4:38 作者: Claire Chang

LlamaIndex介紹

主要功能

LlamaIndex 專注於將非結構化數據（如文本文件、PDF、網頁內容等）轉換為可以用於查詢和分析的結構化索引。它為用戶提供了一種簡單的方法來構建和查詢這些索引，從而更好地利用大型語言模型進行數據處理和檢索。

LlamaIndex 提供了以下功能來幫忙構建上下文增強 LLM 應用程式：

數據索引和向量化：LlamaIndex 可以將非結構化數據轉換為向量表示，這對於 LLM 來說更易於處理。可以輕鬆地將自己的數據添加到 LlamaIndex 中，並讓 LLM 從中學習。
數據檢索：LlamaIndex 可以根據用戶查詢快速準確地檢索相關數據。這意味著 LLM 應用程式將能夠快速找到其所需的信息，以提供準確的響應。
LLM 集成：LlamaIndex 可以與各種 LLM 集成，例如 GPT-3 和 Jurassic-1 Jumbo。這意味著可以選擇最適合的應用程式的 LLM。

使用教學(使用OpenAI的功能)

官方教學: https://docs.llamaindex.ai/en/latest/getting_started/starter_example/

LlamaIndex預設會使用OpenAI的Indexing功能去做文字的索引，以下為一個官方的範例，使用之前需要先安裝llama-index套件

pip install llama-index
pip install python-dotenv

接著下載數據並且放到data資料夾內，然後設定環境變數

設定環境變數的方法為到專案內新增.env檔案，並在其中設定OPENAI_API_KEY(可以到這邊申請)

OPENAI_API_KEY=xxxxxxxxxxxxxxxxxxxxxxx

接著新增一個檔案名為starter.py，內容如下:

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
import logging
import sys
import os.path
from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    StorageContext,
    load_index_from_storage,
)
# 載入環境變數
from dotenv import load_dotenv 
load_dotenv()

logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

# 假如已經有索引了，就不用再重新建立索引
PERSIST_DIR = "./storage"
if not os.path.exists(PERSIST_DIR):
    # 載入文件並建立索引
    documents = SimpleDirectoryReader("data").load_data()
    index = VectorStoreIndex.from_documents(documents)
    # 儲存索引
    index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
    # 載入已存在的索引
    storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
    index = load_index_from_storage(storage_context)

# 使用索引的資料詢問問題
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
print(response)

此時文件結構應該像下面這樣子

執行之後，可以看到程式載入了data內的資料，呼叫https://api.openai.com/v1/embeddings來做詞嵌入的動作

以下是訊息中的一些重要部分：

connect_tcp.started 和 connect_tcp.complete：表示開始和完成 TCP 連接。在這裡，連接成功建立到了 api.openai.com 的 443 端口。
start_tls.started 和 start_tls.complete：表示開始和完成 TLS 握手過程，確保通信的安全性。
send_request_headers.started 和 send_request_headers.complete：表示開始和完成發送請求頭的過程。
send_request_body.started 和 send_request_body.complete：表示開始和完成發送請求主體的過程。
receive_response_headers.started 和 receive_response_headers.complete：表示開始和完成接收響應頭的過程。響應頭中包含了一些重要的信息，如響應的 HTTP 狀態碼、內容類型、限速等。
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"：表示成功發送了 HTTP POST 請求到 https://api.openai.com/v1/embeddings 並收到了 200 OK 的響應。

上面這些訊息則代表已經生成了storage資料夾，儲存詞嵌入的結果

使用索引的資料詢問問題

下面這樣簡短的程式碼可自動載入"./storage"內的嵌入檔案，並且將嵌入的檔案和詢問的問題傳送給OpenAI API的https://api.openai.com/v1/chat/completions文字生成機器人

# 載入已存在的索引
storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
index = load_index_from_storage(storage_context)

# 使用索引的資料詢問問題
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
print(response)

則可看到得到的回應如下:

The author worked on writing short stories and programming, starting with the IBM 1401 in 9th grade, using an early version of Fortran. Later, the author transitioned to microcomputers, particularly a TRS-80, where they wrote simple games, a rocket prediction program, and a word processor.

檢索增強生成 (RAG)

RAG（檢索增強生成）是一種用於構建大型語言模型 (LLM) 應用程式的架構。它由以下五個關鍵階段組成：

載入：此階段涉及將數據從其原始位置導入到您的管道中。數據可以來自各種來源，包括文檔、數據庫、API 等。Node 是 LlamaIndex 中數據的原子單位，表示文件中的“chunk”。節點具有將它們與它們所在的文件以及其他節點相關聯的元數據。連接器：資料連接器（通常稱為讀取器），可以從各種數據源和格式，例如資料庫、檔案、網路 API 等，將資料讀取到 LlamaIndex 的文件 (Documents) 和節點 (Nodes) 中。
索引：取得資料後，LlamaIndex 可以協助您將資料建立索引，變成易於檢索的結構。這通常會包含生成向量嵌入 (vector embeddings)，並將它們儲存在稱為向量儲存庫 (vector store) 的特殊數據庫中。索引也可以儲存各種關於資料的元數據（metadata）。
大型語言模型 (LLMs) 會產生稱為嵌入的資料數值表示。當您根據相關性過濾資料時，LlamaIndex 會將查詢轉換成嵌入，您的向量儲存庫會找到與查詢嵌入數值上相似的資料。
儲存：此階段涉及將索引數據存儲在持久存儲器中。這使您可以稍後查詢數據，而無需再次重新索引。LlamaIndex 提供了各種存儲選項，可幫助您選擇最適合您的需求的選項。
查詢：此階段涉及使用 LLM 對索引數據進行查詢。LlamaIndex 提供了各種查詢方法，包括子查詢、多步驟查詢和混合策略。常使用的術語包括Retrievers、Routers、Node Postprocessors、Response Synthesizers
評估：此階段涉及評估您的管道的性能。這包括測量查詢的準確性、相關性和速度。LlamaIndex 提供了各種評估工具，可幫助您微調您的管道以獲得最佳結果。

官方釋出的範例專案

https://github.com/run-llama/chat-llamaindex