Machine Learning

  • ,

    Neo4j圖形資料庫介紹

    官方資訊 官方網站: https://neo4j.com/ GitHub: https://github.com/neo4j/neo4j 什麼是Neo4j? 圖形資料庫是一種非關係型的資料庫,以圖形的方式存儲和處理數據。在圖形資料庫中,數據結構主要由節點(Node)和邊(Edge)組成,其中節點代表實體,邊則代表實體間的關係。這種資料庫尤其適合解決複雜的連接問題,例如社交網絡分析、推薦系統和欺詐檢測等。 Neo4j是目前最受歡迎的圖形資料庫之一,它提供了強大的數據建模能力和高效的查詢性能。作為一款專門處理連接數據的數據庫,Neo4j從設計之初就針對數據及其關係進行了優化。作為一種原生圖形數據庫,Neo4j在結構上與其他數據存儲方式大不相同。所謂「原生」意味著每一個數據記錄或節點都包含了直接指向其相連節點的指針,這些直接指針稱為關係。節點中已包含了查找下一個節點所需的所有信息,這就構成了一個連接的圖形,即所謂的原生存儲層。 由於這個設計原理,Neo4j在查詢時不需要計算數據之間的關係,因為這些連接已經存在於數據庫中。這使得對密集連接數據的查詢速度比其他數據庫快數個量級。其他數據庫沒有保存記錄之間的直接指針,它們需要通過搜索一個稱為索引的單獨數據結構來計算連接,這一查找過程需要反复執行以找到每一個連接,不僅耗時而且隨著數據量和查詢複雜度的增加,速度會呈指數級下降,這使它們在處理關係密集型查詢時的速度遠不及Neo4j。 甚麼是圖形數據庫 圖形數據庫將數據以圖的形式表示,這裡的「圖」是數學上的概念,即由節點通過邊連接。在Neo4j中,這些邊被稱為關係。這種表示方式讓客戶能夠實現傳統數據庫無法達到的洞察,因為傳統數據庫通常只將數據表示為行和列。這些新的洞察促使企業能夠做出更多基於數據的決策。 圖形數據庫可以解決三種類型的問題:旅程問題、複雜模式匹配和圖形算法應用。例如,在供應鏈管理中,從產品的來源追踪到消費者的餐盤;或者在零售行業中,通過知識圖形來支持對話代理,讓顧客能夠查詢產品成分等信息。 四種NoSQL 非關聯性資料庫 NoSQL 非關聯性資料庫 例子 鍵-值資料庫 Hadoop HBase 記憶體資料庫 Redis 文件資料庫 Mongodb 圖形資料庫…

  • ,

    FlashAttention介紹

    官方資訊 Github: https://github.com/Dao-AILab/flash-attention 論文文檔: https://arxiv.org/abs/2205.14135 此存儲庫提供了以下論文中 FlashAttention 和 FlashAttention-2 的官方實現。可讓我們在建模時有更快的注意力,更好的並行度和工作分區。下面為一張概念示意圖: 官方所做的效能提升試驗結果如下: 甚麼是Flash Attention Flash Attention 是一種注意力算法,旨在提高基於 Transformer 的模型的效率,使其能夠處理更長的序列長度並更快地進行訓練和推理。它通過減少計算量和內存使用來實現這一點。Flash Attention 是一種快速且內存高效的精確注意力機制,其設計考慮了IO(輸入輸出)的特性。 這項技術的關鍵點 快速 (Fast) 高效內存使用 (Memory-efficient)…

  • ,

    向量搜尋資料庫的比較

    ChromaDB介紹 官方文件: https://docs.trychroma.com/getting-started GitHub: https://github.com/chroma-core/chroma Chroma是一個新的AI原生開源嵌入式資料庫,非常輕量且易用。 Chroma是開源嵌入式資料庫,它使知識、事實​​和技能可插入,從而輕鬆建立LLM應用程式。它可以運行在記憶體中(可保存在磁碟中),也可做為資料庫伺服器來使用(這和傳統資料庫類似)。 基本使用範例 Elasticsearch Vector Store Elasticsearch 是一個非常強大和靈活的搜索和分析引擎。雖然它的主要用例圍繞全文搜索,但它的用途足夠廣泛,可以用於各種其他功能。其中一個引起許多開發人員和數據科學家注意的功能是使用 Elasticsearch 作為向量資料庫。隨著 dense_vector 數據類型的出現和利用該 script_score 函數的能力,Elasticsearch 的功能已經擴展到促進向量相似性搜索。 Elasticsearch 與專用向量搜索庫相比的優點 使用 Elasticsearch 作為向量資料庫的不可否認的優勢之一是其內置功能,可以過濾對特定數據子集的查詢。當您想要縮小搜索空間範圍或應用程式需要上下文感知向量搜索時,此功能非常有用。相比之下,雖然其他專用的向量搜索庫(如 ChromaDB 和 Faiss)為純向量搜索提供了無可挑剔的速度和效率,但它們缺乏 Elasticsearch…

  • ,

    雲端現有的相似性搜尋資料庫研究

    AWS DocDB 官方網頁: https://aws.amazon.com/tw/documentdb/ Amazon DocumentDB (with MongoDB compatibility) 是一種完全托管的 NoSQL 資料庫服務,可讓開發人員輕鬆地設置、操作和擴展 MongoDB 兼容的資料庫。它提供以下功能: Amazon DocumentDB 適用於各種應用,包括: Alibaba Cloud OpenSearch Vector Store介紹 官方介紹: https://www.alibabacloud.com/help/en/open-search/vector-search-edition/introduction-to-vector-search-edition OpenSearch…

  • ,

    使用Docker來運行Ollama

    為什麼要使用Docker來運行Ollama 使用 Docker 來運行 Ollama 可以提供許多優點,包括簡化設置、可移植性、隔離、資源管理、可擴展性和可重複性。可以把Ollama變成一個API服務,提供其他的應用程式直接使用API的方式來呼叫Ollama,並運行不同的本地端模型。而把Ollama變為一個Docker服務,更可以在多台機器上分發 Ollama 模型。這對於需要在高可用性環境中運行 Ollama 的情況非常有用。 以下為Ollama的API手冊 https://github.com/ollama/ollama/blob/main/docs/api.md 利用Docker來運行服務的狀況 以下是一些使用 Docker 運行 Ollama 的具體示例: 其中最重要好處的會是第三點,當我們把本地端LLM視為一個API服務,便可以對此服務做平衡負載,並根據使用量來增加機器,擴張服務的Scale,讓整體服務具備有良好的擴充性。 安裝Ollama Docker image 官方網站: https://hub.docker.com/r/ollama/ollama Ollama…

  • ,

    Ollama – 本地端運行的LLM服務

    Ollama 介紹 Ollama 是一個開源軟體,讓使用者可以在自己的硬體上運行、創建和分享大型語言模型 (LLM) 服務。它提供了一個易於使用的平台,讓用戶無需複雜的設定即可利用 LLM 的功能。 Ollama 的主要優點包括: Ollama 可用於各種任務,包括: Ollama的優點 Ollama與LM Studio相似,都是可以於本地端運行、比較多個大語言模型的工具,並且也都是開源軟體 功能 Ollama LM Studio 原生功能集 基本 豐富 用戶界面 可使用Command line 豐富易操作的視窗介面…

  • ,

    使PostgreSQL支持向量相似度搜尋

    安裝相關套件pgvector 套件Github頁面 https://github.com/pgvector/pgvector pgvector可做到Postgres 的開源向量相似度搜索,將向量與其他數據一起存儲。 支援: Linux安裝 Windows安裝 首先安裝VisualStudioSetup,此為下載連結: https://visualstudio.microsoft.com/downloads/ 接著至少勾選這些套件 執行C的編譯環境 使用nmake編譯檔案 建立可儲存的向量的資料欄位 pgvector的資料格式為vector(1536),後面的(1536)代表長度,此為OpenAI的embedding長度 以下為一個建立表格的SQL範例 在Object Explorer按右鍵選擇,Query Tool可開啟SQL輸入介面,要瀏覽現有資料庫表格列表可至Schemas->Tables瀏覽 新增資料至資料表 以下為一個範例 並行搜索的擴展套件AnalyticDB  AnalyticDB 是阿里巴巴雲推出的云原生數據倉庫,它基於 PostgreSQL…

  • ,

    如何設定與操作PostgreSQL

    了解安裝的PostgreSQL的相關資訊 像我是使用CentOS,因此我可以用下面的指令來得知現在系統中PostgreSQL的運行狀況 從回覆的資料可以看出,設定檔的資料會在/var/lib/pgsql/13/data/,接著就搜尋裡面的設定檔*.conf 允許非本機的連線 PostgreSQL 默認配置只允許本地連接(即 localhost 或 127.0.0.1),這是出於安全考量。要允許遠程連接,需要修改 PostgreSQL 的配置文件並設置適當的防火牆規則。以下是允許遠程連接的步驟: 1. 修改 postgresql.conf 文件,打開 postgresql.conf 文件,找到 listen_addresses 配置項,將其設置為 ‘ * ‘ 以允許所有地址連接,或者指定特定的 IP 地址。例如:…

  • ,

    Tesseract – Google開源的光學文字辨識系統

    關於Tesseract Tesseract 是一個開源的光學字符識別(OCR)引擎,能夠將圖像中的文本轉換為可編輯的文本。它由 Google 維護和開發,支持多種語言和字符集。 GitHub位置: https://github.com/tesseract-ocr/tesseract Tesseract 4 添加了一個新的基於神經網路 (LSTM) 的 OCR 引擎,該引擎專注於行識別,但仍然支援 Tesseract 3 的傳統 Tesseract OCR 引擎,該引擎通過識別字元模式來工作。使用舊版 OCR 引擎模式 (–oem 0) 啟用與…

  • ,

    安裝Postgresql和PgAdmin過程記錄

    Postgresql安裝教學 安裝的指令如下 接著建立資料庫 退出命令行 安裝PgAdmin 以下為安裝的指令建議 強烈建議使用 Python 虛擬環境,不然因為牽涉到的library眾多,很容易會有函式庫之間的彼此衝突 安裝及啟動pgAdmin的方法 以下為安裝方式 啟動則只需要 問題1 : 無法啟動pgAdmin 錯誤訊息 解決方法 首先先安裝所需要的套件 接著要找到PYTHON的位置並且重新編譯 把下面的/path/to/python/source換成你的PYTHON的根目錄 然後就可以正常啟動囉! 問題2:只能從127.0.0.1連線 使用下面指令找到套件位置 修改config 找到下面這行並將127.0.0.1改成0.0.0.0…


17年資歷女工程師,專精於動畫、影像辨識以及即時串流程式開發。經常組織活動,邀請優秀的女性分享她們的技術專長,並在眾多場合分享自己的技術知識,也活躍於非營利組織,辦理活動來支持特殊兒及其家庭。期待用技術改變世界。

如果你認同我或想支持我的努力,歡迎請我喝一杯咖啡!讓我更有動力分享知識!