雲端現有的相似性搜尋資料庫研究

AWS DocDB

官方網頁: https://aws.amazon.com/tw/documentdb/

Amazon DocumentDB (with MongoDB compatibility) 是一種完全托管的 NoSQL 資料庫服務，可讓開發人員輕鬆地設置、操作和擴展 MongoDB 兼容的資料庫。它提供以下功能：

MongoDB 兼容性：Amazon DocumentDB 與 MongoDB 兼容，因此您可以使用相同的工具、驅動程序和應用程序來管理和查詢您的數據。
完全託管：Amazon DocumentDB 是一種完全託管的服務，因此您無需管理基礎架構。
可擴展性：Amazon DocumentDB 可根據需要進行擴展，因此您可以隨著數據增長而擴展資料庫。
高可用性：Amazon DocumentDB 提供高可用性，因此您的數據始終可用。
安全性：Amazon DocumentDB 提供多種安全功能，可幫助保護您的數據。

Amazon DocumentDB 適用於各種應用，包括：

內容管理：Amazon DocumentDB 可用於存儲和管理內容管理系統 (CMS) 的內容。
移動應用：Amazon DocumentDB 可用於存儲和管理移動應用程序的數據。
實時大數據分析：Amazon DocumentDB 可用於實時分析大數據。

Alibaba Cloud OpenSearch Vector Store介紹

官方介紹: https://www.alibabacloud.com/help/en/open-search/vector-search-edition/introduction-to-vector-search-edition

OpenSearch Vector Search Edition是阿裡巴巴集團開發的一款大規模分散式搜尋引擎。OpenSearch Vector Search Edition 為整個阿裡巴巴集團提供搜索服務，包括淘寶、天貓、菜鳥、優酷以及為中國大陸以外地區的客戶提供的其他電子商務平臺。OpenSearch Vector Search Edition 也是阿裡雲 OpenSearch 的基礎引擎。經過多年的發展，OpenSearch Vector Search Edition已經滿足了高可用、高時效、性價比等業務需求。OpenSearch Vector Search Edition 還提供自動化運維系統，您可以根據業務特性構建自定義搜索服務。

OpenSearch Vector Search Edition 的優勢

Stability 穩定性
OpenSearch Vector Search Edition 的底層是使用 C++ 程式設計語言開發的。經過十餘年的發展，OpenSearch Vector Search Edition為各類核心業務系統提供了穩定的搜索服務。OpenSearch 向量搜索版適用於對穩定性要求高的核心搜索場景。
Efficiency 效率
OpenSearch Vector Search Edition 是一個分散式搜尋引擎，允許您檢索大量數據。OpenSearch Vector Search Edition 支援實時數據更新。數據更新秒級即可生效。因此，OpenSearch Vector Search Edition 適用於時間敏感的查詢和搜索場景。
Cost-effectiveness 成本效益
OpenSearch Vector Search Edition 支持多種策略進行索引壓縮和多值索引載入測試，能夠經濟高效地滿足查詢需求。

Amazon Neptune – Neptune Analytics vector store

介紹影片

影片文字節錄

您可以通過將數據形狀轉換為嵌入（即向量）來回答有關數據的複雜問題。使用向量搜索索引可以回答有關數據的上下文及其與其他數據的相似性和連接的問題。

借助 Neptune Analytics 中的向量相似性搜索，您可以輕鬆構建機器學習（ML）增強搜尋體驗和生成式人工智慧（GenAI）應用程式。它還為您提供了更低的總體擁有成本和更簡單的管理開銷，因為您不再需要管理單獨的數據存儲、構建管道或擔心保持數據存儲同步。您可以在 Neptune Analytics 中使用向量相似性搜索，通過將針對特定域上下文的圖形查詢與從 LLMs Amazon Bedrock 託管、GraphStorm 中的圖形神經網路（GNN）或其他來源導入的嵌入的低延遲、最近鄰相似性搜尋結果的結果集成來增強您的LLMs功能。

例如，生物資訊學研究人員對將現有的血壓藥物重新用於其他可治療疾病感興趣，他們希望在內部知識圖譜上使用向量相似性搜索來找到蛋白質相互作用網路中的模式。或者一家大型在線圖書零售商可能需要使用已知的盜版材料來快速識別類似的媒體，並結合知識圖譜來識別欺騙性清單行為的模式並找到惡意賣家。

在這兩種情況下，在構建解決方案時，對知識圖譜進行向量搜索可以提高準確性和速度。它使用當今可用的工具減少了運營開銷和複雜性。