Technology Research – 第 2 頁

AI 職場超神助手, Machine Learning, Technology Research, 流程自動化

什麼是Agent

參考資料：https://docs.dify.ai/zh-hans/guides/application-orchestrate/agent

智能助手（Agent Assistant），利用大語言模型的推理能力，能夠自主對複雜的人類任務進行目標規劃、任務拆解、工具調用、過程迭代，並在沒有人工干預的情況下完成任務。

在Dify創建Agent

我們可以在Studio > Agent創建一個具備Agent功能的機器人

在認識Agent之前，要先了解工具是什麼

在工作流的地方，我們可以呼叫外部的API，在那邊，呼叫的動作是我們自己在工作流程中設定如何呼叫，但是如果流程不是固定的，而會隨著使用者的回應而改變，那麼工作流就會不堪用，就要改使用Agent，由大語言模型來幫忙判斷何時該呼叫那些外部API或那些功能

在Dify裡面已經有很多預設的工具，但是很多時候如果不符合需求，我們就會需要設定自己的工具

在Dify自己創建工具

首先就是要寫一個API，關於API的格式，我在我的前一篇文章有分享過

了解LLM的函數調用function calling

那要如何把這個寫好的API給Dify使用呢?這時候就要大推下面這個網址

https://chatgpt.com/g/g-TYEliDU6A-actionsgpt

基本上我就把我的API的程式碼整個貼給他，叫他幫我產生一個YAML檔案，噹噹噹~就完成啦!連解釋都大致正確喔!

在這邊創建自己的工具，然後回到剛剛在Studio > Agnet創建的機器人，在工具部分增加自己的工具，LLM會根據你在YAML裡面寫的工具說明(英文)和參數說明，自動產生相對應的資料去呼叫函數，非常的聰明!但也因為這樣，工具說明和參數說明一定要認真寫，千萬不要亂寫，會影響到呼叫的成功率

Machine Learning, Technology Research

Steve Comparison of LLMs

Post By Claire Chang 2024-10-15 上午 11:03

About the author

這篇文章是由我的實習生Steve Wang所撰寫

More about Steve Wang: https://renickbell.net/students/steve-wang/doku.php?id=start

Introduction

Here the author performs a comparison of different LLM AI models. The goal is to find the best LLM that can understand and reply in Traditional Chinese. A requirement is that this LLM should serve those physically and mentally handicapped or disadvantaged groups and help them understand how to apply for government welfare resources in Taiwan.This is important because most of the time, government websites often use lawyer speak. The categories under analysis will be speed of reply, reasoning ability, and clarity in traditional Chinese. Some models will be run on device and others in the cloud. The ones that will be run in the cloud include gpt4o (OpenAI) and Gemini 1.5 flash (Google). The ones run locally include Mistral and Llama3.2 will be run using Ollama on a laptop with an NVIDIA GeForce RTX 3070 Ti Laptop GPU.

Due to the fact that some models are run locally and others in the cloud, the time measurements would cause inconsistencies in measurements and thus will not be considered in comparisons made. All these tests will be run in the Dify interface. The device running Dify will be the same device running the models with Ollama. To reduce network latency, the same laptop was hooked up to wired internet which had an average of 600.44 mbps download and 51.26 mbps upload on the browser version of Speedtest.

Research Methods

The testing process was as follows. A basic Dify workflow will be created with a startpoint leading to one of the models. Process as follows:

The LLM was prompted like so:

You are a chatbot designed to help serve some physically and mentally handicapped or disadvantaged groups and help them understand how to apply for government welfare resources in Taiwan. Answer like a person from Taiwan and in traditional Chinese. Remember the person you are speaking with is most likely from Taiwan so respond accordingly.

  

here is the question from user: {question from user}

The first question prompted by the user was “我該如何申請低收入戶補助？”. The follow up question “告訴我臺灣臺北市的低收入資格”. Following that: “根據你上面提供的資料. 我在臺北市住. 在臺北市有租一個房間. 月收13,455元我可以申請嗎?”. It was believed that these questions would test if the LLM would reply in full traditional Chinese, give a relatively good idea of the speed of the LLM, and test if the LLM has good reasoning skills. When calculating the time, only the time necessary for the LLM to produce a response was calculated. Shown in image below (circled in red). These prompts were designed in this way to simulate a generally authentic, real-life usage case, not a clinical scientific study.

The accuracy of the responses were not judged because of possible hallucinations and the fact that the actual correct information would be provided to the system in a real world use case. However, the accuracy of answers based on the information that each LLM came up with was judged to test reasoning ability. In other words, we treated all responses produced as fact for each testing scenario. The “facts” each LLM came up with were used to judge their following responses.

Results

LLama3.2 (Meta)

llama3.2 took 9.883 s, 2.919 s, and 2.419 s respectively to answer each question. All of the responses are in traditional Chinese but there are a few glitches observed. For instance, “住住的人” that can be found in the responses of question 2 and 3. Other than that, the answers seemed to be fine, the logic and reasoning sound. Llama also sounded quite professional. This model appears to suit the goal quite well. View full response from LLama3.2 in the Full Response from LLMs section below.

Mistral (Mistral AI)

Mistral took 12.312 s, 29.308 s, and 16.970 s respectively to answer each of the questions. There is some use of Simplified Chinese. For instance, “身份” in responses one and responses two and “证明” in responses one and two. It seems that the language is accurate and the logic is quite clear. Another thing of note is, Mistral always starts responses with: “您好！” which might make the conversation feel robotic because there is not variation.

Gemini 1.5 Flash (Google)

Google Gemini 1.5 Flash took 8.516 s, 11.995 s, and 9.561 s respectively to answer each question. All responses are in traditional Chinese and the language is quite clear and accurate. The logic and reasoning is sound. It seems that Gemini can follow the conversion quite well. An interesting thing to note is that Gemini’s tone is very friendly which could help people using it feel more comfortable. However, perhaps due to this, most of its answers follow a formulaic format. Gemini would mostly start with a greeting and end with a sentence of encouragement. As a non-native Chinese speaker, the writer is unsure how this would make people in Taiwan feel. All in all, Gemini is quite a good fit for the goals.

gpt4o-mini (OpenAI)

gpt40-mini took 3.594 s, 2.580 s, and 2.488 s respectively to answer each question. There are some responses in Simplified Chinese. For instance, in the first response, gpt4o-mini uses “台灣” instead of “臺灣”. However it would seem that this is acceptable to some people living in Taiwan. Other than that, the language is clear and accurate. The logic and reasoning is sound. The writer observes that gpt4o seems to be very careful and tries to not give specific answers until there is correct information. This point makes gpt4o a good model to achieve research goals.

Discussion

From the results, only Gemini 1.5 Flash, LLama3.2, and gpt40-mini could give all the responses in traditional Chinese. Both have acceptable speeds that would not make the user feel impatient. Compared to Llama3.2, Gemini 1.5 Flash had better Chinese skills and responded without making mistakes. Gemini 1.5 Flash was also quite comforting and encouraging in its tone which might make it ideal for communicating with physically and mentally handicapped or disadvantaged groups and help them understand how to apply for government welfare resources.

Conclusion

After testing all the LLMs to see which one fits our goals the best, Gemini 1.5 Flash and gpt40-mini seems to be the best choice at the moment. To further narrow down the best LLM for the task, tests could be done on bigger models like llama3 with 70b parameters (Llama3.2 has 3b). To reduce cost and the network speed of using Gemini models from Google, testing could be done on Gemma or Gemma2 these model are both available on Ollama and are from Google.

Full Responses from LLMs

正確答案

Q.我該如何申請低收入戶補助？

應備文件:(1)申請表1份（可自本局網站下載，[連結]）。(2)新式戶口名簿(含詳細記事)影本1份。(3)戶長郵局或市庫指定銀行(現為台北富邦銀行)存摺封面影本1份。(4)其他相關證明文件1份（如：身心障礙證明文件、診斷證明書、學生證、薪資證明、房屋所有權狀影本等）。

備妥後可至區公所臨櫃親自申辦、委託申辦、郵寄申辦、網路申辦（全程式）

Q.告訴我臺灣臺北市的低收入資格

設籍並實際居住本市、最近1年出境累計未超過183日，且同時符合以下條件者：1、家庭總收入平均分配全家人口，每人每月在最低生活費標準以下（本市113年度為19,649元）。2、全家人口之存款（含股票投資）平均每人不超過新臺幣15萬元。3、全家人口之土地及房屋價值不超過新臺幣793萬元。[參考資料]

Q.根據你上面提供的資料. 我在臺北市住. 在臺北市有租一個房間. 月收13,455元我可以申請嗎?

居住要求：你在台北市居住，且有租房子，符合居住條件。
收入要求：
– 你每月收入為13,455元。
– 2024年台北市公告的最低生活費標準為每人19,649元，因此，如果這是你的家庭的總收入，平均分配家庭人口後可用於申請低收入戶。
家庭人口：這個收入是針對你單獨的情況，還是指家庭的總收入？如果是家庭的總收入，那麼需要計算家庭中其他成員的收入。
– 如果你是單身，且家庭中只有你一個人，13,455元的月收入是低於19,649元，符合低收入戶的申請資格。
– 如果有其他家庭成員的收入，則需要將總收入平均分配並確認是否低於標準。

LLama3.2 (Meta)

Q1:

申請低收入戶補助，通常需要通過以下步驟：

登入公共住宅資訊網：首先，你需要登入公共住宅資訊網（http://www.taiwan.gov.tw/zh-hant/），並且點擊「申請服務」或是「低收入戶補助»，這將導向你到該平台的相關頁面。
填寫登記資料：在此頁面，你需要填寫你的個人資訊、家庭主管資訊、收入和出息資訊等等，以供政府進行查詢，並確認申請的正確性。
提供必要文件：你需要將相關文件upload至網站，包括：

身分證字樣或護照
戶口登記單
年度收入表單（含所屬機關、部門、職位和每月的收入）
家庭主管身份證字樣

申請完成：完成上述步驟後，系統將會提供你一個登記號，使用此編號可以查詢你的申請狀態。
等待評估結果：在您填寫資料和上传文件之后，您需要等待政府的評估結果。

如果您有任何問題或需要幫助，您可以聯繫公共住宅資訊網的客服。

Q2:

台北市政府對於低收入戶補助有以下規定：

所屬家庭人數：單位中，含有小孩者，少於6名成員；含有5名以上成員者，少於8名成員。
收入標準：每人月收入不超過 NT$34,000。
申請人資格：申請人需是台北市住住的人。
申請時機：申請時間為每年6月1日至12月31日（包含）。
續付期限：續付期限為每年2月1日至7月31日（含）。

Q3:

根據台北市政府對於低收入戶補助的規定：

每人月收入不超過 NT$34,000
申請人需是台北市住住的人
申請時機為每年6月1日至12月31日（包含）

您所租用房間的月收13,455元，符合每人月收入上限標準，且您在台北市住家。

因此，您可以申請台北市政府低收入戶補助。

Gemini 1.5 Flash (Google)

Q1:

您好！要申請低收入戶補助，需要先了解您的狀況，才能告訴您如何申請。

請您先告訴我：

您是哪個縣市或鄉鎮的居民？ 因為各縣市政府的申請方式和條件可能略有不同。
您和您的家庭成員有哪些人？ 包含年齡、職業、收入狀況等等。
您目前的收入和財產狀況如何？

有了這些資訊，我才能幫您更準確地解答如何申請低收入戶補助。

另外，建議您直接到戶籍所在地的 社會局 或 鄉鎮區公所 詢問，他們會提供最完整的資訊和協助。

加油！祝您順利申請到補助！

Q2:

好的，以下整理了台北市的低收入戶資格資訊：

台北市低收入戶資格

1. 戶籍: 必須設籍於台北市。

2. 家庭成員: 包含您本人和所有共同生活且有扶養關係的家人。

3. 收入:

每人每月收入需低於 新台幣 15,000 元。
計算收入時，會考慮家庭成員的 工作收入、投資收益、房租收入、退休金、補助款 等。

4. 財產:

家庭總財產價值需低於 新台幣 100 萬元。
財產計算包含 房屋、土地、存款、股票、債券、汽車、機車 等。

5. 其他條件:

若家庭成員中有身心障礙者，或有特殊情況，可能會依個案狀況調整資格標準。

如何申請:

您可以到戶籍所在地的 台北市社會局 或 區公所 索取申請表格。
填妥申請表格，並附上相關證明文件，例如 戶口名簿、收入證明、財產證明、身心障礙證明 等。
將申請資料送交社會局或區公所受理。

注意事項:

申請低收入戶資格需要經過審查，審查時間大約需要 1 個月。
若審查結果未符合資格，可以提出申覆。

建議:

為了更清楚了解自己的情況是否符合資格，建議您直接到社會局或區公所諮詢，他們會提供更詳細的資訊和協助。

希望以上資訊對您有所幫助！

Q3:

根據您提供的資訊，您在台北市居住，月收入 13,455 元，若您是單身，且沒有其他財產，您可能符合台北市低收入戶資格的條件。

但請注意，以下幾點需要確認：

家庭成員: 您是單身嗎？還是有其他家人一起居住？如果有家人，他們的收入和財產狀況也要納入考量。
財產: 除了租屋以外，您還有其他財產嗎？例如存款、股票、債券、汽車、機車等等。
其他收入: 除了工作收入，您還有其他收入嗎？例如房租收入、補助款等等。

建議您直接到戶籍所在地的 台北市社會局 或 區公所 詢問，他們會提供更詳細的資訊和協助，幫您確認是否符合資格。

您可以攜帶您的 身分證、戶口名簿、收入證明 等相關文件，到社會局或區公所諮詢。

祝您順利申請到補助！

gpt4o-mini

Q1:

要申請低收入戶補助，您需要按照以下步驟進行：

確認資格：首先，您需要確認自己是否符合低收入戶的條件。在台灣，低收入戶的標準是根據家庭的收入及財產狀況來判定的。
準備文件：您需要準備一些必要的文件，包括但不限於：

身分證明文件（如身分證或戶口名簿）
收入證明（如薪資單、稅單或社會福利補助的證明）
財產證明（如銀行存款證明或不動產證明）

填寫申請表：前往當地的社會局或民政局，索取並填寫低收入戶的申請表格。
提交申請：將填妥的申請表及相關文件提交至您所屬的社會局或民政局。
等待審核：申請後，相關單位會進行審核，通常會在一段時間內通知您結果。

如果您有任何疑問或需要協助，建議您可以直接聯繫當地的社會局，他們會提供您更詳細的資訊和幫助。希望這些資訊對您有所幫助！

Q2:

在臺北市，低收入戶的資格主要是根據家庭的收入和財產狀況來判定的。以下是一些基本的條件：

收入標準：低收入戶的年收入必須低於台北市所定的低收入戶標準。這個標準會根據家庭人數有所不同，通常每年會調整一次，您可以查詢當前的標準。
財產限制：家庭的總財產（如存款、不動產等）也不能超過一定的限額。這個限額同樣會根據家庭人數有所不同。
家庭成員：申請時需要提供家庭成員的相關資料，包括配偶、子女等，這會影響您的收入和財產計算。

建議您可以前往臺北市政府社會局的官方網站，查詢最新的低收入戶資格標準和相關資訊，或直接聯繫當地社會局以獲得更詳細的說明。希望這些資訊對您有幫助！

Q3:

根據您提供的資訊，您的月收入為13,455元。要判斷您是否可以申請低收入戶補助，還需要考慮以下幾點：

年收入計算：您的年收入約為161,460元（13,455元 x 12個月）。您需要確認這個收入是否低於臺北市所定的低收入戶年收入標準。
家庭成員：如果您有其他家庭成員（如配偶或子女），那麼他們的收入也需要合併計算，這可能會影響您的低收入戶資格。
財產狀況：除了收入，您的財產狀況也會影響申請資格，需確認總財產是否在低收入戶的限制範圍內。

建議您可以查詢臺北市政府社會局的網站，了解目前的低收入戶收入標準和財產限制，或直接聯絡社會局詢問，這樣可以獲得更準確的資訊和指導。希望這些資訊對您有幫助！

Mistral (Mistral AI)

Q1:

您好！您要如何申請低收入戶補助？請先準備以下文件：身份證字號、戶籍證明文件、家庭成員名單（每個成員的身分證字號）、近六個月的工資說明書或其他收入來源证明，以及金融銀行發卡的帳戶報表。接下來，您可以到網上申請平台上填寫申請表格，或到鄉鎮市政府的社會福利辦公室提出申請。如果您需要任何其他說明，請聯繫我們即時回答。

Q2:

您好！台北市的低收入資格是根據家庭每月實際消費經銷額的標準，分為三級：第一級是每月實際消費經銷額不超過10,800元（家庭成員數量上限5人）、第二級是每月實際消費經銷額為10,800元至27,000元之間（家庭成員數量上限5人）、第三級是每月實際消費經銷額超過27,000元的家庭。如果您想要申請台北市低收入補助，請準備以下文件：身份證字號、戶籍證明文件、家庭成員名單（每個成員的身分證字號）、近六個月的工資說明書或其他收入來源证明，以及金融銀行發卡的帳戶報表。接下來，您可以到網上申請平台上填寫申請表格，或到鄉鎮市政府的社會福利辦公室提出申請。如果您需要任何其他說明，請聯繫我們即時回答。

q3:

您好！根據台北市低收入補助的資格，每月實際消費經銷額上限為10,800元（家庭成員數量上限5人）。您每月僅支付13,455元，不符合低收入補助的資格。但是，請不要灰心！如果您需要任何其他社會福利資源，請聯繫我們即時回答或到鄉鎮市政府的社會福利辦公室提出申請。

Machine Learning, Technology Research

了解LLM的函數調用function calling

Post By Claire Chang 2024-10-10 上午 6:16

什麼是Function calling

官方介紹文檔：https://platform.openai.com/docs/actions/introduction

中文介紹文檔：https://openai.xiniushu.com/docs/plugins/getting-started

Function calling是一種技術，允許LLM根據對話內容自主選擇並調用預定義的函數。這些函數可以用來執行各種任務，例如查詢實時數據、執行計算、生成圖像等。函數調用是建立 LLM 驅動的聊天機器人或代理(agents)的重要能力，這些聊天機器人或代理需要檢索 LLM 的上下文或通過將自然語言轉換為 API 調用來與外部工具互動。

功能調用使開發者能夠創建：

用戶提示：用戶輸入一個查詢或命令，LLM識別出需要調用特定函數。
函數觸發：LLM解析輸入內容，並確定需要調用的函數。
函數執行：LLM生成包含函數名稱和參數的JSON對象，並調用相應的函數。
響應交付：函數執行後返回結果，LLM處理該結果並以可理解的格式交付給用戶

Function Calling可以做到那些事情

有效的使用外部工具來回答問題
例如：查詢「伯利茲的天氣怎麼樣？」將被轉換為類似 get_current_weather(location: string, unit: 'celsius' | 'fahrenheit') 的函數調用。
用來提取和標記數據
例如：從維基百科文章中提取人名
將自然語言轉換為API調用或者做有效的資料庫查詢的應用程式
對話式的知識檢索並與知識庫互動

如何實現function calling

假如我們現在想要詢問某個地點的天氣，一般的LLM無法做到這件事情，因為訓練的數據集不會包括現在的即時數據。解決這個問題的方法是將LLM與外部工具結合。利用模型的Function Calling能力來確定要調用的外部函數及其參數，然後讓它返回最終的回應。

假設一位用戶向模型提出以下問題：

台北市今天的天氣如何

要實現function calling，需要在LLM的接口中註冊函數，並將這些函數的描述和使用說明一同發送給模型。模型會根據上下文智能地選擇並調用適當的函數。以下是一個簡單的實現示例：

這個範例會使用一個公共API：Weather.gov，要獲取預報，有兩個步驟：

用戶向 api.weather.gov/points API 提供緯度和經度，並收到 WFO（天氣預報辦公室）、grid-X 和 grid-Y 坐標。
這三個元素會輸入到 api.weather.gov/forecast API，以獲取該坐標的天氣預報。

首先，ChatGPT 會使用頂部的 info（特別是描述）來判斷此操作是否與用戶查詢相關。接著定義API的接口和每個接口的功能。

然後，下面的參數進一步定義了架構的每個部分。例如，我們正在告訴 ChatGPT，辦公室 參數指的是天氣預報辦公室 (WFO)。

openapi: 3.1.0
info:
  title: NWS Weather API
  description: Access to weather data including forecasts, alerts, and observations.
  version: 1.0.0
servers:
  - url: https://api.weather.gov
    description: Main API Server
paths:
  /points/{latitude},{longitude}:
    get:
      operationId: getPointData
      summary: Get forecast grid endpoints for a specific location
      parameters:
        - name: latitude
          in: path
          required: true
          schema:
            type: number
            format: float
          description: Latitude of the point
        - name: longitude
          in: path
          required: true
          schema:
            type: number
            format: float
          description: Longitude of the point
      responses:
        '200':
          description: Successfully retrieved grid endpoints
          content:
            application/json:
              schema:
                type: object
                properties:
                  properties:
                    type: object
                    properties:
                      forecast:
                        type: string
                        format: uri
                      forecastHourly:
                        type: string
                        format: uri
                      forecastGridData:
                        type: string
                        format: uri

  /gridpoints/{office}/{gridX},{gridY}/forecast:
    get:
      operationId: getGridpointForecast
      summary: Get forecast for a given grid point
      parameters:
        - name: office
          in: path
          required: true
          schema:
            type: string
          description: Weather Forecast Office ID
        - name: gridX
          in: path
          required: true
          schema:
            type: integer
          description: X coordinate of the grid
        - name: gridY
          in: path
          required: true
          schema:
            type: integer
          description: Y coordinate of the grid
      responses:
        '200':
          description: Successfully retrieved gridpoint forecast
          content:
            application/json:
              schema:
                type: object
                properties:
                  properties:
                    type: object
                    properties:
                      periods:
                        type: array
                        items:
                          type: object
                          properties:
                            number:
                              type: integer
                            name:
                              type: string
                            startTime:
                              type: string
                              format: date-time
                            endTime:
                              type: string
                              format: date-time
                            temperature:
                              type: integer
                            temperatureUnit:
                              type: string
                            windSpeed:
                              type: string
                            windDirection:
                              type: string
                            icon:
                              type: string
                              format: uri
                            shortForecast:
                              type: string
                            detailedForecast:
                              type: string

OpenAI很貼心的為我們提供了一個幫我們撰寫此Yaml的機器人

https://chatgpt.com/g/g-TYEliDU6A-actionsgpt

使用方法如下：

在測試API的時候，可以使用Postman來測試上面的OpenAPI架構。Postman 註冊是免費的，錯誤處理詳盡，並且在身份驗證選項上非常全面。它甚至還提供直接導入 Open API 架構的選項（見下文）。

如果要進行身分驗證，可參考以下文章

https://platform.openai.com/docs/actions/authentication

Machine Learning, Technology Research

在本機執行Breeze-7B-Instruct-v1_0

Post By Claire Chang 2024-10-03 上午 12:48

甚麼是Breeze-7B-Instruct-v1_0

huggingface頁面：https://huggingface.co/MediaTek-Research/Breeze-7B-Instruct-v1_0

線上DEMO: https://huggingface.co/spaces/MediaTek-Research/Demo-MR-Breeze-7B

聯發科的Breeze系列有好幾種不同的模型，在使用的時候要注意其微調順序

首先就是Breeze-7B-Base 是 Breeze-7B 系列的基礎模型。而Breeze-7B-Instruct 源自基礎模型 Breeze-7B-Base，使得最終模型可以直接用於常見任務。

Ollama library上的breeze模型總是使用簡體中文回答

我有嘗試使用Ollama在Library上面尋找別人訓練好的Library，但不太確定為什麼總是回答簡體中文，而無法好好使用繁體中文回應

https://ollama.com/search?q=breeze

我有嘗試過markliou/breeze-7b、ycchen/breeze-7b-instruct-v1_0、jcai/breeze-7b-32k-instruct-v1_0

其中markliou/breeze-7b是回繁體中文沒錯但總是沒在理我問什麼，而剩的都用簡體中文

後來發現是問的問題的關係，以jcai/breeze-7b-instruct-v1_0為例，如果問的問題是台灣專屬的，那麼就會以繁體中文回覆，畢竟原本是以Mistral-7B-v0.1為基礎，如果後面的微調沒有微調到的資料，就仍會有簡體中文的出現，如果詢問台北有哪些地方好玩，則會都使用繁體中文

自己將Hugging Face上的檔案匯入Ollama

所以我嘗試使用下面的Makefile，並將https://huggingface.co/MediaTek-Research/Breeze-7B-Base-v1_0的檔案放置至同資料夾內

FROM mistral:v0.1
ADAPTER ./

然後用

ollama create my-breeze

中間有出了一些錯誤

panic: runtime error: index out of range [1] with length 1

這代表你的.safetensors 檔案的格式或內容不符合 ollama 轉換的要求。請檢查你所使用的 .safetensors 檔案是否與基礎模型匹配。例如我就是因為原本是使用Breeze-7B-Instruct，而基礎模型卻直接使用mistral:v0.1

Breeze-7B-Base-v1_0微調自：mistralai/Mistral-7B-v0.1

Breeze-7B-Instruct-v1_0 微調自：MediaTek-Research/Breeze-7B-Base-v1_0

所以我daapter用Breeze-7B-Instruct-v1_0，基礎模型卻使用mistral:v0.1，就會不行

後來有嘗試用正確的方式，仍然無法，原因是GPU不夠力

2024/10/03 01:22:18 routes.go:1153: INFO server config env=”map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\ollama\models OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://*] OLLAMA_SCHED_SPREAD:false OLLAMA_TMPDIR: ROCR_VISIBLE_DEVICES:]”
time=2024-10-03T01:22:18.347+08:00 level=INFO source=images.go:753 msg=”total blobs: 50″
time=2024-10-03T01:22:19.031+08:00 level=INFO source=images.go:760 msg=”total unused blobs removed: 1″
time=2024-10-03T01:22:19.034+08:00 level=INFO source=routes.go:1200 msg=”Listening on [::]:11434 (version 0.3.12)”
time=2024-10-03T01:22:19.035+08:00 level=INFO source=common.go:49 msg=”Dynamic LLM libraries” runners=”[cpu_avx cpu_avx2 cuda_v11 cuda_v12 rocm_v6.1 cpu]”
time=2024-10-03T01:22:19.035+08:00 level=INFO source=gpu.go:199 msg=”looking for compatible GPUs”
time=2024-10-03T01:22:19.247+08:00 level=INFO source=gpu.go:292 msg=”detected OS VRAM overhead” id=GPU-e7a02a5a-c5d7-954e-8c0c-1e61accd6933 library=cuda compute=8.6 driver=12.6 name=”NVIDIA GeForce RTX 3090″ overhead=”216.4 MiB”
time=2024-10-03T01:22:19.252+08:00 level=INFO source=types.go:107 msg=”inference compute” id=GPU-e7a02a5a-c5d7-954e-8c0c-1e61accd6933 library=cuda variant=v12 compute=8.6 driver=12.6 name=”NVIDIA GeForce RTX 3090″ total=”24.0 GiB” available=”22.8 GiB”
[GIN] 2024/10/03 – 01:22:40 | 200 | 0s | 127.0.0.1 | HEAD “/”
[GIN] 2024/10/03 – 01:23:35 | 201 | 23.5449467s | 127.0.0.1 | POST “/api/blobs/sha256:db70372fb06ef4ea5b51aca748a054c8cfadd0e966340da549100bcabca00513”
[GIN] 2024/10/03 – 01:23:35 | 200 | 12.2951ms | 127.0.0.1 | POST “/api/create”
[GIN] 2024/10/03 – 01:29:09 | 200 | 8.9953ms | 162.142.125.45 | GET “/”
[GIN] 2024/10/03 – 01:29:19 | 200 | 0s | 162.142.125.45 | GET “/”
[GIN] 2024/10/03 – 01:29:20 | 404 | 8.2049ms | 162.142.125.45 | GET “/favicon.ico”
[GIN] 2024/10/03 – 02:36:30 | 404 | 0s | 47.89.254.25 | GET “/v2/_catalog”
[GIN] 2024/10/03 – 02:36:55 | 200 | 0s | 123.160.223.72 | GET “/”
[GIN] 2024/10/03 – 02:36:55 | 404 | 0s | 123.160.223.74 | GET “/favicon.ico”
[GIN] 2024/10/03 – 05:38:15 | 200 | 0s | 172.168.40.190 | GET “/”
[GIN] 2024/10/03 – 09:13:49 | 200 | 0s | 127.0.0.1 | HEAD “/”
[GIN] 2024/10/03 – 09:13:49 | 200 | 4.2285ms | 127.0.0.1 | GET “/api/tags”
[GIN] 2024/10/03 – 09:15:16 | 200 | 0s | 127.0.0.1 | HEAD “/”
[GIN] 2024/10/03 – 09:15:45 | 200 | 531.8µs | 127.0.0.1 | POST “/api/blobs/sha256:db70372fb06ef4ea5b51aca748a054c8cfadd0e966340da549100bcabca00513”
[GIN] 2024/10/03 – 09:16:03 | 200 | 17.7737368s | 127.0.0.1 | POST “/api/create”
panic: runtime error: index out of range [1] with length 1

每次都會在那個超過100%的時機點壞掉，我想這也是為什麼Ollama上面的模型都有先經過量化（quantization）的原因

直接使用transformers呼叫推理

以下為程式碼

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("MediaTek-Research/Breeze-7B-Instruct-v1_0")
model = AutoModelForCausalLM.from_pretrained("MediaTek-Research/Breeze-7B-Instruct-v1_0")

chat = [
  {"role": "user", "content": "你好，請問你可以完成什麼任務？"},
  {"role": "assistant", "content": "你好，我可以幫助您解決各種問題、提供資訊和協助您完成許多不同的任務。例如：回答技術問題、提供建議、翻譯文字、尋找資料或協助您安排行程等。請告訴我如何能幫助您。"},
  {"role": "user", "content": "太棒了！"},
]
tokenizer.apply_chat_template(chat, tokenize=False)

outputs = model.generate(tokenizer.apply_chat_template(chat, return_tensors="pt"),
                         # adjust below parameters if necessary 
                         max_new_tokens=128,
                         top_p=0.01,
                         top_k=85,
                         repetition_penalty=1.1,
                         temperature=0.01)
                         
print(tokenizer.decode(outputs[0]))

回覆則會是：【很高興能為您服務！如果有任何需要，歡迎隨時詢問。】

PS: 這種方式執行速度非常的慢

Machine Learning, Technology Research

在Ollama中載入自己建立的模型

Post By Claire Chang 2024-10-02 下午 11:00

參考資料

官方教學：https://github.com/ollama/ollama/blob/main/docs/import.md

網路教學：https://www.youtube.com/watch?v=fnvZJU5Fj3Q

基於已有的模型導入 Safetensors 權重

首先就是建立一個Modelfile.txt

例如假如我是用https://ollama.com/markliou/breeze-7b這個做為基礎模型，然後自己建立的LORA微調檔案在data資料夾底下，

則Modelfile.txt的內容如下：

FROM mistral:v0.1
ADAPTER ./data/

現在從創建 Modelfile 的目錄運行 ollama create，可以使用-f來指定Modelfile路徑，如果不指定就會在你cmd當前資料夾尋找：

ollama create my-breeze -f ./Modelfile.txt

可以使用參數 --quantize來運行不同的量化級別

$ ollama create --quantize q4_K_M my-breeze
transferring model data
quantizing F16 model to Q4_K_M
creating new layer sha256:735e246cc1abfd06e9cdcf95504d6789a6cd1ad7577108a70d9902fef503c1bd
creating new layer sha256:0853f0ad24e5865173bbf9ffcc7b0f5d56b66fd690ab1009867e45e7d2c4db0f
writing manifest
success

如果你是下載別人的LoRA，而別人的LoRA用的是.bin檔案，則可以使用transformers庫來做轉換，轉成.safetensors

from transformers import AutoModel, AutoTokenizer

# 載入模型和標記器
model = AutoModel.from_pretrained("./")
tokenizer = AutoTokenizer.from_pretrained("./")
# 儲存為 GGUF 格式
model.save_pretrained("./")  
tokenizer.save_pretrained("./")

直接導入GGUF的模型

Ollama的From所導入的模型應為GGUF格式，可以透過像 llama.cpp 這樣的工具來將模型轉換為 ggml 或 gguf 格式。

安裝llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

接著將下載的 .safetensors 模型放置於適當位置，然後開始轉換

# 假設模型放置於 models/Breeze-7B-FC-v1_0 目錄下
./llama.cpp -m models/Breeze-7B-FC-v1_0/model.safetensors -t models/Breeze-7B-FC-v1_0/tokenizer.json -w models/Breeze-7B-FC-v1_0/ggml-model-f16.bin --quant 4

注意！不同模型的結構和參數可能有所差異，並非所有模型都能順利轉換為 GGUF。這邊有失敗經驗

https://github.com/ollama/ollama/issues/5195

要導入 GGUF 模型，創建一個Modelfile，包含：

FROM /path/to/file.gguf

接著就可以創建了，CMD需指向你Modelfile.txt的位置

ollama create my-model -f ./Modelfile.txt

Machine Learning, Technology Research

專門為繁體中文優化過的開源模型

Post By Claire Chang 2024-10-02 上午 10:50

聯發科的Breeze-7B

模型介紹

HuggingFace網址: https://huggingface.co/MediaTek-Research/Breeze-7B-Instruct-v1_0

DEMO網址: https://huggingface.co/spaces/MediaTek-Research/Demo-MR-Breeze-7B

聯發科的Breeze-7B模型是一個專為繁體中文和英文雙語環境設計的大型語言模型。由聯發科研究團隊開發的一個開源大型語言模型，基於Mistral-7B進行改進和優化。該模型擁有70億個參數，專門針對繁體中文和英文的語言處理進行了優化。

Breeze-7B主要特點

雙語支持：Breeze-7B能夠流暢地理解和生成繁體中文和英文的文本，適用於即時翻譯、商業溝通和智能客服對話等場景。
高效能：該模型在繁體中文的推理速度上比市面上其他同級別模型快一倍，能夠在短時間內生成精準且連貫的回應。
多功能應用：Breeze-7B不僅能夠進行文本生成，還能精確解讀和生成表格內容，適用於數據分析、財務報表和複雜的排程任務。
開源：Breeze-7B採用Apache 2.0開源授權，允許學術界和業界自由使用和修改，促進AI技術的發展。

模型比較

模型名稱	參數量	開發者	授權	功能調用	指令跟隨
Breeze-7B-Instruct-v1_0	7B	MediaTek Research	Apache 2.0	❌	✅
Breeze-7B-FC-v1_0	7B	MediaTek Research	Apache 2.0	✅	✅

功能調用意味著它可以調用外部功能或API

BLOOM-zh

官方頁面：https://huggingface.co/ckip-joint/bloom-1b1-zh

iKala優化版本：https://huggingface.co/ikala/bloom-zh-3b-chat

BLOOM-zh 是由聯發科（MediaTek）基於 BigScience 的 BLOOM 模型進行改進和優化的。BLOOM 模型是由全球多個研究機構和研究人員共同開發的多語言模型，BLOOM-zh 是其專為繁體中文設計的版本。

模型使用了大量繁體中文和英文數據進行訓練，涵蓋了新聞、小說、百科全書等多種文本來源。適用於多種繁體中文文本生成和理解任務，如對話生成、文本摘要、翻譯等

與Breeze的比較

BLOOM-zh 更適合需要多語言支持和通用文本處理的應用場景，特別是在跨語言文本生成和理解方面有優勢。
Breeze 則更適合繁體中文的專業應用，特別是在需要高效能和專業知識的領域，如醫療、法律和電子製造等。

TAME (TAiwan Mixture of Experts)

Project TAME（TAiwan Mixture of Experts）是一個專為繁體中文及台灣產業需求設計的大型語言模型。該模型由多家領先企業與台灣大學資工系合作開發，旨在提升台灣在地化的AI應用能力。

GitHub https://github.com/MiuLab/Taiwan-LLM
模型聊天頁面 https://www.twllm.com

TAME模型特點

參數量：Project TAME擁有700億參數，專為繁體中文設計，能夠精準理解和生成繁體中文文本。
訓練數據：模型使用了來自多個產業的專業數據進行訓練，包括石化業、電子製造、醫療服務、法律等領域，涵蓋了近5000億個詞元（token）。
在地化與產業化：Project TAME特別強調在地化和產業化，能夠理解台灣文化和語境，並針對台灣產業的特定需求進行優化。

TAIDE-LX-7B介紹

官方網站：https://huggingface.co/taide/TAIDE-LX-7B-Chat

TAIDE-LX-7B 是由台灣國家科學及技術委員會（國科會）開發的一款大型語言模型，專為繁體中文和台灣在地需求設計。基於 Meta 的 LLaMA2-7B 模型進行改進和優化。TAIDE-LX-7B 擁有 70 億參數，這使得它在計算資源需求和性能之間達到平衡。

TAIDE功能與應用

自動摘要：TAIDE-LX-7B 能夠高效地對長篇文本進行自動摘要，提取關鍵信息3 6。
寫信與寫文章：該模型在撰寫電子郵件和文章方面表現出色，能夠生成結構良好且語法正確的文本3 6。
翻譯：TAIDE-LX-7B 支援中英互譯，能夠準確地將繁體中文翻譯成英文，反之亦然3 6。
對話生成：該模型在對話生成方面也有優異表現，適合用於聊天機器人和虛擬助手等應用

AI 程式工具, AI 職場超神助手, Machine Learning, Technology Research

介紹 OpenAI o1-preview

Post By Claire Chang 2024-09-15 下午 7:16

官網介紹o1-preview

介紹 OpenAI o1-preview：https://openai.com/index/introducing-openai-o1-preview

首次瞭解：探索 GitHub Copilot 中的 OpenAI o1：
https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/

在2024/9/12，OpenAI推出了o1-preview的模型，這個模型的最大特色就是具備有先進推理能力，可解決難題。測試顯示o1-preview在程式碼分析和優化方面效果良好。該模型能思考挑戰並能夠將複雜任務分解為步驟，這可以優化程式碼以解決性能問題，加速開發工作流程。

透過這樣的思考流程，ChatGPT可以完成更複雜的程式撰寫任務，過去，我們仍會需要透過人的思考將任務拆細後一步一步請ChatGPT幫忙完成，再由工程師將任務功能組合起來，而現在o1-preview則自己就能夠具備有將複雜任務拆細的能力。

從下圖可看見，ChatGPT的程式撰寫能力瞬間從11分進步到89分(圖片來源: https://openai.com/index/learning-to-reason-with-llms/)

o1-preview 模型的新功能總覽

隨著 o1-preview 模型的推出，這個模型在性能、功能和未來更新方向上展現了許多新亮點。

模型大小與性能
o1 系列的模型中，o1-mini 和 o1-preview 各有特色。o1-mini 相較於 o1-preview 體積更小，速度更快，預計將來會提供給免費用戶使用。o1-mini 雖然在世界知識上較有限，但在 STEM 任務和編碼相關任務上表現出色，且能探索更多的思考鏈。而 o1-preview 則作為一個早期檢查點，位於性能和大小之間，能夠處理更開放的任務，並支持長鏈思考過程。
輸入 Token 與上下文處理能力
o1 的輸入 token 與 GPT-4o 採用相同的 tokenizer 且能夠處理更長的上下文，在未來版本中還會進一步擴展輸入上下文的長度，減少對輸入內容的分塊需求。儘管目前無法在連鎖思考（CoT）期間暫停推理來添加更多上下文，但這項能力有望在未來實現。
工具與功能更新
目前 o1-preview 尚未開放工具使用，但未來將支持函數調用、代碼解釋器與瀏覽功能。此外，將加入工具支持、結構化輸出與系統提示等增強功能。用戶將來可能還能控制思考時間和 token 限制，並支援流式傳輸。
連鎖思考推理
o1 模型在推理時會生成隱藏的思考鏈，這使得它能夠在處理複雜問題時展現更強的推理能力。目前 CoT token 會被摘要，尚未開放給 API 用戶，但隨著強化學習技術的加入，模型的連鎖思考能力將進一步提升。
API 與使用限制
o1-mini 在 ChatGPT Plus 用戶中設有每週 50 次提示的限制，並計劃推出更多 API 訪問層級和更高的速率限制。提示緩存是用戶的熱門需求，未來可能會加入此功能。
價格、微調與擴展
o1 的定價將遵循每 1-2 年降價的趨勢，並支持批量 API 定價。模型的微調尚無具體時間表，但研究與工程人才的限制可能會影響未來的推理擴展計劃。
模型開發與研究亮點
o1 模型在創造性思維、哲學推理及複雜任務處理上展現了強大能力，甚至內部測試中也表現出色。未來版本將進一步擴展世界領域知識，並更新數據以提升性能。
提示技術與最佳實踐
o1 模型對於提示的接受度高，尤其是在檢索增強生成（RAG）技術的輔助下，能夠進一步改善推理性能。提供相關上下文有助於提高表現，而無關的內容可能會降低其效果。
未來展望
o1-preview 正處於早期測試階段，未來將繼續優化延遲和推理時間，並大幅增強模型的創造性與推理能力。

o1-preview 模型功能實測

先說結論，真的非常的強，不論是產生程式、理解程式、修改程式，都和過去是完全不同等級的狀況！非常的厲害。

這是我今天使用o1-preview 來製作一個HTML的俄羅斯方塊的對話紀錄，可以看到ChatGPT完美的完成任務，真的是沒有BUG的完整的遊戲，而且修改的動作也都非常的完美，真的可以靠指令達到我的許多要求。我覺得這樣的程度的模型是真的會影響到許多工程師的未來性。

對話紀錄在此：https://chatgpt.com/share/66e6bcf1-4254-8005-a573-a250e1b51702

我們可以看見現在的o1-preview會有著更多細緻的思考流程，為我們將一個很大的指令拆分成許多個步驟，並重新檢視、整個整個程式碼，接著則是設置遊戲的玩法。

接著我請他增加計分板和顯示下一個方塊的功能也完美達成

請他幫忙調整版面也非常完美的完成功能

這個是成果：https://claire-chang.com/wp-content/uploads/2024/09/test.html

操作說明：

使用 左箭頭鍵 和 右箭頭鍵 控制方塊左右移動。
使用 下箭頭鍵 加速方塊下落。
使用 上箭頭鍵 旋轉方塊。
使用空白鍵直接下降。

AI 職場神器, AI 職場超神助手, Machine Learning, Technology Research

Coze：快速產生專屬於你的聊天機器人

Post By Claire Chang 2024-09-07 下午 9:02

Coze是甚麼

Coze是ByteDance出來的一個AI聊天機器人開發平台，讓你不會寫程式也能建立自己的AI聊天機器人，在這個平台可以用拖拉的方式來完成創建、設定、發布、管理專屬於你的聊天機器人功能，並與多種平台如Line、Slack、Telegram等整合。這平台支持各種AI應用，像是客服、資訊助手或是其他智能工具。

官方網站：https://www.coze.com/home

Coze的主要優勢

其主要優勢如下：

快速上手：用拖拉的方式，你就能快速架設自己的AI聊天機器人。
支援多模態輸入： Coze不只文字，還能處理圖片、語音等多種輸入，功能很全面。
靈活部署：你開發的聊天機器人能放到Discord、Telegram、LINE、Slack和Reddit等多個平台上。
可整合各種插件：天氣、地點、日曆等各種插件都能整合，功能更加豐富。
讓機器人學習專屬於你的知識：你能從後台直接上傳和整理知識庫，讓機器人學會專屬於你應用場景的知識，強化機器人的回答能力。
應用場景：無論是客服、資訊查詢、任務調度、個人助理或教育輔助，Coze都能派上用場。

可以直接詢問機器人如何使用Coze

在登入之後，Home這邊會有一個Coze的專屬客服機器人，透過詢問機器人問題，可以請機器人幫我們搜尋教學文檔。

創建步驟詳細圖文教學

最主要要創建自己的客服機器人我們可以按下左側的Personal進入創建介面：

Coze的個人區域允許用戶管理他們的機器人、插件、工作流程、知識庫，以及其他個人化設定。這個區域有幾個主要標籤：

機器人（Bots）：在這裡創建和管理你的聊天機器人。
插件（Plugins）：查看和管理已安裝的插件，Coze支持超過60種不同類型的插件，涵蓋API和多模態模型，協助用戶執行信息檢索、旅行計劃和生產力提升等任務。更可以支持自己的API擴展，讓機器人可以連結到自己的客製化功能，以達到更彈性的客製化。
工作流程（Workflows）：Coze有靈活的工作流程，這個功能旨在管理複雜的任務並保持高穩定性。平台提供了多種可組合的節點，如大型語言模型（LLM）、自定義代碼和邏輯判斷，也可以串接自己的知識庫、用卡片的型態呈現回覆結果，這個介面使用戶能夠通過簡單的拖放界面，自動化複雜的機器人設定流程。
知識庫（Knowledge）：透過在這邊建立和維護知識庫，並且結合工作流程，讓機器人在回覆使用者的問題之前可以先去你所建立的知識庫搜尋相關知識，這可以讓機器人回答專屬於你的商店或個人形象的問題。
卡片（Cards）：創建和管理互動卡片，結合工作流程和知識庫的功能可以讓機器人以圖文的方式回覆你要回覆給使用者的資訊。

例如透過以下Workflows創建範例就可以建立一個可以回覆我的相關背景資訊的客服機器人：

上圖的工作流程包括了幾個主要的步驟和節點，來處理和回答用戶的輸入。

啟動節點（Start）：這是工作流程的開始，用來初始化信息，例如設定必要的變數，這裡的例子中使用了「BOT_USER_INPUT」這個變數來存儲用戶輸入。
知識節點（Knowledge）：此節點從指定的知識庫中，基於用戶輸入（BOT_USER_INPUT）尋找最佳匹配的信息。在這個例子中，使用「ClaireChangIntro」作為知識庫的參考，並根據語義搜索策略來找到匹配程度高的內容。
大型語言模型（LLM）節點：這個節點調用大型語言模型（例如GPT-4o mini 128K）來生成回應。它利用前面節點的輸出作為參考資料和查詢內容，生成用戶的問題回答。
結束節點（End）：工作流的最後一個節點，用來返回處理後的信息給用戶。在這裡，將LLM節點生成的輸出設置為回傳的變數。

整個工作流程通過這些互相連接的節點來自動化處理用戶輸入，生成並提供相關的回答。這種設計允許機器人以高效且靈活的方式回應用戶，並可以根據需要輕鬆地修改或擴展其功能。

這樣的對話機器人可以直接經由簡單設定發佈到Coze Bot Store、Cici、Discord、Telegram、Messenger、LINE、Instagram、Slack、Lark和WhatsApp多種平台。

下面為一個使用範例：

Coze要如何收費?

Coze提供多種收費方案，根據不同用戶的需求，從免費到高級的付費方案都有。收費方案大約有以下幾種：

免費方案（Free）：提供每月0美元的免費使用權，每日可獲得10 credits的信息額度。這適用於只需基本功能的用戶。
輕量級高級版（Premium Lite）：每月9美元，每日提供100 credits的額度。此方案適合需要更高使用頻率但不需要大量信息的用戶。
高級版（Premium）：每月19美元，提供每日400credits的額度，適合需要大量信息處理的用戶。
進階高級版（Premium Plus）：每月39美元，每日可使用1000 credits，是最高級的付費方案，適合極高頻度的商業用戶或開發者。

各個方案都提供不同的AI模型使用權限，例如GPT-3.5、Gemini 1.5 Flash、Claude 3 Haiku等，並根據模型的收取不同的信息額度。例如，使用GPT-40 mini會消耗比GPT-3.5更多的額度。

選擇方案時，應該考慮以下因素：

預計每日的交互數量
需要哪些AI模型來實現你的需求
你的預算範圍

根據這些指標，你可以選擇最符合你需求的方案，以確保你支付的費用與你從Coze獲得的價值相匹配。如果你剛開始使用，可以從免費方案開始，隨著需求增長再升級到更高級的方案。

AI 職場超神助手, Machine Learning, Technology Research, 流程自動化 AI應用平台, API集成, Dify, LLM應用開發, 大語言模型, 對話式AI, 提示詞工程, 知識庫管理

Dify：開源大語言模型應用開發平台

Post By Claire Chang 2024-07-24 下午 8:48

在人工智能快速發展的今天，大語言模型（LLM）已成為推動創新的核心力量。然而，如何有效地將這些強大的模型轉化為實用的AI應用，仍然是許多開發者和企業面臨的挑戰。這就是Dify發揮作用的地方，它作為一個開源的LLM應用開發平台，為我們提供了一個便捷的解決方案。

Dify：打造AI應用的全能工具箱

Dify不僅僅是一個開發平台，它更像是一個為LLM應用量身打造的全能工具箱。通過Dify，開發者可以輕鬆設計對話式AI、優化提示詞工程、管理知識庫，並實現無縫的API集成。這些功能的組合使得從概念到部署的整個AI應用開發過程變得更加流暢和高效。

對話式AI設計：打造個性化交互體驗

Dify的核心優勢之一是其強大的對話式AI設計功能。通過直觀的界面，開發者可以輕鬆定制AI助手的個性、知識範圍和回應方式。這使得創建符合特定需求的AI應用變得前所未有的簡單，無論是客戶服務機器人還是專業領域的智能顧問。

提示詞工程：釋放LLM的潛力

在LLM應用開發中，提示詞工程扮演著關鍵角色。Dify提供了先進的提示詞管理和優化工具，幫助開發者精確控制AI的輸出。通過細緻調整提示詞，我們可以顯著提升AI應用的性能和準確性，確保它能夠準確理解用戶意圖並提供恰當的回應。

知識庫管理：為AI注入專業知識

Dify的知識庫管理功能允許開發者輕鬆導入和組織大量專業資料。這意味著我們可以為AI應用注入特定領域的知識，使其能夠處理更複雜、更專業的查詢。無論是法律諮詢、醫療診斷還是技術支持，Dify都能幫助我們構建具有深度專業知識的AI系統。

API集成：無縫連接各種服務

為了確保開發的AI應用能夠與現有系統和服務無縫協作，Dify提供了強大的API集成能力。這使得將AI功能嵌入到各種應用程序和平台中變得異常簡單，大大擴展了LLM應用的可能性和實用性。

Dify介面介紹

Dify 的關鍵特性

Dify 內建了建立 LLM 應用所需的關鍵技術棧，包括：

支援數百個模型：提供多樣的模型選擇，滿足不同應用需求。
直覺的 Prompt 編排介面：簡單易用，讓你輕鬆設計和調整提示語。
高品質的 RAG 引擎：確保數據處理的準確性和效率。
穩健的 Agent 框架：靈活配置和管理代理機器人。
靈活的流程編排：支援複雜流程的設計和自動化。

這些特性使得開發者可以節省大量重複造輪子的時間，專注於創新和業務需求。

支持模型類型

在Dify 中，我們依照模型的使用情境將模型分為以下4 類：

系統推理模型。在創建的應用中，用的是該類型的模型。智聊、對話名稱產生、下一步問題建議用的也是推理模型。已支援的系統推理模型供應商：OpenAI、Azure OpenAI Service、Anthropic、Hugging Face Hub、Replicate、Xinference、OpenLLM、訊飛星火、文心一言、通義千問、Minimax、ZHIPU(ChatGLM)
Embedding 模型。在資料集中，將分段過的文件做Embedding 用的是該類型的模型。在使用了資料集的應用程式中，將使用者的提問做Embedding 處理也是用的該類型的模型。已支援的Embedding 模型供應商：OpenAI、ZHIPU(ChatGLM)、JinaAI
Rerank 模型。 Rerank 模型用於增強檢索能力，改善LLM 的搜尋結果。已支援的Rerank 模型供應商：Cohere、JinaAI
語音轉文字模型。將對話型應用中，將語音轉文字用的是該類型的模型。已支援的語音轉文字模型供應商：OpenAI

為什麼選擇 Dify？

你可以將 Dify 與 LangChain 這類的開發庫做比較。LangChain 是一個提供鐵鎚和釘子的工具箱，而 Dify 則是一套經過精良工程設計和軟體測試的完整腳手架方案。

以下是選擇 Dify 的幾個主要理由：

開源：由專業全職團隊和社群共同打造，提供靈活和安全的解決方案，同時保持對資料的完全控制。
快速迭代：產品簡單、克制且迭代迅速，滿足用戶需求。
生產級方案：提供接近生產需求的完整方案，節省開發時間和資源。

使用 Dify 的優勢

Dify 讓你基於任何模型自部署類似 Assistants API 和 GPTs 的能力，確保在靈活和安全的基礎上，對資料保持完全控制。這對於那些希望快速開發和部署生成式 AI 應用的團隊和個人來說，是一個理想選擇。

創業者的理想工具

Dify 可以幫助創業者快速將 AI 應用創意變成現實，無論是成功還是失敗，都需要加速推進。在真實世界中，已有數十個團隊透過 Dify 建立 MVP（最小可用產品）獲得投資，或透過 POC（概念驗證）贏得了客戶的訂單。

整合 LLM 至現有業務

Dify 使得將 LLM 增強現有應用變得簡單。透過 Dify 的 RESTful API，可以實現 Prompt 與業務程式碼的解耦。此外，Dify 的管理介面可以追蹤資料、成本和用量，持續改進應用效果，從而提升業務能力。

企業級 LLM 基礎設施

一些銀行和大型網路公司正在將 Dify 部署為企業內的 LLM 網關，加速 GenAI 技術在企業內的推廣，並實現中心化的監管。這使得 Dify 成為企業級應用的理想選擇，提供穩定、安全的 LLM 基礎設施。

探索 LLM 的能力邊界

即使你是技術愛好者，Dify 也能幫助你輕鬆實踐 Prompt 工程和 Agent 技術。在 GPTs 推出以前，已有超過 60,000 名開發者在 Dify 上創建了自己的第一個應用，展示了其在技術探索中的強大潛力。

Dify 開源許可證

Dify 專案在Apache License 2.0 授權下開源，同時包含以下附加條件：

Dify 允許被用於商業化，例如作為其他應用的「後端即服務」使用，或作為應用程式開發平台提供給企業。然而，當滿足以下條件時，必須聯繫生產者以獲得商業許可：

多租戶SaaS 服務：除非獲得Dify 的明確書面授權，否則不得使用Dify.AI 的源碼來運作與Dify.AI 服務版類似的多租戶SaaS 服務。
LOGO 及版權資訊：在使用Dify 的過程中，不得移除或修改Dify 控制台內的LOGO 或版權資訊。

RagFlow深度文檔理解的新境界

Post By Claire Chang 2024-07-24 下午 8:35

RAGFlow的核心優勢在於其強大的深度文檔理解能力。通過結合先進的自然語言處理技術和大型語言模型，RAGFlow能夠深入解析各種複雜格式的文檔，包括PDF、Word和PowerPoint等。這種深度理解使得AI系統能夠更準確地回答用戶查詢，大大提升了問答系統的性能。

特性介紹

基於深度文檔理解，我們的系統能夠從各類複雜格式的非結構化資料中提取真知灼見，在無限上下文的場景下快速完成大海撈針測試。通過模板的文字切片技術，不僅智能而且可控可解釋，提供多種範本選擇並可視化調整。系統支援多種文件類型，包括Word、PPT、Excel、TXT、圖片、PDF、影印件等，全面優化的RAG工作流程能夠滿足從個人應用到超大型企業的需求，並提供易用的API，方便整合各類企業系統，最大程度降低幻覺風險，確保答案有理有據。

系統架構

畫面介紹

以下為登入畫面

模型設定介紹

在這邊設定要使用的模型的Token或者連線至本地端的Ollama，在這邊要注意的是，如果你的Ragflow是用docker起的，那麼就一定也要把ollama起在docker裡面，彼此才連線的到，不然就是要透過公開網址

知識庫設定介紹

接著可以來新增知識庫

在設定知識庫的解析方式時，設定正確的選項非常重要，如果你上傳的文件屬於純文字PDF，則要記得把layout recognize關掉

以下為純文字檔案卻打開layout recognize的解析狀況

沒有打開則可以正常解析全部的純文字內容

如果要解析的是圖檔、POWERPOINT這種需要先解析layout的，則應打開layout recognize，以下為需要打開layout recognize的一個範例，這個PDF的檔案皆為圖像，是使用OCR去判斷上面的文字的

聊天功能介紹

這邊有點類似GPT Plus的功能，可以設定很多不同的聊天助理，並且可以附註搜尋到的檔案的文本，也可以針對每一個聊天助理設定要搜尋的知識庫

圖功能介紹

我們可以在這邊客製化聊天的流程，做更進一步的機器人的進階設定，預設有下面這些不同的流程

可設定的元件包括知識檢索、生成回答、人機交互、問題分類、靜態訊息、是否相關、問題最佳化，並且可以直接運行來測試

每一個元件都可以設定使用的模型和相關提示

預設的客服的流程，有點可怕，如果知識庫裡面沒有相關的文件，就會無限迴圈耶:D

文件管理介紹

從這邊可以看到我們上傳的所有文件的檔案夾

什麼是Agent

在Dify創建Agent

在Dify自己創建工具

About the author

Introduction

Research Methods

Results

LLama3.2 (Meta)

Mistral (Mistral AI)

Gemini 1.5 Flash (Google)

gpt4o-mini (OpenAI)

Discussion

Conclusion

Full Responses from LLMs

正確答案

Q.我該如何申請低收入戶補助？

Q.告訴我臺灣臺北市的低收入資格

Q.根據你上面提供的資料. 我在臺北市住. 在臺北市有租一個房間. 月收13,455元 我可以申請嗎?

LLama3.2 (Meta)

Q1:

Q2:

Q3:

Gemini 1.5 Flash (Google)

Q1:

Q2:

Q3:

gpt4o-mini

Q1:

Q2:

Q3:

Mistral (Mistral AI)

Q1:

Q2:

q3:

什麼是Function calling

Function Calling可以做到那些事情

如何實現function calling

甚麼是Breeze-7B-Instruct-v1_0

Ollama library上的breeze模型總是使用簡體中文回答

自己將Hugging Face上的檔案匯入Ollama

直接使用transformers呼叫推理

參考資料

基於已有的模型導入 Safetensors 權重

直接導入GGUF的模型

聯發科的Breeze-7B

模型介紹

Breeze-7B主要特點

模型比較

BLOOM-zh

與Breeze的比較

TAME (TAiwan Mixture of Experts)

TAME模型特點

TAIDE-LX-7B介紹

TAIDE功能與應用

官網介紹o1-preview

o1-preview 模型的新功能總覽

o1-preview 模型功能實測

Coze是甚麼

Coze的主要優勢

可以直接詢問機器人如何使用Coze

創建步驟詳細圖文教學

Coze要如何收費?

Dify：打造AI應用的全能工具箱

對話式AI設計：打造個性化交互體驗

提示詞工程：釋放LLM的潛力

知識庫管理：為AI注入專業知識

API集成：無縫連接各種服務

Dify介面介紹

Dify 的關鍵特性

支持模型類型

為什麼選擇 Dify？

使用 Dify 的優勢

創業者的理想工具

整合 LLM 至現有業務

企業級 LLM 基礎設施

探索 LLM 的能力邊界

Dify 開源許可證

更多教學資源

特性介紹

系統架構

Q.根據你上面提供的資料. 我在臺北市住. 在臺北市有租一個房間. 月收13,455元我可以申請嗎?