如何訓練一個科技島讀的AI機器人(用了20小時65美)

科技島讀一直是我心中第一名的內容，透過實作微調不僅加深原理理解，也能在實作過程中感受到 GPT-4 的強大及人機溝通的重要性。（雖然理想還是 Michael 可以復出，畢竟 AI 不可能取代的了 XD）

李元魁

Apr 30, 2023

前情提要

我是一個程式菜雞（新手），Python 的程度僅是上完一門 hahow 上的 Python 課後兩三年沒再深入練習的程度，但透過 GPT-4 幫我完成了其中許多困難的步驟，可以說沒有 AI 的幫助我肯定沒辦法完成。

重要說明：

1. 感謝布丁說明，就算機器人未公開，但訓練數據仍要取得內容擁有者的同意才可訓練，否則仍有著作權的問題

2. 已向科技島讀的 Michael 徵得訓練同意，並且本文未公開電子報之內容

為什麼做這個機器人

因為開立電子報這幾週都是以寫內容為主，筆者本身也不是程式工程師或是 AI 專業領域人員。但希望透過這個實作讓大家知道，就算是程式新手，在現在這個時代也有機會透過程式創造屬於自己的小產品，甚至訓練一個自己的 AI 機器人。

事前準備

想要訓練一個 AI 機器人，目前最常見的方式有兩個，一個是 Fine-tune（微調），一個是 Embedding（將內容轉換成數學向量）。

但前置動作都是先清理資料，將資料轉成特定格式後，選擇預訓練模型的 API 來串接進行後續動作。

p.s. 預訓練模型就是預先訓練好的模型，這次選用的是davinci-003 的模型。

微調原理：

不需要（或不能）改變預先訓練的模型底層結構，只要在模型的「頂層」加上一些新的層，比如分類器或特徵轉換，就可以讓模型學習到你想要的東西。這樣，你就可以用微調來解決各種不同的問題，而不用從頭開始訓練一個新的模型。

想像預先訓練的模型是一座樓房，底層是建立好的結構，而頂層則是可以隨時加蓋的空間。在這個空間上，我們可以添加一些新的房間，比如教室（分類器）或圖書館（特徵轉換），讓模型學會我們想要的知識。這樣，就可以用這個樓房來解決各種問題，而不需要另外蓋一棟樓。

分類器是一種機器學習模型，可以將輸入數據分為不同的類別。在微調中，我們可以在預訓練模型的頂層增加一個分類器，讓模型可以將輸入數據分為我們需要的不同類別。
特徵轉換是指將原始數據轉換為一些更有用的特徵，以便機器學習模型可以更好地學習和理解。在微調中，我們可以在預訓練模型的頂層增加一些特徵轉換，以更好地適應我們的任務。

Embedding 原理：

Embedding 就是一種將文字內容轉換成數學向量的技術，從下圖可以看到，當我們將文字轉成數學上的向量（或想像成座標），就可以發現像似的字詞或內容在座標上會很接近（這邊用顏色更好分）。

The Ultimate Guide to Word Embeddings — 圖片來源：https://neptune.ai/blog/word-embeddings-guide

Embedding 可以比喻成把物品放到一個多維的空間裡。

多維空間是指一個具有多個特徵或屬性的空間。在我們生活中，我們熟悉的三維空間由長、寬、高三個特徵組成。而在機器學習中，多維空間可能包含更多的特徵，例如顏色、形狀、大小等。

以水果為例，我們可以把顏色看作一個維度（如紅、綠、藍等），形狀看作另一個維度（如圓形、橢圓形、長條形等），大小也是一個維度（如大、中、小等）。這樣，我們就能在這個多維空間中用顏色、形狀、大小等特徵來描述和區分不同的水果。

想像一下，我們有一個多層的抽屜櫃，每個抽屜代表一個特徵，而每個物品都可以根據它的特徵放進對應的抽屜裡。

舉例來說，假設我們有一堆水果，每個水果都有顏色、口味和形狀等特徵。我們可以把這些特徵當作抽屜，把水果分門別類地放進相對應的抽屜。這樣，當我們想找一個特定的水果時，只要看它在哪個抽屜裡，就能更快地找到它。而 Embedding 就是這樣一個過程，把物品（在這個例子中是水果）轉換成多維空間裡的位置，讓我們可以根據特徵（顏色、大小、形狀）快速找到和理解它們。

如果用這個方法來轉換我們的內容，當我們在對話機器人中進行發問時，我們的問題也會被轉換成向量，然後比對向量（特徵）最接近的內容，並將返回的內容與問題一起提供給機器人讓它回答，這邊簡化步驟：

假設我們有一篇內容，內容是寫不同品種的動物介紹，在將內容轉換成向量後，以下是不同段落的向量（超簡化版本）
- 介紹狗的內容，向量是（1,1）
- 介紹貓的內容，向量是（15,13）
- 介紹企鵝的內容，向量是（53,51）
這時候我們的問題是，『如何辨識不同品種的狗』，這個問題就會先被轉換成向量，假設是（2,3）
這時候程式就會比對我們的問題（2,3）最接近的區塊內容向量為何，發現是狗的內容（1,1）
返回『該段落狗的內容』+『如何辨識不同品種的狗』文字一起到對話機器人中
對話機器人給出答案

這個方法可以很好的突破所謂『上下文 token 上限』，所以現在有號稱可以突破文字內容上限的對話機器人（如 ChatPDF）大多是靠 Embedding 技術來實現的。