🐹倉鼠週報10：AGI 的前奏已響

這禮拜的新聞給人一種 AGI 已經到來的錯覺，AI 分解任務的能力越來越強，思考能力也比一般人更有邏輯、嚴謹性。未來『思考能力』的要求將會更高，AI 可以幫助我們判斷如何思考，但同時也要求我們的思考能力需要有更高的水平。

李元魁

Apr 16, 2023

卷首語

本週可以用關鍵字『AGI 來臨前奏』來代表，透過關鍵字 + 以下場景，讓對未來的想像多一點輪廓。（AGI：可以執行任何人類智力任務的機器系統）

從非常火熱的 Auto-GPT、BabyAGI 開始，人們大肆讚揚 AI 自主執行任務的能力飛速上升，請它架網站不到 30 分鐘就架好了、嘗試讓 AI 廚師來管理與發展料理業務。

接著是超擬真的 NPC 出現，AI 湧現出社會化行為，出現了觀察、規劃、反思並且互相影響不同的 AI，也幫助開發者們更了解 AI 模擬人類思考背後的原理。

Deep Speed Chat 的出現，讓 LLM（大型語言模型）開始進入到中小公司中，也象徵的 AI 轉型的到來不遠，Microsoft 的下一步將是打造 Low-code 的LLM！

但一切不一定會如此順利，之所以用『前奏』只能代表對 AGI 的想像開始，但還需要一段路，如何分解任務才是最好的方式、遇到極複雜的問題時 AI 真的能夠找到最佳路徑解嗎，如果有 AI 完全做不到的事情那是什麼，是否就是人類無法被取代的價值？

值得思考同樣也值得期待。

🛠️ 本週 AI 新聞 & 工具

1. BabyAGI 與 AutoGPT

本週在 Twitter 上出現的一種新型 AI 代理系統：自主 AI 代理。白話文就是能夠自行思考和做決定的程式。

這種代理系統可以自主拆分任務、執行子任務，循環運行直到任務被解決，並在必要時生成或調用其他 AI 代理。

BabyAGI 是一種包含 AI 任務管理器的自主 AI 代理，最初的目標是構建一個能夠複製自己工作流程、自動執行風險投資等常規工作（如研究新技術和公司等）的AI代理。

Auto-GPT 則是由 GPT-4 驅動的代理，可以通過結構化方式進行上網搜尋，可以創立子任務並啟動新的代理來完成它們。

雖然目前還存在著許多局限性，但自主 AI 代理依然非常受歡迎，因為它可能是通向能夠獨立工作、不需要人類干預的人工智慧系統世界（AGI 的世界）的重要一步。

2. 更擬眞的 NPC 人類已上線

史丹福大學的人機互動小組開發了一個『AI 版模擬市民』。

先看這群模擬的人類在做甚麼再說：https://reverie.herokuapp.com/arXiv_Demo/

這個城鎮有 25 個 AI 模擬人在生活，會聊天、睡覺、做飯、上班、畫畫等等，還有不同職業。更酷的是他們還會進行互動、聊天。

該團隊也希望透過這個方式更好的理解人類的行為，並用於設計更好的人工智慧系統。

這個未來除了應用在遊戲的 NPC 上外，還能用在一些沉浸式(虛擬)環境、人際交流的模擬等情境。

其中很酷的是，指定一個模擬人舉辦情人節派對，這個人在接下來的兩天中自主地向派對傳送邀請函、結識新朋友、互相約會參加派對，並協調在正確時間一起出現在派對上。

作者提出了一種架構，它可以擴展大型語言模型以存儲模擬人的完整經歷記錄，使用自然語言綜合這些記憶，並在動態地檢索它們以規劃行為。

在評估中，這些模擬人產生了可信的個體和社會行為。

作者通過觀察實驗表明，這些模擬人的『觀察』、『規劃』和『反思』行為上，為每個模擬人的可信度做出了重要貢獻。

論文詳解: https://arxiv.org/pdf/2304.03442.pdf

p.s. 論文用代理人，我用模擬人稱呼比較易懂

可能是‎平面圖、藍圖、地圖和‎顯示的文字是「 ‎Morning routine Catching up Waking up Beginning workday Brushing teeth រ្ 8قاة Packing Taking shower Cooking breakfast 6:00 am 7:30 am 7:45am 7:45 8:00 am‎ 」‎‎ 的塗鴉

一個模擬人 John 的早晨。約翰大約在早上6點鐘起床，完成他的早晨例行程序，包括刷牙、淋浴和吃早餐。他與妻子和兒子短暫交流後，便開始了一天的工作。

在模擬開始時，一個模擬人被指派要籌辦情人節派對。儘管在接下來的事件鏈中有許多可能失敗的地方，像是模擬人可能不會執行該意圖，可能忘記告訴其他人，也可能忘記出現。但情人節派對舉辦成功了！有許多模擬人聚集和互動。

可能是顯示的文字是「 Giorgio I'm planning Valentine's Day party at Hobbs Cafe on February 14th from 5pm to 7pm! Speaking of which, Isabella has invi to Valentine Day party at obbs Cafe. Sam Eddy Jennifer Isabella Ayesha organizing reading night for the Valentine Day party at Hobbs Cafe. You' re welcome join. John Maria Klaus I heard you re planning alentine' Day party Hobbs Cafe That sounds like great event! Wolfgang I'm actually planning attending Isabella Valentine's Tom Day party maybe could talk more then! Latoya Abigail 」的圖像

伊莎貝拉在情人節派對的消息傳播路徑。在模擬結束時，總共有12個人聽說了霍布斯咖啡館舉辦的派對。

3. Deep Speed Chat：每間公司都能開發屬於自己的 ChatGPT

在 OpenAI 越來越不開源的情況下，過去幾週可以看到開源社區推出了很多像 LLaMa、Alpaca 等模型。

但 Microsoft 的 Deep Speed Chat 更讓人興奮且重要的點在於：

- 大幅度降低成本

- 模型訓練中引入了基於人工回饋機制的強化學習（RLHF）系統(註)

這使得一般中小公司也能開發出類 ChatGPT 的大語言模型。

前面說到縱使目前開源了許多模型，但其效果遠不如經過 RLHF 訓練過的模型，所以在『成本+效能』的雙重優勢下，Deep Speed Chat 的開源才會讓前 Meta AI 專家 Elvis 非常激動的表示這是一件大事！

GitHub介紹: https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md

===================

▎什麼是基於人工回饋機制的強化學習（RLHF）

當我們訓練一個人工智慧模型時，我們需要讓它學習如何做出正確的決策，這就像是在教一個小孩子如何做出正確的決定一樣。當我們教小孩子時，我們會給他們一些獎勵或懲罰，以便他們學習正確的行為。在訓練人工智慧模型時也可以使用類似的方法。

Deepspeed 是一個可以幫助我們訓練人工智慧模型的系統，而它使用類似於給小孩子獎勵或懲罰的方式來訓練模型，這種方式就稱為強化學習（Reinforcement Learning）。

這意味著它可以幫助訓練 ChatGPT-style 的模型，這些模型非常靈活，可以執行摘要、編碼和翻譯等任務，並且可以達到或超過人類專家的水平。

而獎懲背後的機制是利用了一種叫做策略梯度（Policy Gradient）的技術，該技術可以讓模型根據自己的行動和結果來調整自己的策略。

舉例來說，如果模型生成了一段有趣的文本，Deepspeed 就會給它一些正面的回饋，讓它知道這是一件好事。如果模型生成了一段無聊或錯誤的文本，Deepspeed 就會給它一些負面的回饋，讓它知道這是一件壞事。通過不斷地接受回饋，模型就會學習如何生成更好的文本。

===================

4. 快速在 Slack 上使用 Claude 與 GPT-4

Claude 是當今 ChatGPT 最大的對手，目前使用上覺得並不會輸 ChatGPT 太多，雖然需要排隊才能使用網頁版，但 Slack 可以直接安裝！

兩個方法安裝：

Slack 左下角按『Add app』，然後搜尋 Claude 就可以了
從 https://www.anthropic.com/claude-in-slack 該網址點擊加入 Slack

另外，其實 GPT-4 也可以安裝喔，Slack app 中叫做『Albus』。

下圖是我拿黃泓勳 Darren 的面試經驗文章來問問題，還有測試過其它 url，它是真的能讀取 URL，而且回答的品質很不錯，值得一試！

===========

Anthropic 計畫未來18個月投入10億美元，訓練比當今最強AI強10倍的新模型「Claude-Next」。

Anthropic 稱這是一種「自我學習的下一代AI算法」，並開發了一種名為「憲法AI」的訓練技術，在較高層次上使得AI與人類意圖保持一致，比 chatGPT 更安全可控。

Google 承諾會向 Anthropic 投資 3 億美元並獲得 10 %的股份，Anthropic 也會將 Google Cloud 作為首要的雲供應商。

Google 是否即將透過 Anthropic 向 OpenAI 發起反擊的號角了呢，敬請期待。

===========

4 年 50 億美元，Anthropic 準備對幹 OpenAI: https://techcrunch.com/2023/04/06/anthropics-5b-4-year-plan-to-take-on-openai/

Claude: https://www.anthropic.com/claude-in-slack

Darren 的 Amazon SEO產品經理面試心得也值得一閱: https://www.darrenhuang.com/amazon-seo-product-manager-interview.html

5. Lama Cleaner：使用 SAM 技術實現 Image inpainting

上禮拜剛說到 Meta 的從畫面切割物體的技術，剛釋出就被 Lama Cleaner 使用上了，可以看到快速選取物件然後調整、修復、優化

這也能跟上禮拜 Fox 介紹到的 Flair AI 功能一起結合，AI 技術的功能 Combo 合起來真是太強大啦。

一定要記得，單一工具只是一個工具，如果能透過思考來整合不同工具變成一套 Combo 技來解決問題，那一個人的能力也會不斷上升。

Lama Cleaner GitHub 介紹: https://github.com/Sanster/lama-cleaner

Flair AI Demo: https://www.facebook.com/hinet/videos/1402181657214454/

6. 用 AI 寫一個街頭快打的機器人打贏大 BOSS

推薦大家看看這一部影片，該 YouTuber 用了一週寫出一個機器人，其中學習的過程與解決問題的過程都是在 AI 的輔助之下做到的，效果很驚人也讓我再一次感受到 AI 的震撼。

用一句影片裡說到的話『在 AI 這個時代，”知識就是力量”這句話將變得比千斤還重』，如何運用你的知識，或者說策略思考的能力，將是決定我們在這個時代能夠多優秀的關鍵。

🐹 知識倉鼠

Discussion about this post

Ready for more?