🐹倉鼠週報08:AI 開始接觸世界,並有了眼睛與耳朵
ChatGPT 開始能接觸網路上的資料也能儲存更多的記憶;微軟發布了一篇論文講述如何透過 AI 調用不同工具來解決複雜任務。AI 功能性越來越強大,未來也可能進入物聯網的領域。
卷首語
以下是這兩個月的電子報經營心得,歡迎多回饋!
1. 自己的創作能力還有很大的進步空間
蠻高興數字的成長比自己預想的還高,但也在時刻思考自己的內容可以怎麼調整
目前而言,我認為自己僅僅還只是在『搬運工』的角色
就我而言,創作者的基本價值,就是有資訊收集、整理的能力並寫出來讀者能理解理解的內容。
不同的議題、主題,除了考驗資訊整合的能力外,也會考驗如何『翻譯』專業名詞,很多時候作者習以為常的詞,對圈外人可能是非常陌生的詞。
如何破解這種作者以為是常識、讀者看的霧煞煞的詞(這種狀況稱之為『知識的詛咒』),就是創作者最基本的能力。
2. 深度洞察力背後是怎麼養成的
具備了基本的能力,才談得上深入的觀點及洞察。而洞察力非常吃重長期思考能力的耕耘,並不是看看幾篇新聞、報告就能夠得出的。
如果沒有每天在每一件事上不斷思考問題背後的原因、結構以及牽扯的視角與關係,是不可能憑空生出好的洞察力。
但只有自己思考容易陷入盲點,這時候就要透過不斷的閱讀及學習,從他人身上學到不同的視角、思考方式、拆解問題的手法。
這也是為什麼那些厲害的人們的共同特點之一,就是熱愛學習(閱讀),因為透過學習,能將他人的思考方式萃取並融入自己的思維。
3. 知識倉鼠的調整
剛開始經營,大多以 AI 熱新聞及相關為主在發文,有一部分也是想透過蹭熱點多一些訂閱數量。
不過發了幾週之後覺得,『這些內容對讀者唯一的價值就只是比較早看到』,當初寫電子報的目標是『幫助讀者能獲得更多 insight 或思考能力』,所以未來會努力增加具有觀點、想法及 insight 的內容。
因為如果只是純粹的 AI 新聞搬運工,說不定不久後 ChatGPT 就能取代了(上上篇 po 文提到的外掛 browsing)。
對我來說 Manny、島讀的周欽華、柏鋒大大等都是我創作的目標及榜樣(尤其看到柏鋒大大說期待好文連發真的是很激勵我嗚嗚嗚),所以既然開始了寫作這條路,就努力好好走下去!
剛踏上寫作這條路,一定有很多寫不好、觀點不全等狀況,也必定努力修正,歡迎有閱讀的朋友給我任何建議。
你們閱讀我的內容也是一種與我進行對話的方式,因此如果有任何想法或觀點,透過直接對話的方式,也有機會激發出不同的火花!
正文開始。
🛠️ 本週 AI 新聞 & 工具
1. 將 AI 融入音樂編輯器:GPT-4 + Music 🎵
原本看到下面這篇說可以基於 prompt 產生音樂,還可以調風格,但總覺得之前就看過類似的所以沒有特別發。

結果看到另一個結合 GPT-4 的音樂編輯器,雖然我不是音樂人但我覺得這個好棒!
對於不懂寫歌的人來說,可以幫自己編一首曲子感覺真不錯。
WavTool: https://wavtool.com/
2. 當 ChatGPT 開始瀏覽網頁
目前 OpenAI 大多數人都還需要排隊的有 GPT-4 的 api、ChatGPT 外掛,所以現在介紹的這個功能僅有部分用戶能使用。
而這個 Browsing(瀏覽)功能應該是要先排到 ChatGPT 的外掛功能才能使用。
國外有名大叔用該功能:
抓取特定頁面的連結、內容、標題
詢問特定網域(https://news.ycombinator.com)的今日新聞
今日世界上重要的 AI 新聞,
用 Markdown 語法將搜集到的新聞連結整理在表格中
指定一條 Twitter 連結叫它做點什麼(真的是說 do something...),然後 ChatGPT 對這條推文進行講解
透過表格及 markdown 整理目前比特幣、黃金、銀的價格並引用來源
指定特定連結(https://jamesclear.com/3-2-1/march-23-2023)中,特定文字內的內容 ("1 QUESTION FOR YOU" 和 "SHARE THIS ON TWITTER"之間的文字)
然後即刻 app 上有個小姊姊用這個功能,快速整理輸出一份 AI 新聞總覽到公眾號上,感覺資訊落差的 gap 又双叒叕變的更小了。
補充說明:
它只作為一個純文字瀏覽器(意味著 JS 渲染內容不一定能讀取)
它使用 Bing 搜尋 API 進行網路搜尋
能顯示去過的網站並在回覆中引用來源
國外大叔使用該功能的 twitter 留言串:


感覺 ChatGPT 成為新的搜尋引擎勢不可擋,但後續發展還需要看外掛生態怎麼發展,還不太好說。
不過既然資訊能夠透過這種方式匯整過來,網站的流量很可能就會被瓜分過去,不管是整體流量或是對應的轉換收益可能都會因此下降。
而既然成為流量中心,ChatGPT 就有蠻大的可能成為新的廣告主販賣流量,但我相信 OpenAI 應該也想好怎麼把流量化為金錢了。
而人們也可能為了抵制內容平白被 ChatGPT 拿去,透過 robots.txt 阻擋 OpenAI 爬取。但這樣又如何,身為小小流量的我們有機會拒絕 ChatGPT 的爬取嗎?
非常明顯,未來如果我們寫作能力連 ChatGPT 都比不上了,那可真的是一點價值都沒有了。
另外即刻 app 有個小姐姐用該功能做了個自動化 AI 新聞: https://mp.weixin.qq.com/s/nwD-X7Jiwqnwud6h98VecA
3. ChatGPT 記憶力裝備上線
上一條是 ChatGPT 可以瀏覽網頁,現在則是可以基於『Retrieval』這個外掛來進行記憶資料的能力。
模型現在可以透過該外掛功能儲存所有的對話資料,並在未來『回憶』使用,不用在擔心上下文的 token 限制。
過去兩個月大家在說 ChatGPT 不完美的,現在透過一件件的裝備(外掛)來讓它變的更完美了
Retrieval 外掛說明: https://github.com/openai/chatgpt-retrieval-plugin/tree/main/examples/memory
4. 透過 GPT-4 控制瀏覽器
這功能有點厲害,透過該工具可以抓取網頁的互動元素,並對每個互動元素指定 ID,然後由 GPT 生成 click 和 setvalue 的腳本,針對發送的 ID 及指令來執行動作。
以下是 github 內容中的使用範例:
保護 GitHub 中的主要分支
在 Netflix 中搜尋和播放電影 Oblivion
建立日曆事件
在 OpenAI Playground上寫一篇文章
感覺適合用來解決一些重複性高的工作,但目前沒有想到什麼特別適合的任務非得透過這個功能,但透過這個功能或許能夠減輕重複度高的任務,或是透過口語化輸入進行操作。
不過....我如果是駭客是不是可以透過這個腳本獲取使用者的資訊,或讓瀏覽器自動輸入網址連結進入不安全的網站呢,想想這個感覺更可怕了。
TaxyAI 介紹: https://github.com/TaxyAI/browser-extension
5. 微軟要打入物聯網了嗎:多工處理模型 TaskMatrix
▎介紹這個模型前,先說什麼是 AGI
AGI是「人工通用智慧」(Artificial General Intelligence)的縮寫,也稱為強人工智慧,它是指一種具有人類水平的 AI 系統,能夠在各種不同領域和任務中自主學習、適應和表現出與人類一樣的認知能力。簡單來說,AGI 就像是一個能夠在各個方面與人類競爭的機器人。
目前當我們使用智慧型手機上的語音助手時,它能查詢天氣、設定鬧鐘或提醒事項等,這種 AI 被稱為「若人工智慧」(Artificial Narrow Intelligence,ANI),因為它只能在特定的領域完成特定的任務。
而 AGI 則能在各種領域中自主學習和適應,比如同時能夠學會下圍棋、識別圖像、編寫程式碼,甚至能夠創作音樂和藝術作品。
而要達成 AGI 的一個重要條件就是『能夠處理不同場景的複雜任務』,這就是 TaskMatrix 這個模型的目標。
▎TaskMatrix 是什麼?
我認為,TaskMatrix 就是一個能夠調用上百萬個 AI 跟 API 來解任務的系統,而這個系統分可以分成四個部分:
多模態對話基礎模型(MCFM):翻譯官,理解你的需求並翻譯成電腦看得懂的語言。
API 平台:大工具箱,裝滿各種厲害的工具,隨時可以增加減少這些工具(API)。
API 選擇器:工具人,任務就是『根據 MCFM 的需求挑選適合的工具』。
API 執行器:機械手臂,拿起剛剛挑選好的工具開始解決任務
如果你想要訂一張飛往巴黎的機票,MCFM 會問你出發日期、時間、航空公司等相關資訊,然後生成一段程式碼,API 選擇器找到(呼叫) API 平台上的相關 API,如機票查詢 API、訂票 API等,然後由 API 執行器來訂機票。
目前論文的範例有(可以發現範例任務的性質都是不同工具才能執行的):
將頻果的草圖變成真實頻果
把一朵花的圖片擴展成一個花海的圖片
把一張人像的背景變成白色
產一張圖片,內容是女孩與狗在沙灘上
通過這個模型,就能很好的應用在物聯網、機器人及智慧家庭等場景。
TaskMatrix: https://arxiv.org/abs/2303.16434
另外 HuggingFace 上有另一個相關應用 HuggingGPT 跟 TaskMatrix 實現目標差不多,有興趣的可以看看 Twitter 上這位大佬的講解: