卷首語
技術發展突破時,人們最常問的『未來會是什麼模樣?』,但在最近技術不斷的進步下,我想提供另一個想像未來的方式,就是『透過材料與思考,逐漸描繪未來的輪廓,而不是一個固定的畫面』。
當我們問的問題是『未來的樣貌』時,很大程度上意味著我們想要一個『明確的畫面』,知道 AI 技術進步數年後,世界確切的樣貌長怎樣。
但隨著時間拉長、不確定性變高時未來的畫面會變的越來越模糊甚至無法想像,導致我們只能從電影畫面中去想像。
那『描繪未來的輪廓』就是用另一種方式去想像未來,未來是一塊畫布,我們掌握的資訊便是繪畫的材料,透過這些材料一步步『描繪未來的輪廓』。
以 3 月發生的事為例,將這些事件轉換為材料:
ChatGPT 釋出 API → AI 開發的時代開始
Google 發佈 PaLM-E 應用在多模態機器人的 Demo → AI 有了眼睛等多維感官
有人在樹莓派上運行 7B 的 LLaMA 模型 → AI 開始能在一般消費級硬體運行
TaskMatrix 技術發表 → AI 能夠深入理解語意並調用不同工具解決任務
Google 及微軟都在自己的工作平台上引入 AI → 工作形態的改變
有了這些描繪未來的材料,我們知道現在每個工具用上 AI 是家常便飯(甚至必備)、AI 可以理解不同維度的資訊及口語化的命令並且調用多個工具解決任務、手機或是一般的 Google Home 說不定也能導入大型語言模型…等等。
『所以有可能,未來居家設備物聯網就能引入 AI,幫我解決更複雜的任務』
『所以有可能,未來不需要 PS,只要丟給 ChatGPT 說我要怎麼改就能改好』
『所以有可能,以後 iphone18 上就會有語言模型引入,變成 Siri 的技術』
…等等
我們會開始對未來的工作、日場等場景勾勒出輪廓,再來便是靠想像力(思考及洞察力)讓這個畫面更具體。
這個方法不要求一步到位的畫面感,而是『以事件與技術為材料,想像力及洞察力作為描繪的能力,逐漸勾勒未來的輪廓』。
很多時候我們當下沒辦法想像未來的畫面,但在洞察力及思考能力的累積下,用這些材料能夠逐漸描繪出最具體的輪廓。
🛠️ 本週 AI 新聞 & 工具
1. Jarvis:你跟鋼鐵人只差一塊 3090

註:3090 是一張顯示卡的意思
▎Jarvis 是什麼
這是由微軟開源的專案 Jarvis(Jarvis 是漫威知名的 AI 助手,很多用到 AI 的專案都會用這個名稱來命名,微軟這個專案就是其中之一),它可以接受語音命令後完成更複雜的任務,而不只是局限於文字任務(詳見影片效果)。
▎原理
『透過 ChatGPT 分析使用者的需求,拆解任務,呼叫對應的模型程式來解任務』
這個系統就是用上週提到跟 TaskMatrix 很類似的 HuggingGPT,只不過做法稍微不同。
HuggingGPT 是透過 ChatGPT 來理解任務並拆解任務,確切步驟為以下四步:
1. 規劃任務 (Task Planning):使用 ChatGPT 分析用戶的請求,了解意圖後,將其拆解成可能的可解決任務。
2. 選擇模型 (Model Selection):為解決規劃的任務,ChatGPT 根據描述選擇託管在 Hugging Face 上專門的對應模型。
3. 執行任務 (Task Execution):調用並執行每個選定的模型,將結果返回給 ChatGPT。
4. 輸出結果 (Response Generation) : 最後使用 ChatGPT 整合所有模型的預測,給出結果回應。
▎系統要求
Ubuntu 16.04 LTS
NVIDIA GeForce RTX 3090 * 1
RAM > 24GB
▎魁魁觀察
最近覺得把重要論文拿出來說明,會比一直看 AI 的應用更有脈絡,因為:
AI 應用很多換湯不換藥,都是套 GPT API 的皮而已;
這些應用有好有壞,有些甚至只有 Demo;
有些 AI 應用融資了很多錢,創投很喜歡他們,某方面確實可以反應未來發展趨勢,但我們只知道『創投有興趣且願意賭賭看』
對我來說融資更多是對想像力/夢想/大餅的信心程度,而論文是技術落地的可行性,參考比例抓在 3:7 能更好的判斷未來趨勢(個人適用比例不代表最佳)
影片生成的 Waitlist 展示效果: https://t.co/8bj9ZOgKH5
Jarvis 介紹: https://github.com/microsoft/JARVIS
上週的 TaskMatrix 介紹: https://bit.ly/437sdda
2. 大型語言模型的發展歷程
圖片來自於一份大語言模型的論文,內容很新鮮而且很全面。
論文主要介紹大語言模型的背景、關鍵發現、主流技術及回顧大語言模型的發展歷程。
另外有名推友 (@MinakoOikawa)將近期重要的 LLM 發展進度整理在 notion 頁面中,搭配《A Survey of Large Language Models》這篇論文可以更理解不同公司在大型語言模型的參與狀況。
推薦給想透過歷史脈絡這個角度看商業發展的讀者。
Notion 資源: https://breezy-dragon-ee4.notion.site/History-of-LLM-6abfb803864746b8bbb7867082a070ce
論文: https://arxiv.org/pdf/2303.18223.pdf
3. Meta 發佈了強大的圖片物體辨識系統 SAM
推薦快速點擊不同時間軸看該技術效果。
Segment Anything Model(SAM)這個模型是 Meta 的核心模型之一 ,可以近乎完美的切割圖片或影片內的任何物體。
模型用了 1100 萬張照片訓練,並且擁有 11 億個分隔 Mask(意味著它做過 11 億次物體區隔,擁有極高的物體辨識能力),實際效果是真的很猛。
這個模型可以我認為是元宇宙發展的重要技術之一,融入更大的 AI 系統後對於『多模態』的理解能力更上一層樓,幾個使用案例:
AR/VR 中使用者看到的物件會自動被標記起來,做菜時 AR 眼鏡自動針對調味料顯示使用多寡
微生物領域辨識不同菌類、病毒
消防員透過 AR 眼鏡快速找到火災現場的生命
飛機駕駛員有更快的反應找到對應開關(我自己想的說不定他們用不到 XD)
雖然大家把焦點從區塊鏈跟元宇宙移到了 OpenAI 身上,但其實大公司還是努力在佈局自己的生態圈,並且透過這些關鍵技術可以了解到生態圈的發展階段。
Demo 可直接嘗試效果: https://segment-anything.com/
GitHub 技術說明: https://github.com/facebookresearch/segment-anything
國外網友 Demo:

4. Consensus:論文查證工具
我們都知道 ChatGPT 偶爾會在資料上有事實性錯誤或是胡說的狀況。
這套工具可以在你提出問題後,自動找出關於該問題最相關的前 10 篇論文並總結答案,並且透過 Yes、No、Possibly 來輔助說明,並且能夠快速點擊論文看相關研究。
很適合做研究及醫學類的內容查找使用,目前只能用英文查找,不過用沉浸式翻譯的擴充元件就能方便解決翻譯問題。
圖中問題為『電視是否會影響睡眠』,答案為『這些研究表明,每天觀看超過2小時的電視與兒童、青少年和成年人的睡眠質量較差、睡眠時間較短以及睡眠障礙風險增加有關。』
▎魁魁觀察
未來 ChatGPT 只要有個外掛直接連結到論文網站,這個網站可能就被淘汰了。不只這個網站,只要是串接 GPT 的 api 網站也很有可能面臨這種情況。
但我還沒拿到 Plugin 試用,拿到了再來看看使用上有沒有網站無可取代的功能不會被 plugin 所取代。
所有串 GPT 的工具或網站記得先將這個問題放著思考,才能為自家產品多創造一些護城河!
Consensus: https://consensus.app/
5. 讀者問答
感謝讀者提問,也讓我有機會幫大家解答更多問題,釋出問答後也有部分讀者喜歡這樣的形式。問答部分我將問題原文放上沒有特別簡化,想更好的呈現讀者問的感受。
—問答開始—
▎Q1:衝擊跟更迭一定會發生,那我們現階段到底該做哪些準備,才能讓衝擊不要那麼劇烈(感覺不只要會使用ChatGPT、Copilot 還要精通它背後運作的原理… 是不是建議要會一些python、 coding比較好?)
答:首先是衝擊跟準備,會跟所在領域有很大的關係,在自己的專業領域中,重複度高的工作、策略思考類的工作、高度依賴人的工作,其比例分配為何,衝擊最快的往往是那些重複度最高且電腦可以完成的工作。
而 AI 介入工作後自身的價值會直接反應在工作結果上,工作的產值及品質更加重要,過程的努力價值可能會越來越低。
不用過於深入探究背後原理,但如果想要抓住一點趨勢的尾巴,可以嘗試理解簡單的技術原理,目的是為了知道現在發展技術的局限性為何,也是幫助自己不被滿天的 AI 焦慮新聞給綁架。
程式語言這件事也是看個人領域及發展,但我個人推薦上手基本的程式語言(像是你說的 python),因為現在 no-code/low-code 的產品開發成本越來越低,透過自然語言幫自己創造一個解決問題的產品,或是要丟到市場上快速驗證的產品(MVP),看得懂程式碼對這件事非常有幫助,因為看得懂才能知道怎麼跟 AI『溝通並解決問題』。
另外,短期而言 Prompt 的提問能力可以好好訓練,AI 還不能很好的處理自然語言的當下,與 AI 溝通的能力(prompt engineering),除了能在這段期間(AI還不完美需要好的 prompt 才能有更好的結果)更吃香外,一方面也是強化線上溝通能力。附兩個學習資源。
▎Q2:感覺真正能夠駕馭ai的人都是職場老鳥,已經有一些經驗值跟穩固的底子了,再搭配ai才能生存下去,對於一些剛進入職場不到十年的人,都會被ai取代(因為論才智 ai幾乎比一半以上的人都還要聰明 動作也快)那這樣對於到底讓剛進入職場的人,或者說只剛開始工作三~五年的人該如何是好?
答:與其說『真正能駕馭 AI 的都是職場老鳥』,不如說『能力未達自身領域內的前 5%,擔心被 AI 取代反而更多餘』,這句是吳軍所說,因為淘汰永遠是發生在能力較弱的人身上而不是不會用 AI 的人身上。
其實年輕人另一方面來說更有優勢,年輕人更願意嘗試新事物、接觸的東西更多元,反而對企業來說有更高的潛力在,所以我們(無論年輕與否)要做的,都是讓企業知道我們除了有高水準的工作能力外,還有積極探索與學習新事物的能力。
英國科幻作家 Douglas Noël Adams 有個科技三定律很好的反應這個現象:
任何在我出生時已經有的科技,都是世界本來秩序的一部分
任何在我 15-35 歲之間誕生的科技都是將會改變世界的革命性產物
任何在我 35 歲之後誕生的科技都是違反自然規律要遭天譴的
▎Q3:我感覺在這樣每天甚至每秒都在改變的ai時代,確實有一些不變的東西還是會留下,但又說不上來這不變的事物是什麼?人類又要如何掌握這個不變的東西讓自己至少有生存的空間?
答:先從『哪些不變的東西可以讓自己保有生存空間』來說,跟第一、二點的問題是部分呼應的,一個人,並且從歷史上的重大技術突破來看,適應新事物的能力、結構化思考、深度思考、溝通能力、掌握關係的能力、領導力等軟實力都是不變且被需要的能力,這個題目的核心就算拿掉 AI 這個字也是一樣的。
從另一個角度來看,馬斯洛的需求同樣大部分是不變的,人的基本生理需求、安全需求、社會關係、尊重需求、自我實現等。反應在產品上也是一樣,以社會關係及尊重需求這兩個角度來看,臉書、抖音、Instagram、小紅書等,都是為了滿足自己的社交需求、成就感、名聲影響力等。所以如果想從產品的需求出發,回歸馬斯洛的基本需求然後看待產品,是個不錯的視角。
=======
最後,AI 的進步也需要人們的學習與適應,同時還要面對法律、道德等議題。所以如果你今天已經開始在接觸 AI 的資訊甚至開始使用了,那麼不必焦慮你已經跟著時代在往前走了,把軟實力、基本能力做的紮實了,就會發現 AI 已經是你手中強大的武器。