🐹倉鼠週報14:Google I/O發布會擾動了各家AI公司
Google I/O 發布會後,相繼出現了 Claude 的 10 萬上下文及 ChatGPT 的 Plugin 大量開放,在上下文擴充加 Plugin 加持下,我們即將迎來生產力爆發的時代。
卷首語
Google 一直都有能力對打 Bing,憋了這麼久在 Google I/O 大會上發表,我相信做好了相對充足的準備。雖然看到很多人說 Bard 很難用,還有說不支援中文好爛。
但其實那只是 Bard 暫時封印能力而已,未來將開放越來越多的語言,並且用上完整的模型來進行對話。有趣的是,Google、Bing、ChatGPT 都支援 Plugin 的功能,那使用者最終會選擇誰呢?
這幾個 LLM 都在比拚『獲取即時資料的能力』+『Plugin 支援數量』+『模型推理能力』這三項能力,目前觀察起來 Google 在獲取即時資料的能力上勝過許多,其它兩項的能力這幾間目前看起來不相上下。
但關鍵可能在於整個生態系的建構,一旦誰先完善了整個生態系,使用者就會大量傾向某個平台。現在習慣了訂閱 ChatGPT 的人們也可能因為 Bard 的完善而轉向訂閱 Bard 服務(如果未來 Bard 也走訂閱制的話)。
敬請期待下週的 Plugin 開放及其它巨頭的後續動作!
🛠️ 本週 AI 新聞 & 工具
1. 如何搶先加入 Google 全新生成式搜尋引擎
前幾天 Google I/O 發表會剛結束,其中新版搜尋引擎的帶來了不少震撼,Jemmy 也針對此寫了一篇許多人瘋轉的好文。
那我也在此就提供各位讀者如何快速加入的方式吧!
首先到 Google 帳號設定裡
選取左側側欄的個人資訊
往下滑找到『其他資訊和 Google 服務的偏好設定』>『網頁版的一般偏好設定』>『語言』
將語言改成 English,地區選美國
開好 VPN 到美國
開啟無痕進入 Google Lab 網址
點擊『Help shape the future of information』下的『Learn more』
點擊 join 即可加入 Waitlist
如果沒成功請前面VPN開好後無痕整個關掉再重新開登入,語言地區沒有改的話是不能加入的喔!
2. Cheetah:AI 幫助面試作弊
結合不同工具創造產品,想像力就是你的超能力
簡單說,Cheetah = Whisper(辨識語音) + ChatGPT
Whisper 用來快速辨識語音並轉成文字後,由 ChatGPT 來回答問題。
但目前來說用 GPT-4 速度比較慢,回答問題時可能會來不及(或是面試官以為你在深思熟慮)
另外,有些需要結合自身經驗的面試題也不好透過這個方式來找答案。
用在情境題或是有特定題目答案的問題應該挺好用的。
AIGC 的時代來了,很多東西真真假假,又要怎麼知道現在面試的這個人是真的人呢?
GitHub Repo: https://github.com/leetcode-mafia/cheetah
3. OpenAI 的最新研究成果 Shap·E
Shap·E 是一個『文字生成 3D 模型』的技術,怎麼突破的技術上不展開說,但該技術未來在許多領域會有重大影響。
▎娛樂行業
首先,Shap·E 可以在娛樂行業,特別是遊戲和動畫製作領域。細緻的3D模型生成能力,可以為遊戲或動畫創造更為真實和生動的角色和場景,這將大大提升觀眾的觀賞體驗。
▎建築與工程行業
其次,在建築和工程領域,Shap·E 可能會改變設計和規劃的方式。從文字提示生成的 3D 模型,可以讓建築師和工程師更直觀地展現和溝通他們的設計概念。不僅能提高設計的效率,也可以降低誤解和溝通的障礙。
▎醫療行業
另外,Shap·E 也可能對醫療領域有一定的影響。例如,它可以用於建立患者的體內器官的 3D 模型,以便醫生更好地理解病情和進行手術計劃。
假設有一個患者的病歷記錄,其中包含了關於他的病症和器官狀態的詳細文字描述。通過 Shap·E,可能可以將這些文字描述轉換為 3D 模型,使醫生能夠更直觀地理解病情。
▎虛擬實境 & 擴增實境
最後,由於 Shap·E 使用了神經輻射場(NeRFs)的技術,所以在擴增實境(AR)和虛擬實境(VR)領域也有很大的應用前景。
註:由於 NeRFs 可以生成真實感強烈的 3D 場景,所以 Shap·E 可能會大幅提升 AR 和 VR 的體驗效果。
雖然 text-to-3D model 還在發展初期,但未來與影片生成等領域結合後帶來的改變,值得期待!
論文: https://arxiv.org/abs/2305.02463
GitHub Repo: https://github.com/openai/shap-e
4. ImageBind:AI 的感官 - 眼耳鼻舌身意
ChatGPT 出現,AI 表現出『理解世界的通識知識』。
而如今 Meta 將 AI 的感官創造了出來,未來 AI 將用這些感官來理解世界、並與人們進行更深度的互動。(強烈推薦看留言 Demo 影片)
============================
洞察與思考:
◆ AI 技術正在向更接近人類的多感官綜合感知模式發展,這將為AI的應用領域帶來更大的拓寬。
◆ 將聲音、熱量、運動等非視覺數據與視覺數據結合起來,能使AI對世界的理解更為全面,這可能改變我們與AI互動的方式。
◆ 此模型對於模態之間的轉換和生成,打開了大門,例如生成對應的深度圖和文字描述,甚至做到不同模態之間的運算。這種轉換能力可能在虛擬現實、遊戲、電影製作等領域中有重要應用。
============================
Meta 最新的大模型,6 種感知世界的感官:文字、視覺、聲音、深度、熱輻射、運動。
簡介模型可以做到哪些事:
聽到狗叫聲生成一張狗的圖片,並給出對應描述及深度
結合不同模態功能運算,將『草原的鳥』與『海浪聲』放在一起,生成『在海邊的鳥』
ImageBind 將多種不同模態的資料一起訓練,這樣可以起到很好的訓練效果,因為影片畫面本身就會對應聲音,像是狗吠聲伴隨著小狗。
大量訓練後 ImageBind 還自動將聲音及熱量,或是聲音及深度的關係給串連了起來。
這句話直白講就是,AI 學習的方式就像人一樣,透過不同感官將事物的關聯性串連起來。AI 沒有這種多感官學習能力的話,還需要另外寫程式將不同模態的資料串連配對。
而且未來團隊還打算把觸覺、嗅覺等其它模態的資訊加入成為 AI 的感官。
有興趣也可以玩玩 Meta 釋出的 Demo,Meta 的元宇宙世界又往前推進了一步。
p.s. ImageBind 的相關論文 CVPR 2023 選為重點論文,代表其在電腦視覺領域有著很高的影響力及價值。
論文: https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
GitHub Repo: https://github.com/facebookresearch/ImageBind
Demo: https://imagebind.metademolab.com/demo
5. 太神啦! 10 萬 token 的上下文:Claude
Anthropic 真不愧是 OpenAI 最強大的競爭對手,把自家機器人 Claude 的上下文拓展到 10 萬個 token(相當於 75000 左右的字符)
不用再用 ChatPDF 了,嘗試看看 Claude 吧,未來要將書本或是多個文件一起檢索重要資訊非常非常有用!
Demo 1:在合併資產負債表中,請強調對潛在投資者最重要的項目並解釋其意義。首先製作一個使用 Markdown 格式的表格或多個表格來顯示所選結果,然後提供結果的摘要和分析。
Demo 2:我們餵給了 Claude 一本小說《了不起的盖茨比》(72K tokens),並在其中修改了一行,說 Carraway 先生是『一名在 Anthropic 從事機器學習工具的軟件工程師』。我們讓模型找出添加的內容,它在 22 秒內就給出了正確答案。
Demo 3:通讀數百頁的開發人員文件,快速獲得技術問題的答案。
Demo 4:快速消化並跟上研究論文等密集材料的速度。
Claude 還給出了一些使用情境:
消化、總結和解釋密集的文件,如財務報表或研究論文
根據年報分析公司的戰略風險和機遇
評估一項立法的利弊
識別法律文件中的風險、主題和不同形式的爭論
閱讀數百頁的開發人員文檔並根據不同技術問題提供答案
通過將整個程式碼庫放入上下文中並智慧地建構或修改它來快速製作 prototype
10 萬上下文功能介紹: https://www.anthropic.com/index/100k-context-windows
申請 Claude: https://www.anthropic.com/product
6. ChatGPT 的 Plugin 將全面開放,3 步驟把它變成超強武器
(內文附完整 prompt 及 Plugin 使用範例)
▎快速前情提要:
ChatGPT Plugin 不是瀏覽器擴充元件,而是嵌在 ChatGPT 上的工具,用來強化 ChatGPT 的功能。
例如『Browsing』這個 Plugin 就能協助人們爬取現在網路上最新資訊,而不是僅限 2021 年 9 月以前的資料。
▎1. 打好使用 Prompt 的基本功力
我們可以想像 Plugin 是強化詠唱魔法的裝備,所以基本的 prompt 詠唱基本功要扎實,否則就算有裝備一樣事倍功半。
從吳恩達的課程中總結了幾個重要的基本詠唱技巧,掌握好這些基本功,詠唱技巧會有一定的能力。
☆ 明確具體的問題
☆ 拆解任務步驟,讓模型思考
☆ 提供範例,讓 ChatGPT 掌握答案應該怎麼寫
☆ 提供完整的脈絡及背景資訊
☆ 規定輸出格式或結構
☆ 不斷迭代測試更好的答案
參考資源:
▎2. 思考能力
『思考能力』一直是使用工具的核心能力,不管是要『定義具體清晰的問題』,還是『拆解問題解決思路』都非常需要該能力。
這塊是需要長期耕耘,甚至一輩子都一直磨練的能力,這也是人跟人之間最直接的能力體現。
除了平常養成思考的好習慣之外,有個『傻瓜時間』也給大家當做借鏡。
傻瓜時間就是指,『距離你覺得上次自己怎麼那麼蠢』的時間有多久,當一個人意識到自己的蠢或笨時,代表他發現了自己一些思考的盲點或能力的不足。
然後不要盲信大神,遇到一個論述時,不要因為這個人很厲害就直接把它的觀點當做自己的觀點,試著去尋找不同觀點的想法,思考背後有沒有『被忽略的資訊』、『偏頗的立場』、『錯誤的想法』。
像是 AI 大神楊立昆 (Yann Lecun)、AI 專家吳軍都曾在媒體上被抨擊砲轟過,我們是第一時間看了媒體內容就相信了,還是有去想想固中緣由。
▎3. 串連工具
因為家父是水電師傅,所以從小印象最深刻的一句話便是『工具是死的,頭腦是活的』,很多看似困難的問題都能在組合了不同的工具後解決。
但我們一開始很難馬上上手不同工具解決問題,所以可以先『大量參考別人的使用方式,然後試著自己改變』。
賈伯斯說過『傑出的藝術家模仿,偉大的藝術家盜竊』,在累積了許多的案例參考,再輔以自己長期累積的思考能力串連工具來解決問題,解決問題的方式也將越來越多樣化,不受拘束。
完整 Plugin 介紹: https://bit.ly/3pDZkWJ
▎4. 使用範例,長文深度總結並畫出心智圖
這邊的範例就是回扣前面 3 點,首先迭代出自己覺得最滿意的 Prompt:
=========================================
作為一個深度觀察家,針對我之後提供的內容進行深入分析,以獲得更深入的洞察。請按照以下步驟進行:
1. 請概述該內容,並列出其中的關鍵信息,以便更好地理解該內容的主旨和重點。
2. 請評估該內容是否能引發某種洞察或思考。是否存在某些觀點或信息可以激發人們的思考,或者提供一些獨特的見解或觀點。
3. 請檢查該內容是否存在觀點邏輯不通順或是值得從不同的視角切入討論的地方。是否存在某些信息或觀點需要進一步探討或補充。
4. 請思考該內容對人類社會可能產生的深遠影響,或是可能導致特定領域發生重大改變的方面。這些影響或變化可能是什麼?它們對我們的生活和未來有什麼影響。
5. 最後,我確定前4項回答完後會說『給我心智圖』,請將規定內容與上述回答的內容按照清晰的邏輯、分類與脈絡繪製一份詳細的心智圖,可以有4到7層甚至更多,以幫助我更好地理解該內容的結構和關聯性。
前四個項目說明時盡量不要有重複的觀點論述。
=========================================
然後串連兩個最適合的 Plugin,『WebPilot』及『Diagram It』,目的就是為了瀏覽頁面內容,並匯出成心智圖。
有些人有用 ChatPDF 的,就能嘗試『ChatWithPDF』或『AskYourPDF』,就像前面所說不要被工具局限,找出可以解決特定問題的 Plugin 即可。
最後這邊有個細節,我把『請給我心智圖』換成了『請先思考文章脈絡以及你給的分析脈絡,然後結合成完整的結構,給我詳細的心智圖』。
這個小技巧就是上面說的『讓 ChatGPT 多一點時間思考』。
▎小結
這是我迭代出的工具,最適用於我,但它不一定適用於其它人,所以一定要把工具變成自己的形狀。
這邊提供一個方式,檢驗大家到底有沒有因為 AI 而變的更好,那就是『用了 AI 後花了更多的時間深度思考』。
我們以為用了 AI 節省效率就不用思考,事實恰恰相反,AI 解決了高重複度的工作,幫我們省了更多的時間,這些時間就是我們拿來深度思考的時間,而不是浪費掉的時間。
ChatGPT 內完整對話: https://share.cleanshot.com/ZP6ZG9Nr