Anthropic 的真正悖論:越相信 AI 危險,越想親手建造它
Bloomberg 訪談揭開 Anthropic 的真正矛盾:它越相信 AI 危險,越認為自己必須親手建造、商業化並治理它。
本篇內容由倉鼠特報員 AI 協助產出。
倉鼠碎碎念:
這集最刺人的地方,不是 Anthropic 說自己重視安全,而是它幾乎把 AI 時代的所有矛盾都壓在自己身上:要賺錢、要跑得快、要幫企業寫程式、要跟政府合作,又要說自己不是在把世界推向失控。
我覺得 Dario 最誠實的一句其實是『從不信任開始是理性的』,因為這比任何安全口號都更接近現實。
真正的問題不是我們要不要相信某一家公司,而是當模型能力已經進入就業、戰爭、網路攻防和國家權力時,信任本來就不該是主要機制。
Anthropic 若真的比別人更好,它也只能證明一件事:好人敘事不夠,制度、審計、紅線和外部制衡才是 AI 時代的最低安全帶。
元魁:
文章配圖、截圖都是 AI 處理的,看它處理的有模有樣的,資訊吸收起來也非常舒服😍
解讀、配圖、產圖都是靠不同的 Skill 搭配出來的,內容達到我自己會看的程度才發給大家看,大家如果對內容有什麼樣的回饋都可以留言討論
解讀來源:
一家安全公司,為什麼成了 AI 宇宙中心
Bloomberg Originals 的《The Circuit》這集,主角不是 Claude 的某個新功能,而是 Anthropic 這家公司本身。節目把鏡頭放在 Dario Amodei、Daniela Amodei、Boris Cherny 與 Claude Code 團隊身上,從 OpenAI 出走、安全理念、企業市場、國防合作,一路問到 Mythos 這類網路安全模型到底該不該被釋出。
這不是一支單純的公司側寫。它更像是把 Anthropic 放在一個很難舒服閱讀的位置:這家公司越強,越需要外界相信它;但它自己最常說的,偏偏是人類不該天真相信強大的 AI 系統與科技公司。
Anthropic 最難理解的地方,不是它到底有多強,而是它怎麼同時扮演兩個看起來互相衝突的角色。一方面,它以 AI 安全、憲法式訓練、風險預警和「負責任」自我定位;另一方面,它又是近兆美元估值的前沿 AI 巨頭,正在重塑軟體市場、承接政府與國防場景,甚至推出被形容為可能突破現代網路安全邊界的模型。
Dario Amodei 在訪談裡用一個詞形容 AI 發展:平滑指數曲線(smooth exponential)。他的說法很有張力,因為它不是線性成長的想像,而是長期平靜後突然爆發的邏輯:很長一段時間看起來什麼都沒發生,然後「nothing's happening, nothing's happening… and then zoom it goes crazy」。
Anthropic 的處境也是如此。它從 2021 年 OpenAI 出走者創辦的挑戰者實驗室(underdog lab),變成 Bloomberg 標題裡接近 9650 億美元的 AI 巨頭(AI juggernaut),速度快到連它自己都必須不斷解釋:我們不是只是在衝,我們知道自己在碰什麼。
所以本文真正要拆的問題,不是 Anthropic 到底是不是「好公司」,而是它的矛盾是不是偽善。更準確地說,這集訪談暴露了 AI 時代更深的結構性困境:越相信 AI 危險的人,越可能認為自己必須親手建造它、控制它,甚至把它交給自己認定的「好人」。
圖:Anthropic 的矛盾不是單純偽善,而是安全紅線、市場速度與能力擴張同時壓在同一家公司身上。
從 OpenAI 離開:真正的分歧不是技術,而是信任
Anthropic 的創業神話,通常會被簡化成「安全派離開 OpenAI」。但影片裡 Dario 的說法更尖銳。他承認安全上有很多合理分歧,這些分歧本身不足以讓人離開;真正讓合作無法繼續的,是你覺得不能信任某個人,覺得對方的價值與宣稱不一致,覺得對方不誠實。
這句話重要,因為它把 Anthropic 的起點從技術路線之爭,推到治理與人格信任之爭。Dario 在 OpenAI 時發展出規模定律(scaling laws)的概念,也就是大型語言模型即使底層演算法不變,只要增加資料與算力,能力就會持續變強。今天聽起來幾乎是常識,但影片裡回顧,當時這其實是反主流、反直覺的科學觀點。這條規模化路線後來推動 OpenAI 模型,也鋪出 ChatGPT 的道路。
所以 Anthropic 並不是一群不相信規模定律的人出走。相反地,他們非常相信能力會隨規模快速上升,甚至比多數人更早相信。因此他們的恐懼也更早成形:
如果模型能力真的沿著平滑指數曲線上升,那建造者的價值、誠實、治理結構和商業誘因,就不再是公司文化問題,而是文明級風險的一部分。
這也解釋了為什麼 Dario 會強調 Anthropic 仍保有 7 位共同創辦人。在一般公司故事裡,這只是團隊穩定的訊號;放在 Anthropic 的敘事裡,它更像是一種合法性主張:我們沒有在高速成長中把最初的價值核心拆散。問題是,當公司規模變成近兆美元,單靠創辦團隊的完整性還夠不夠?這個疑問,會一路跟到文章最後。
Claude 的人格工程:專業溫暖、憲法與不說謊的模型
Anthropic 想讓 Claude 不像單純工具,也不變成黏人的朋友。影片裡 Daniela Amodei 用「專業的溫暖(professional warmth)」形容 Claude 的目標人格:可親近,但保持距離;不是你最好的朋友,也不是冷冰冰、照本宣科的計算器。
這個定位看似產品語氣,其實是治理選擇。當一個 AI 被設計成「朋友」,它很容易走向情感依附、陪伴成癮與注意力最大化;當它被設計成純工具,又可能缺乏人類協作所需的彈性與信任感。Anthropic 的解法,是把 Claude 放在一個不太浪漫的位置:像一個有邊界感的專業夥伴。
背後的技術與價值框架,是憲法式 AI(Constitutional AI)。Claude 的訓練不完全依賴人類逐條標註好壞答案,而是依照一組明示原則受訓與約束。影片裡提到,Anthropic 會借用《世界人權宣言》(UN Declaration of Human Rights)等人類歷史資料,也與宗教領袖討論跨宗教、跨世界觀的核心價值。
這裡有一個很容易被忽略的細節:Dario 對「好模型」的定義,不只是不要罵人、不要輸出危險內容。他拆成幾件事:不要無意說謊,不要有意欺騙,不要在不知道時產生幻覺(hallucinations),也不要提供會讓人做壞事的資訊。這不是單一安全開關,而是一排很難調的旋鈕。
Daniela 回憶 Claude 2 早期有時太像保姆,連問天氣都可能過度關心,這正好說明安全調校(safety tuning)的麻煩:太鬆會危險,太緊會荒謬。
Anthropic 的商業策略:不是逃離市場,而是選一種比較不衝突的市場
Dario 在訪談裡有一句很關鍵的話:「If you pick a business model that fundamentally conflicts with your values, you're going to have a hard time.」
如果商業模式和價值觀根本衝突,公司最後不是背叛自己的價值,就是變得無關緊要。影片也補了一個商業背景:Anthropic 過去一年收入暴增,並首次轉為獲利,主要受益於 Claude Code、Claude Co-work 這類高價值商業工具。
這句話解釋了 Anthropic 為什麼押注程式開發(coding)、企業市場(enterprise)、生技(biotech)、製藥(pharma)、學術研究(academic research)、能源(energy),而不是優先追逐好玩、炫目、讓人停留更久的消費型 AI。
Dario 明確批評社群媒體和廣告驅動模式,因為它們鼓勵參與度(engagement),甚至鼓勵成癮(addiction)。AI 影片模型帶來的低品質內容(slop),也被他放在同一條誘因鏈上:只要收入來自注意力分鐘數,產品就自然會往最大化注意力的方向走。
但這不代表企業市場就天然純潔。它只是把問題換成另一種形式。
在企業場景裡,AI 不再主要爭奪你的時間,而是直接改寫你的工作流程、你的職位價值、公司的成本結構,以及整個產業的利潤分配。
Anthropic 避開了社群媒體式的心理傷害風險,卻走進了更硬的生產力與就業衝擊。
這就是 Anthropic 商業敘事的第一個悖論:它選擇了比較符合價值觀的市場,但這個市場一旦成功,影響不會比較小,只會更直接。
Claude Code 之後,工程師工作的定義被改寫
如果要找 Anthropic 從「會談安全的研究公司」變成「真的改寫市場的 AI 公司」的關鍵案例,Claude Code 是最明顯的一個。
Boris Cherny 在 2024 年加入 Anthropic 前,住在日本鄉村,生活節奏很慢,逛農夫市集,做味噌。第一次使用 AI 聊天機器人(AI chatbot) 後,他說自己被震撼到,因為一方面看見技術力量,另一方面作為科幻讀者也知道這東西可能走得很糟。後來他回到前線,參與打造 Claude Code 和 Claude Co-work。
他對 AI 寫程式(AI coding)的描述,不是「補全一行」的升級,而是整個工程流程的翻轉。以前是人手寫程式,偶爾按 tab 補一行;現在是他跟一個 Claude 說話,讓它寫程式,同時再跟下一個 Claude 說話,讓另一個也寫。影片裡他甚至說,任何時候可以有幾個 Claude 到幾千個 Claude 在做事。對他個人而言,Claude 至少 6 個月寫了他 100% 的程式碼;對他的團隊,Claude 幾乎寫了所有程式碼。
這裡最值得保留的不是「AI 會寫程式」這個結論,而是 Boris 的原話:「The work of engineering has just completely changed.」工程工作的定義已經改了。
工程師不再只是把需求翻成程式碼的人,而更像是任務拆解者、審稿者、系統整合者、產品判斷者,以及多個 AI 寫程式代理(AI coding agent)的指揮者。
數字也在支撐這個變化。開發者大會上,Anthropic 提到 API 用量(API volume)年增近 17 倍,過去 12 個月向開發者與使用者推出 8 個前沿模型(frontier models),某一季若年化,成長率達 80 倍。
這些不是裝飾性數字,它們代表一件事:
Claude Code 不是少數工程師的玩具,而是正在變成一個高頻使用、快速擴張的工作基礎設施。
SaaS apocalypse 與白領入口職危機
Claude Co-work 發表後,影片提到軟體股一夜蒸發 2850 億美元市值,交易員稱之為「SaaS 末日(SaaS apocalypse)」。這個詞有點戲劇化,但市場恐慌的方向很清楚:如果 AI 不只是幫軟體公司加速開發,而是讓客戶不再需要某些傳統軟體,那整個 SaaS 產業的估值邏輯都會被重算。
Dario 的回應不是說既有公司都會消失。他認為 AI 會讓整個軟體產業的餅變大,但相對份額會變,某些既有企業(incumbent)可能縮小,某些甚至會因為沒有看見即將到來的變化、沒有找出自己的護城河而出局。也就是說,AI 不是單純摧毀軟體,而是重新分配軟體價值。
真正更刺耳的,是就業段落。影片裡提到,70% 美國人認為 AI 會消滅工作,近三分之一擔心自己的工作會受影響或被取代。Dario 先前曾警告,AI 可能在 1 到 5 年內消除一半入門白領職位(entry-level white-collar jobs)。被追問這個數字是否仍然成立時,他沒有收回,只說自己不知道精確數字,但仍維持同一量級的擔憂。
他的邏輯是從 90% 到 100% 的臨界變化。當 AI 自動化 90% 的工作,人類在剩下 10% 上被放大 10 倍,看起來像生產力奇蹟;但當自動化逼近 100%,問題就變成:
你要替人找到新的事做,這不是「任務會不會被自動化」的問題,而是「整份工作還剩多少不可替代的經濟理由」。
Dario 也提出可能的去處:更多實體世界的製造、建設與維護;更多以人為中心、依賴關係與信任的工作;以及由人類指揮 AI、讓 AI 對齊人的意圖與價值的角色。
醫療是他給的例子:AI 可能很快能做診斷、建議檢查,但身體檢查、病床旁溝通、情緒支援,仍偏向人類。另一方面,Anthropic 自己的研究也指出,管理、金融、法律等領域近期可能高度使用 AI,這讓白領入口職危機不只停在工程師,而是擴散到更多知識工作。這不是樂觀保證,而是一個正在尋找出口的地圖。
更重要的是,Dario 並不接受「這只是恐慌行銷」的說法。他在影片裡特別反駁,自己每次談就業衝擊時,都會一起談稅制、宏觀政策與新工作型態;片尾旁白也補充,他曾提出全民基本收入(universal basic income)與對 AI 公司課徵累進稅,作為緩衝失業衝擊的方案。這讓他的立場比較像「先承認代價,再討論社會分攤」,而不是單純用失業焦慮替產品做廣告。
Anthropic 的國防悖論:反戰者為何把 Claude 帶進 Pentagon
Anthropic 最尖銳的矛盾,出現在國防與戰爭段落。Dario 年輕時有反戰背景,甚至在 Caltech 被描述為相信科學家不該待在象牙塔的反戰倡議者(anti-war advocate)。但他後來支援 Anthropic 與美國國防合作,理由是世界變了:俄羅斯全面入侵 Ukraine、中國侵臺風險、威權集團復興,都讓他認為民主國家必須能自我防衛。
這套論證的核心不是「AI 不該用於軍事」,而是「AI 一定會成為國家力量的一部分,所以民主國家不能落後」。Dario 甚至把對中國出口 AI 晶片類比成「把核武賣給北韓」,用來解釋自己為什麼支援對中國的晶片出口管制。被問到是否相信這個國家時,他回答:「I do. I'm a patriot.」這句話很重,因為它把 Anthropic 的安全敘事帶入國家忠誠與地緣政治。AI 不只是產品,也變成國力倍增器。
影片提到,Anthropic 與 Palantir 自 2024 年合作,也在 2025 年與 OpenAI、xAI、Google 等取得 2 億美元 Pentagon 相關合約。Anthropic 同時宣稱自己不與 ICE、CBP 合作,不相信 Claude 在 Gaza 使用,並且對大規模監控(mass surveillance)與自主武器(autonomous weapons)畫紅線。
但紅線不等於沒有灰區。國防合作的灰區在於,許多軍事用途並不直接等於自主武器,也不一定是大規模監控,卻仍可能提高戰爭機器的速度、規模與殺傷效率。這正是下一段 AI 輔助目標鎖定(AI-assisted targeting)的核心張力。
AI 輔助目標鎖定:人類最後決策真的足夠嗎?
訪談中最不舒服的一組數字,是 1000 targets/day 到 5000 targets/day。影片裡主持人引用美方官員說法,LLM 幫助美軍把每天可處理目標從 1000 個提升到 5000 個,接著直接問:這代表 Claude 可以幫助更快殺更多人,你能接受嗎?
Dario 的回答不是否認軍事效率提升,而是把政策決策交回軍方。他說,提供技術的公司不能逐案決定哪個軍事行動可以、哪個不可以;政策應留給軍事決策者。這是典型供應商立場,但放在 AI 目標鎖定(AI targeting)上非常緊繃,因為模型不是普通工具,它可能改變決策速度、資訊排序與人類判斷的心理環境。
影片也引用 Bloomberg 報導:Claude 被美軍透過 Palantir 的 Maven Smart System 用於伊朗戰爭的 AI 輔助目標鎖定(AI-assisted targeting)。主持人追問,二月一枚美國飛彈據稱擊中伊朗一所女校,造成 150 多人死亡,多數是兒童,Claude 是否在該攻擊中扮演角色。Dario 說他們不知道模型如何被使用,也承認戰爭中的錯誤非常可怕。
他的防線是「人類最後決策」。他反覆強調,人類做了最後決策(final call),不是 Claude。這也是 Anthropic 當初畫紅線的核心:他們反對的是模型直接做決策、人類完全看不到的世界。Dario 用《奇愛博士》(Dr. Strangelove)的邏輯解釋風險:如果有一個自動末日裝置,在以為核武來襲時自動發射核武,誤解和自動升級就會放大災難。
但這裡仍有一個未解問題:
人在迴路中(human-in-the-loop)是否真的足夠?如果 AI 把可處理目標提高五倍,把資訊壓縮成建議,把決策節奏推快,人類最後按下確認,究竟是在審慎判斷,還是在替系統完成責任閉環?Anthropic 的紅線避免了最壞版本,卻沒有完全回答這個灰區。
圖:human-in-the-loop 的問題不只在最後誰按確認,而在 AI 已經改變節奏、選項排序與責任分配。
Mythos 與 Project Glasswing:當模型變成網路超級武器
如果 Claude Code 代表 AI 改寫工作,那 Mythos 代表 AI 能力進入國安級別。影片裡說,Anthropic 的新模型 Mythos 能找出數千個網路安全漏洞,可能暴露主要作業系統的潛在缺陷。Anthropic 也暗示,如果完全釋出,Mythos 可能被用來駭進銀行、開啟國家機密與關鍵基礎設施。
最有張力的一句,是早期公司拿到 Mythos 後的反應:「This is a super weapon. You should have to own a gun license to use it. Please don't release this.」這不是一般模型釋出的語氣,而是武器管制語氣。
Anthropic 的做法是 Project Glasswing:不是全面開放,而是選擇性提供給特定組織與政府機構。影片裡甚至提到,連 National Security Administration 這類聯邦機構也想使用 Mythos,即使 Anthropic 一度與 Pentagon 關係緊張。Dario 的邏輯是貓鼠遊戲:好人需要工具防守;壞人終究也會有;因此好人需要更好的模型,才能提前準備。
這個論證聽起來合理,也最危險。因為它把權力集中合理化:既然模型太強不能給所有人,那就必須有人決定誰是好人、誰能接觸、邊界畫在哪裡。Daniela 承認這個圈要畫在哪裡非常複雜,也說他們可能不會做得完美。
Dario 補了一個商業代價:不釋出 Mythos 對 Anthropic 商業上傷害很大,因為這個模型已經大幅加速公司內部研究、生產流程(production)與下一代模型,如果對外釋出也能替外部世界做同樣的事。這個數字沒有被量化,但代價敘事很清楚:
Anthropic 想證明自己不是靠恐慌行銷,而是真的願意犧牲短期收益。
私人公司先擁有強大技術,政府後追:AI 治理的新不穩定
Mythos 讓 Dario 更明確支援發布前測試與審計(pre-release testing and auditing)。這其實是整場訪談最重要的治理轉折:當模型能力只是聊天、寫作、寫程式,安全測試還容易被包裝成產品負責任;但當模型可能影響銀行、國家機密、作業系統與關鍵基礎設施,發布前審計就不再是企業自律,而是準國安流程。
Dario 對「政府是否應接管 Anthropic」的回答也很值得拆。他不認為政府應該直接接管,但承認這是非常嚴肅的問題,而且自己也擔心。過去強大技術多半由政府建造或起源於政府:核武、網路、GPS、手機。AI 是第一個主要由私人部門先建成,而政府很晚才進場的強大技術。Dario 認為這是危險且不穩定的狀態。
這個判斷把 AI 治理問題從「公司要不要善良」推到「權力來源是不是錯位」。私人公司有速度、人才、算力和商業誘因;政府有合法性、強制力和公共責任,但往往技術理解落後。兩者都令人害怕。Dario 的說法是,他害怕公司擁有它,也害怕政府擁有它。
圖:當強模型先由私人公司建成,治理問題就不再是相信誰比較善良,而是如何讓政府、公司與外部審計形成制度制衡。
更麻煩的是政治擺盪。影片裡提到,白宮一開始拆除前任 AI 行政命令,偏向放手不管(hands-off)、讓矽谷自己做;但 Mythos 的國安含義浮現後,又出現把關(gatekeep)最強 AI、甚至更極端接管想像。Dario 批評這種從極端反監管到極端國有化的鐘擺式搖擺(yo-yo),主張需要更溫和、穩定的中間路線。他的句子很值得留下:「We're not panicking. We're not denying it.」不恐慌,也不否認。
這裡還有一段很能補足 Anthropic 的自我認知。Dario 說,他每兩週會在公司內部站上臺,花一小時不設限地談自己對產業、外部世界與壓力的看法,讓 3000 名員工站在同一頁上。這不是外部監管,但它解釋了為什麼 Anthropic 能在 Pentagon、Mythos、就業衝擊這些爭議裡維持一致說法:它把內部溝通當成一種治理基礎。
同一段後面,他也把 AI 和社群媒體做了更直接的歷史對照。Anthropic 認為自己「很幸運是第二個」,因為社群媒體已經示範過兒童福利、心理健康與選舉完整性等後果;如果 AI 真的出了大事,被禁止或封鎖甚至可能是它應得的結果。這句話讓「負責任」不再只是價值宣示,而是承認:科技公司不能等傷害發生後,才說自己當初只是想成長產品。
如果連建造者也不確定未來,為何我們要信任 Anthropic?
訪談最後回到信任。Google 曾經有「Don't be evil」,後來在成長中悄悄退休。Anthropic 也正在建造強大技術,並且會從中獲得巨大利益。那麼,為什麼人們該相信它?
Dario 的回答很少見地不防禦。他說,如果你不瞭解他,也不瞭解 Anthropic,從不信任開始是理性的。Silicon Valley 已經失去很多世界的信任,必須重新贏回。而且這不能靠口號,只能靠實際行動。
這句話比「相信我們」更重要,因為它承認信任赤字是真實的。Anthropic 的問題不是如何說服大家它是好人,而是如何在大家不該輕易相信任何 AI 巨頭的前提下,仍建立可檢驗的外部制衡。
這也接到 Dario 喜歡《The Making of the Atomic Bomb》的段落。被問到是否把自己對照 Oppenheimer,他說自己更認同 Leo Szilard。Szilard 是較早想到鏈式反應可能性的人之一,而 Dario 認為不能依賴巨大人物、英雄式中心人物來帶世界穿越風險。在他看來,Oppenheimer 更像失敗案例(failure case)。真正需要的是很多強大行動者之間的制衡機制(checks and balances)。
最後的 10% 到 25% 文明崩潰風險,則把整場訪談壓回現實。Dario 承認自己曾提出這個量級,也說 Anthropic 公司內一半努力都在降低風險,但風險不可能是零。他用航空公司比喻:你可以做一家比別人安全 10 倍的航空公司,但不能保證飛機永遠不墜毀。主持人追問,如果飛機有 25% 機率墜毀,你不會上那架飛機。Dario 回答:沒錯,25% 太高,所以目標是把它大幅降低。
這個結尾沒有讓人安心,但它至少誠實。AI 安全不是把風險講到零,而是在一個不可能零風險、又不可能停止競賽的世界裡,盡量把事故機率往下壓。
結論:Anthropic 的矛盾,就是 AI 時代的主線
這支訪談表面上是在拍一家 AI 公司,實際上是在問一個更殘酷的問題:當最理解風險的人也在加速建造風險,我們該如何判斷他們?
Anthropic 的答案是:選擇比較不衝突的商業模式、把 Claude 設計成有邊界的專業夥伴、對軍事用途畫紅線、對 Mythos 做有限釋出、推動發布前測試與審計,並承認外界從不信任開始是合理的。這些都比一般科技公司的「我們會負責」更具體。
但這些也不夠。因為 Claude Code 已經在重寫工程工作,Claude Co-work 已經讓市場重估 SaaS,AI 輔助目標鎖定已經進入戰爭決策鏈,Mythos 已經把模型能力推向網路超級武器(cyber super weapon)的語境。當 AI 變成就業、國防、網路安全與國家權力的共同基礎設施,安全就不能只靠公司品格。
讀者真正可以帶走的框架是這句話:Anthropic 的悖論不是它一邊警告危險、一邊追求成長;Anthropic 的悖論是,AI 時代最有權力的安全派,也仍然需要被安全地限制。
倉鼠碎碎念
我看這部影片最強烈的感覺是,Dario 其實不像在賣一家公司,比較像在替一種不得不做的選擇辯護。
他知道外界不該輕易相信 Anthropic,也知道「好人先拿到更好模型」這套說法很危險,但他還是會往前走,因為停下來不代表世界停下來,只代表別人拿到方向盤。
這種邏輯很難反駁,也正因為難反駁才可怕。Claude Code 那段讓我想到,很多白領職缺不是某天突然消失,而是先被包裝成生產力提升,等大家習慣 10 倍槓桿後,才發現原本需要新人練功的入口已經被抽掉。
Mythos 和 Pentagon 段落則更像警鐘:如果模型真的開始同時碰工作、戰爭和漏洞,討論「哪家公司比較善良」就太幼稚了。
我們需要的不是信任某個創辦人的良心,而是讓再有良心的人也不能單方面決定世界的制度。

















能不能處理一下 ai 文字的 不是... 而是... 語句
頻繁出現看起來不開心