資料販售：網路內容的未來商業模式?

隨著大型語言模型的普及，資料的重要性日益凸顯。而這些資料的來源之一就是網路內容，因此，資料販售正在成為一種新的商業模式，對網路內容的未來發展產生深遠影響。

李元魁

Mar 03, 2024

卷首語

再來我應該會把知識倉鼠分成幾個版位，讀者們可以根據有需要的內容訂閱，像是書籍解讀、AI 工具實作、思考雜談等。
要讓思考能力進步的方法，就是『不斷追問為什麼』，有一句話我很喜歡，『問一個好問題比獲得一個好答案來的重要』。
我們看的內容，可以說都是一個答案，背後都有一個問題作為起點。我們可以在看完內容後，多思考一點為什麼，換個角度、深思挖掘、沙盤推演都是很棒的幫助思考的方式，讓自己在閱讀後能夠獲得更多。
與其一年看 100 本書，不如一年看了兩三本書，但在書中延伸一兩百個 Why，然後想的透徹。
這次特別選了風險投資人 Tomasz Tunguz 的一篇短文作為思考內容，拋磚引玉希望能不只讓讀者們有啟發，也能有不同的想法回覆激盪思考。

友情推薦：從 Python 進入資料科學的線上營

之前說過，這個時代學程式語言已經不是難事，尤其透過像 ChatGPT 這樣的工具可以寫出非常多實用的小工具，還能優化自己的工作流。

但有個前提是至少要有一點程式的基礎，現在這個課很適合 0 基礎的初學者上，是我一位非常厲害的高手友人張維元所開設，他另外有個粉專應該很多人聽過叫資料科學家的工作日常，內容都超讚。

這個訓練營的目標是實作面試等級作品集，所以要轉職學新技能也超推！

課程特色：

👉🏻 維元老師全程教學與陪跑

👉🏻 直播 + 社群混合教學，無限期觀看與回訓

👉🏻 大量的作業實戰演練

👉🏻 資料爬蟲 x 資料庫 x 資料處理 x LeetCode

課程連結（早鳥只到 3/5 中午 12:00！）：https://bit.ly/3wAGtiO

===

隨著大型語言模型（LLM）的普及，資料的重要性日益凸顯。LLM 的訓練需要大量資料，而這些資料的來源之一就是網路內容。

因此，資料販售正在成為一種新的商業模式，對網路內容的未來發展產生深遠影響。

風險投資人 Tomasz Tunguz 前天寫了一篇簡短但具有啟發的文章，提出了資料在未來商業模式中的重要性。

順著這個思路我也開始思考這篇提到的『資料的重要性』，原文翻譯附在文末，稍後可查看。

LLM 的資料需求

現在通用的語言模型，連最強的 GPT-4 都還是會有『資訊不及時』和『專業能力不夠好』的問題，解決辦法就是通過購買大量資料、內容來訓練模型。

這些資料包含使用者的個人資訊和撰寫內容，通常由平台方與 AI 公司或大型科技公司（例如 Google）進行交易。

又或者大公司本身就已經擁有豐富的生態圈，使用者資料盡納手中了。

你可能會疑惑『我沒有要給他我的資料訓練啊』，其實當我們使用網路上便捷的服務時，服務條款中的某一條，就是我們允許平台方使用我們的資料，甚至販售資料。

資料販售的興起

網路興起後有一項技術叫做Cookie，一種常用於網路廣告和網站追蹤的技術。它讓網站記住使用者的資訊，比如登入狀態、用戶偏好、甚至追蹤用戶的行為以便投放針對性廣告。

但隨著隱私意識的提高和隱私法律的強化（如歐洲的 GDPR 和加州的 CCPA），Cookie 的使用受到了越來越多的限制。

用戶對於被追蹤和資料收集的擔憂增加，導致瀏覽器開始限制或完全阻止 Cookie 的使用。

蘋果手機使用者應該就能明顯感受到，安裝新 app 時就會詢問你要不要允許追蹤你的行為，大部分人肯定是選不要的，所以廣告商投放廣告的精準度會變的更低。

如果網站內容因為語言模型的崛起而導致流量大跌，這樣廣告能帶來的效益也會隨之降低，所以 LLM 的需求會讓『販售資料』會逐漸取代『廣告收入』。

這也是 Tomasz Tunguz 在文章中提出的核心概念。

而『網路內容』會有什麼樣的發展呢？

第一，大型內容商：成為 AI 公司的資料來源，合作愉快

就是像 reddit 這樣的 UGC（使用者產生內容）內容平台與 Google 交易，使用者在上面留下的資料被 LLM 用於訓練模型。

使用者可以選擇要不要成為 AI 的養分，若不要就得離開該平台。

但大公司會開始找尋開品質的內容論壇、新聞媒體進行一波合作，資料販賣會成為這些內容商一筆重要的收入來源，並且可以透過強化後的 LLM 進一步成為使用者的工具。

第二，平台內容：沒啥話語權

就是指在既有平台上創作的這些內容，像是 YouTube、TikTok、FaceBook、LinkedIn、Dcard、Medium 等，但凡不是你自己租主機買網域的。

內容應該有很大機率會被拿去賣掉用來訓練 LLM。

不過 Google 都用你的資料訓練 AI 這麼多年了，不會現在突然重視自己的權益吧XD

而 Google 很自然的就能把你的內容拿去訓練像 Gemini 這樣的模型。所以說有個自己的生態圈很重要，競爭優勢太大。

第三，依賴 Google 流量的內容，越來越考驗內容價值

因為我本業做 SEO 看什麼都想一下 SEO。

如果是大量依賴 Google Search 流量的網站，可以留心一下，在 LLM 出現後 Google 已經開始在改造搜尋了，未來的搜尋將會是：

在 Google 上問問題，程式把所有相關資料抓回來，然後 AI 再統整資料。

所以使用者的搜尋行為將會大幅度改變，不再一頁一頁點擊，讓 LLM 把問題都回答清楚，只有『深入且有價值的內容』才另外特別點擊查看。

所以傳統 SEO 導向的內容要開始 GG 了，如果內容不夠具有深度、價值、個人經驗，甚至是 ChatGPT 就能寫出來的內容，那只能說這樣的內容可能會被當作是垃基了。

小結

這個改變會影響的面向比較多，但主要圍繞在這些大公司，一般使用者通常話語權並不多，可能最常被提起的還是在隱私權的部分。

人們越來越懶的看長篇內容，取而代之的會是 LLM 統整各種內容，所以如何突出自己的觀點與想法，然後被讀者留意到很重要。

目前 LLM 大多還是在『模仿』，而非真正能夠創造具有深度的內容，而且科技進步同樣需要人們不斷迭代進化自己的想法，然後創造出新事物。

這正是人的價值，所以 LLM 公司才需要購買這些被新創造出來的想法與思考。

廣告的本質還是建立在『販賣流量』，所以就算廣告的重要度逐漸下降，它也不會消失，只是回跟販賣資料這件事變成平衡狀態。

Tomasz Tunguz 提出的這個想法也值得大家深思，身為內容創作者的我們、大公司（如 Google）、LLM 公司（如 OpenAI）未來可能會有怎麼樣的協作方式。

以下是翻譯內容：

上週，Reddit 提交了 S-1 申請以進行首次公開募股。他們的收入中至少有 10%（約 $6000 萬美元）來自於出售資料以訓練大型語言模型（LLM）。Reddit 的資料銷售收入很可能在今年年底前遠超 10%。

以下是原文的直接引述：我們預計我們不斷增長的資料優勢和智慧財產權將繼續成為訓練未來 LLM 的關鍵要素。

這提出了一個基本問題：如果資料銷售收入相較於廣告收入的佔比大幅提升，會發生什麼情況？

LLM 需要資料。它們對資料進行壓縮並重新組合，來回答使用者的查詢。在 Reddit 上，如同網際網路上的許多網站，內容經常發生變化。使用者希望搜尋資料以獲得產品評論、旅行推薦、事實和娛樂（最新的迷因）。Google 並不是唯一在追逐這些資料的公司：OpenAI 和其他提供商也在與網際網路出版商進行直接交易。

由於資料需要保持新鮮度，Google 和其他公司將繼續為訪問權支付費用，並且可能為獨家訪問權、低延遲或能夠提高其模型精準性的特定類型資料支付越來越多的費用。

資料銷售顛覆了網際網路的商業模式。

Reddit 不再是建立產品體驗來獲取優質廣告資料以賺取更多廣告費，而是推出能產生更有價值的資料來提供給 LLM 的產品體驗。LLM 供應商應該為更好的資料支付更多費用。

使用者資料仍然是這個領域的貨幣，但它的包裝和銷售方式截然不同。Cookies 這種垂死掙扎的技術催生了廣告世界，它終將會被資料購買合約所取代。

總有一天，我們可能會去訪問廣告比較少甚至完全沒有廣告的網站。網際網路的營收模式將會改變。出版商直接將資料出售給搜尋公司。

如果我們往這個方向演進，我們會面臨使用者隱私、資料控制、監管等眾多問題，更不用說產品體驗本身可能會如何改變。

廣告網路的日子可能屈指可數了，緊隨其後的會是一個網際網路新商業模式的時代。

🐹 知識倉鼠

Discussion about this post

Ready for more?