Cloudflare 助力內容創作者抵禦 AI 爬蟲

那些渴望獲取訓練數據的人工智能公司,將衆多網站和內容創作者逼進了一場永無休止的打地鼠遊戲,與日益激進的網絡爬蟲機器人作鬥爭,這些機器人不停地抓取他們的數據用於訓練人工智能模型。僅舉一個例子,維修數據庫 iFixIt 訴苦道稱,7 月份,Anthropic 的人工智能聊天機器人 Claude 的網絡爬蟲機器人在一天內訪問其網站近 100 萬次。

當然,機器人爬蟲已經存在了幾十年,要麼是好的(爲搜索引擎收集數據以幫助人們發現網站),要麼是壞的(惡意機器人試圖使網站癱瘓)。爲獲取人工智能訓練數據而爬行的機器人則歸爲一個模糊不清的第三類——一個網站或許想要將它們全部阻攔,或者允許部分訪問來抓取數據,作爲許可協議的一部分,亦或者期望能在聊天機器人的回答中被提及。

今年夏天,Cloudflare——作爲全球互聯網基礎的最大網絡之一,長期以來一直提供阻止惡意機器人的服務——開始爲內容創作者提供所謂相當於免費的‘簡易按鈕’,只需點擊一下就能阻止所有網站爬蟲。

然而,Cloudflare 首席執行官馬修·普林斯(Matthew Prince)告訴《財富》雜誌,雖然該功能有用,但它也是一種粗糙的手段。它無法區分是爲獲取人工智能訓練數據而抓取的爬蟲,還是爲搜索引擎抓取的爬蟲。此外,客戶無法決定阻止這一個爬蟲而不阻止那一個。

“人們不知道是否要按下按鈕,”他說。

如今,該公司爲其武器庫增添了新的“利器”,稱擁有更精確的工具,爲網站和內容創作者提供了對誰可以訪問其數據的更多控制,以及分析其內容被人工智能模型如何使用的能力。

現在,一個網站可以使用新的過濾器,允許 OpenAI 抓取其網站,而不允許百度或 Perplexity 抓取,並且還可以控制人工智能公司被允許訪問網站的哪些區域。Cloudflare 聲稱,其分析還可以幫助那些與模型提供商簽署許可協議的人理解談判中用到的指標,比如抓取某些部分或者整個頁面的費率。

一旦使用 Cloudflare 的 4000 萬個網站開始利用這些新特性,該公司還期望成爲一個核心市場,供它們與(同樣使用 Cloudflare 的)AI 模型供應商協商獲取其數據的授權。網站所有者能夠爲他們的網站或網站的部分內容設定價格,然後向模型供應商收費。

普林斯稱,Cloudflare 處於獨特的位置,能夠充當中間人。“當我們說,聽着,我們要制定這些規則,這是人工智能公司會予以關注的事,”普林斯說。他解釋道,Cloudflare 與主要人工智能公司的關係造就了一個雙邊市場。

他接着補充道,Cloudflare 的努力對於開放互聯網的持續發展起着至關重要的作用,因爲要是無法控制人工智能公司爲訓練模型而抓取網站的這種方式,內容創作者要麼停止創作,要麼把更多內容放到付費牆之後。雖然大型出版商或許會達成直接交易,但人工智能模型提供商將難以從小型網站獲取高質量內容。

“我相信 Cloudflare 將成爲能夠解決我認爲的關鍵問題的公司,以確保在新的、日益由人工智能驅動的網絡中持續進行在線內容的創建,”普林斯說道。