在 Liberogic,我們正在努力使我們的網站結構對 AI 代理和 LLM 更易於閱讀。
如今,不僅搜尋引擎,而且像 Claude、Gemini 和 ChatGPT 這樣的 LLM 和 AI 代理,都會閱讀網站、組織和比較信息,並代表用戶進行研究,這已成為司空見慣的事情。
在 Liberogic 網站上,我們也正在為 AI 閱讀我們的內容做準備,方法是建立 robots.txt、網站地圖、連結標頭、llms.txt,並為每篇文章產生 Markdown 檔案。
這次,Cloudflare在兩週前發布了一些新東西。「Is Your Site Agent-Ready?」我將就此事撰寫一篇文章。
已檢查為內容網站
Liberogic 網站是一個企業及內容網站,提供公司資訊、服務介紹、新聞、專欄文章、案例研究等內容。它既不是電子商務網站,也不是需要 OAuth 身份驗證的 API 應用程式。
伺服器檢查期間的網站類型是「Content Site」請選擇一項。
本評估將不包括商務、API/Auth/MCP 相關項目,我們將主要關注以下方面。
- Discoverability
- Content Accessibility
- Bot Access Control
因此……得分是83點、2級「機器人感知」事情就是這樣😭
為什麼不是滿分? !
我們馬上核實/確認一下。
在此次檢查中,Discovery 和 Bot Access Control 都獲得了 100 分。
我們實現了對 robots.txt、網站地圖、連結標頭、AI 機器人規則和內容訊號等項目的支持,並建立了 AI 機器人發現網站和理解存取策略的基本路徑。
簡而言之,
- 讓人們發現這個網站
- 請告訴我們內容的位置。
- 本文檔概述了機器人的存取策略。
- 人工智慧訊號
以上這些都是已經討論過的領域。
另一方面,我的內容可訪問性(TT)得分為 0 分。
單看這一點,你可能會想,「等等,我看不懂內容嗎?」但實際情況略有不同。
Markdown 內容本身已經準備好了。
在 Liberogic 網站上,一定比例的文章內容和案例研究已經以 Markdown 格式生成,這便於人工智慧閱讀。
文章和案例研究都有 Markdown 文件,每個頁面的頭部都包含指向 Markdown 內容的連結標籤,為 AI 代理訪問 Markdown 文件提供了清晰的路徑。
並非它不支援 Markdown;而是 LLM 旨在以可讀格式檢索文本,因此並非「不適合 AI 閱讀」。
為什麼我沒能拿到滿分? 👺
這次沒有獲得 100 分的原因不是因為網站什麼都沒做,而是因為目前的實施配置與檢查工具的評估規範不相容。
Liberogic 網站採用 Astro 的 SSG 實現,預覽頁面採用 SSR 混合設計。
雖然 Markdown 協商通常由中間件處理,但混合配置使用了 Cloudflare 適配器,其輸出檔案 _worker.js 的優先權更高。因此,中間件載入失敗,Markdown 協商結果也無法在檢查工具中反映出來。
實際上,存在一個 Markdown 文件,並且可以通過 head 部分的 link 標籤訪問它,但是檢查工具將其檢測為“未檢測到 Markdown 協商!”
該死!他們做的東西半成品!
雖然我很想這麼說,但我當然每天都依賴 Cloudflare。
感謝您批准我們的合作夥伴認證。
但對於像我這樣一直努力在《燈塔》中獲得滿分的人來說,這有點令人失望。
獲得滿分是有可能的!但我不想為了追求高分而犧牲營運效率或承擔額外成本。
有幾種可能的解決方案。
- 設定了一個獨立的 Cloudflare Workers 執行個體來傳回 Markdown 輸出。
- 將預覽頁面轉換為 CSR,並使其更接近完整的 SSG 配置。
- 將 Cloudflare 的服務計劃變更為商業計劃,並使用轉換規則重寫 URL。
以上是一些方法。
沒錯,將 Cloudflare 的服務等級提升一級,就能讓該檢查工具的得分更接近 100 分。
然而,此時決定僅為此支付額外費用似乎有點值得商榷!
我們的目標並非在偵測工具上獲得滿分,而是確保人工智慧代理和語言學習模型(LLM)能夠正確解讀Liberogic網站上的資訊。從語言學習模型閱讀內容的角度來看,我們相信在解決必要步驟方面已經取得了顯著進展。
與其為了獲得滿分而增加成本,不如專注於提升閱讀能力。
它必須能夠正常運作。
作為一家自由主義公司,我們希望優先考慮這種平衡。
別忘了 llms.txt!
雖然它沒有列入此清單,但在Liberology/llms.txt它也支持這一點。
llms.txt 檔案就像 LLM 的目錄一樣,告訴 LLM「此網站上有哪些資訊以及要閱讀哪些頁面」。
這個概念類似於搜尋引擎的 sitemap.xml,但它更適合 LLM,用於組織網站概覽並提供重要內容的路徑。
雖然它沒有包含在檢查工具的檢查項目中,但 Cloudflare 優先考慮資料質量,特別是“以最小的雜訊(即是否為 Markdown 格式)檢索內容(正文)的效果”,因此他們可能故意省略了它。
我應該直接讓它讀取HTML程式碼嗎?
當然,在讓 AI 代理程式讀取網站時,您可以讓它直接分析 HTML。
然而,實際的網頁除了主要內容外,還包含大量其他信息,例如導航、頁眉、頁腳、裝飾元素和 JavaScript 控制項。即使是看起來很自然的網頁,對於低階矩陣 (LLM) 分析而言,也常常包含大量雜訊。
強制將複雜的 HTML 轉換為 Markdown 可能會破壞標題結構、清單和預期含義,甚至可能導致即使是法學碩士也難以閱讀的資料。
雖然我這麼說,但我相信隨著人工智慧的發展,這些問題很快就會得到改善,不過我認為現在重要的是一步一步地做好眼前需要做的事情。你們的網站在人工智慧應用方面進展如何?
儘管身為首席執行官,他始終保持著平易近人的姿態。他樂於了解新技術,並享受科技帶來的便利,他是個親力親為、全心投入的人。他對未來科技充滿熱情,並希望無論年齡多大都能繼續體驗新事物。
Morimoto
專案經理/總監/成立於2007年