在 Liberogic,我们正在努力使我们的网站结构对 AI 代理和 LLM 更易于阅读。
如今,不仅搜索引擎,而且像 Claude、Gemini 和 ChatGPT 这样的 LLM 和 AI 代理,都能代表用户阅读网站、组织和比较信息并进行研究,这已成为司空见惯的事情。
在 Liberogic 网站上,我们也正在为 AI 阅读我们的内容做准备,方法是创建 robots.txt、站点地图、链接标头、llms.txt,并为每篇文章生成 Markdown 文件。
这一次,Cloudflare在两周前发布了一些新东西。「Is Your Site Agent-Ready?」我将就此事撰写一篇文章。
已检查为内容网站
Liberogic 网站是一个企业及内容网站,提供公司信息、服务介绍、新闻、专栏文章、案例研究等内容。它既不是电子商务网站,也不是需要 OAuth 身份验证的 API 应用程序。
服务器检查期间的站点类型是「Content Site」请选择一项。
本次评估将不包括商务、API/Auth/MCP 相关项目,我们将主要关注以下方面。
- Discoverability
- Content Accessibility
- Bot Access Control
因此……得分是83点、2级「机器人感知」事情就是这样😭
为什么不是满分?!
我们马上核实/确认一下。
在此次检查中,Discovery 和 Bot Access Control 都获得了 100 分。
我们实现了对 robots.txt、站点地图、链接标头、AI 机器人规则和内容信号等项目的支持,并建立了 AI 机器人发现网站和理解访问策略的基本路径。
简而言之,
- 让人们发现这个网站
- 请告诉我们内容所在的位置。
- 本文档概述了机器人的访问策略。
- 人工智能信号
以上这些都是已经解决的问题。
另一方面,我的内容可访问性(TT)得分为 0 分。
单看这一点,你可能会想,“等等,我看不懂内容吗?”但实际情况略有不同。
Markdown 内容本身已经准备好了。
在 Liberogic 网站上,一定比例的文章内容和案例研究已经以 Markdown 格式生成,这便于人工智能阅读。
文章和案例研究都有 Markdown 文件,每个页面的头部都包含指向 Markdown 内容的链接标签,为 AI 代理访问 Markdown 文件提供了清晰的路径。
并非它不支持 Markdown;而是 LLM 旨在以可读格式检索文本,因此并非“不适合 AI 阅读”。
为什么我没能拿到满分?👺
这次没有获得 100 分的原因不是因为网站什么都没做,而是因为当前的实施配置与检查工具的评估规范不兼容。
Liberlogic 网站采用 Astro 的 SSG 技术实现,预览页面采用 SSR 混合设计。
虽然 Markdown 协商通常由中间件处理,但混合配置使用了 Cloudflare 适配器,其输出文件 _worker.js 的优先级更高。因此,中间件加载失败,Markdown 协商结果也无法在检查工具中体现。
实际上,存在一个 Markdown 文件,并且可以通过 head 部分的 link 标签访问它,但是检查工具将其检测为“未检测到 Markdown 协商!”
该死!他们做的东西半成品!
虽然我很想这么说,但我当然每天都依赖 Cloudflare。
感谢您批准我们的合作伙伴认证。
但对于像我这样一直努力在《灯塔》中获得满分的人来说,这有点令人失望。
获得满分是有可能的!但我不想为了追求高分而牺牲运营效率或承担额外成本。
有几种可能的解决方案。
- 设置了一个独立的 Cloudflare Workers 实例来返回 Markdown。
- 将预览页面转换为 CSR,并使其更接近完整的 SSG 配置。
- 将 Cloudflare 的服务计划更改为商业计划,并使用转换规则重写 URL。
以上是一些方法。
没错,将 Cloudflare 的服务级别提升一级,就能使该检查工具的得分更接近 100 分。
然而,此时决定仅仅为此支付额外费用似乎有点值得商榷!
我们的目标并非在检测工具上获得满分,而是确保人工智能代理和语言学习模型(LLM)能够正确解读Liberogic网站上的信息。从语言学习模型阅读内容的角度来看,我们相信在解决必要步骤方面已经取得了显著进展。
与其为了获得满分而增加成本,不如专注于提高阅读能力。
它必须能够正常操作。
作为一家自由主义公司,我们希望优先考虑这种平衡。
别忘了 llms.txt!
虽然它没有列入此清单,但在Liberology/llms.txt它也支持这一点。
llms.txt 文件就像 LLM 的目录一样,告诉 LLM“此网站上有哪些信息以及要阅读哪些页面”。
这个概念类似于搜索引擎的 sitemap.xml,但它更适合 LLM,用于组织网站概览并提供重要内容的路径。
虽然它没有包含在检查工具的检查项目中,但 Cloudflare 优先考虑数据质量,特别是“如何以最小的噪声(即是否为 Markdown 格式)捕获内容(正文)”,因此他们可能故意省略了它。
我应该直接让它读取HTML代码吗?
当然,在让 AI 代理读取网站时,您可以让它直接分析 HTML。
然而,实际的网页除了主要内容外,还包含大量其他信息,例如导航、页眉、页脚、装饰元素和 JavaScript 控件。即使是看起来很自然的网页,对于低级矩阵 (LLM) 分析而言,也常常包含很多噪声。
强制将复杂的 HTML 转换为 Markdown 可能会破坏标题结构、列表和预期含义,甚至可能导致即使是法学硕士也难以阅读的数据。
虽然我这么说,但我相信随着人工智能的发展,这些问题很快就会得到改善,不过我认为现在重要的是一步一步地做好眼前需要做的事情。你们的网站在人工智能应用方面进展如何?
尽管身为首席执行官,他始终保持着平易近人的姿态。他乐于了解新技术,并享受科技带来的便利,他是一个亲力亲为、全身心投入的人。他对未来科技充满热情,并希望无论年龄多大都能继续体验新鲜事物。
Morimoto
项目经理/总监/成立于2007年