Topics

El agente Ready obtuvo 83 puntos (T_T), ¡pero estamos progresando bien preparándolo para que la IA lo lea!

  • column

En Liberogic, estamos trabajando para que la estructura de nuestro sitio web sea más legible para los agentes de IA y los LLM.

Se ha vuelto habitual que no solo los motores de búsqueda, sino también los sistemas de gestión del lenguaje natural (LLM) y los agentes de inteligencia artificial como Claude, Gemini y ChatGPT lean sitios web, organicen y comparen información, y realicen investigaciones en nombre de los usuarios.

En el sitio web de Liberogic, también nos estamos preparando para que la IA lea nuestro contenido mediante la creación de robots.txt, mapa del sitio, encabezados de enlaces, llms.txt y la generación de archivos Markdown para cada artículo.

Esta vez, Cloudflare lanzó algo hace dos semanas.「Is Your Site Agent-Ready?」Escribiré un artículo sobre este tema.

Marcado como sitio de contenido

El sitio web de Liberogic es una plataforma corporativa con contenido que incluye información de la empresa, presentaciones de servicios, noticias, columnas, estudios de caso y más. No es un sitio de comercio electrónico ni una aplicación API que requiera autenticación OAuth.

El tipo de sitio durante la comprobación del servidor es「Content Site」Seleccione uno.

Los elementos relacionados con el comercio, la API, la autenticación y el MCP quedarán excluidos de esta evaluación, y nos centraremos principalmente en los siguientes aspectos.

  • Discoverability
  • Content Accessibility
  • Bot Access Control

Como resultado... la puntuación es83点、Nivel 2「Consciente de robots」Esto es lo que pasó 😭

¿Por qué no es una puntuación perfecta?

Vamos a verificarlo/confirmarlo de inmediato.

En esta comprobación, tanto Discovery como Bot Access Control obtuvieron 100 puntos.

Hemos implementado soporte para elementos como robots.txt, mapa del sitio, encabezados de enlaces, reglas del bot de IA y señales de contenido, y hemos establecido las vías básicas para que el bot de IA descubra el sitio y comprenda las políticas de acceso.

En pocas palabras,

  • Consigue que la gente descubra el sitio.
  • Indíquenos dónde se encuentra el contenido.
  • Aquí se describe la política de acceso para los bots.
  • Señales para la IA

Esas son las áreas que ya se han abordado.

Por otro lado, recibí una puntuación de 0 en Accesibilidad del Contenido (TT).

Si solo te fijas en esto, podrías pensar: "¿Un momento, no puedo leer el contenido?", pero la realidad es un poco diferente.

El contenido Markdown ya está preparado.

En el sitio web de Liberogic, un cierto porcentaje del contenido de los artículos y los estudios de caso ya están generados en formato Markdown, lo que facilita su lectura por parte de la IA.
Tanto los artículos como los estudios de caso contienen archivos Markdown, y la sección de encabezado de cada página incluye una etiqueta de enlace al contenido Markdown, lo que proporciona una ruta clara para que el agente de IA acceda a los archivos Markdown.

No es que no sea compatible con Markdown; más bien, LLM está diseñado para recuperar el texto en un formato legible, por lo que no se trata de que "no esté preparado para ser leído por la IA".

¿Por qué no obtengo una puntuación perfecta? 👺

La razón por la que no obtuvo una puntuación de 100 esta vez no es porque el sitio no haya hecho nada, sino por la incompatibilidad entre la configuración de implementación actual y las especificaciones de evaluación de la herramienta de verificación.

El sitio web de Liberogic está implementado utilizando SSG de Astro, y la página de vista previa tiene un diseño híbrido que utiliza SSR.

Si bien la negociación de Markdown suele ser gestionada por un middleware, la configuración híbrida utiliza un adaptador de Cloudflare, y su salida, _worker.js, tiene prioridad. Como resultado, el middleware no se carga y la negociación de Markdown no se refleja en la herramienta de verificación.

En realidad, hay un archivo Markdown, y se puede acceder a él a través de una etiqueta de enlace en la sección head, pero la herramienta de verificación lo detectaba como "¡No se detecta la negociación de Markdown!".

¡Maldita sea! ¡Han hecho algo a medias!

...Aunque me tienta decir que, por supuesto, utilizo Cloudflare a diario.

Gracias por aprobar nuestra certificación de socio.

Pero para alguien que se ha esforzado por conseguir una puntuación perfecta en Lighthouse, esto resulta un poco decepcionante.

¡Es posible obtener una puntuación perfecta! Pero no quiero sacrificar la eficiencia operativa ni incurrir en costos adicionales solo por conseguir una puntuación alta.

Existen varias soluciones posibles.

  • Se configura una instancia independiente de Cloudflare Workers para devolver la salida en formato Markdown.
  • Convierta la página de vista previa en un CSR y acérquela a una configuración SSG completa.
  • Cambia el plan de servicio de Cloudflare a un plan empresarial y reescribe las URL usando reglas de transformación.

Estos son algunos de los métodos.

Así es, mejorar el nivel de servicio de Cloudflare en un nivel acercaría la puntuación en la herramienta de verificación a 100.
Sin embargo, llegado este punto, ¡decidir pagar un extra solo por eso parece un tanto cuestionable!

Nuestro objetivo no es obtener una puntuación perfecta en una herramienta de verificación, sino garantizar que los agentes de IA y los LLM puedan interpretar correctamente la información del sitio web de Liberogic. Desde la perspectiva de los LLM que leen el contenido, creemos haber avanzado considerablemente en los pasos necesarios.

En lugar de aumentar el costo solo para obtener una puntuación perfecta, concéntrese en poder leer correctamente.

Debe poder funcionar correctamente.

Como empresa de Liberology, queremos dar prioridad a ese equilibrio.

¡No olvides llms.txt!

Aunque no está incluido en esta lista de verificación, en Liberology.../llms.txtTambién lo respalda.

llms.txt es un archivo que funciona como un índice para LLM, informándole de "qué información hay en este sitio y qué páginas debe leer".

Este concepto es similar al de sitemap.xml para motores de búsqueda, pero se adapta mejor a los LLM, ya que sirve para organizar la visión general del sitio y proporcionar rutas de acceso al contenido importante.

Aunque no está incluido en los elementos de inspección de la herramienta de verificación, Cloudflare prioriza la calidad de los datos, específicamente "qué tan bien se puede capturar el contenido (texto del cuerpo) con un mínimo de ruido (es decir, si está en formato Markdown)", por lo que es posible que lo hayan omitido intencionalmente.

¿Debería dejar que lea el HTML directamente?

Cuando se utiliza un agente de IA para leer un sitio web, por supuesto, se puede hacer que analice directamente el código HTML.

Sin embargo, las páginas web reales contienen mucha información además del contenido principal, como navegación, encabezados, pies de página, elementos decorativos y controles JavaScript. Incluso las páginas que parecen naturales suelen contener mucho ruido para la modulación de lenguaje (LLM, por sus siglas en inglés).
La conversión forzada de HTML complejo a Markdown puede alterar la estructura de los encabezados, las listas y el significado previsto, lo que podría dar como resultado datos difíciles de leer incluso para los expertos en lenguajes de programación.

Dicho esto, estoy seguro de que estos problemas mejorarán pronto con el avance de la IA, pero creo que es importante hacer lo necesario ahora, paso a paso. ¿En qué fase de implementación de IA se encuentran sus sitios web?

Escrito por

A pesar de ser el director ejecutivo, siempre mantiene una actitud cercana. Disfruta aprendiendo sobre nuevas tecnologías y presenciando momentos de comodidad, y es una persona práctica y dedicada que se involucra por completo en su trabajo. Le entusiasman las tecnologías del futuro y desea seguir disfrutando de nuevas experiencias sin importar su edad.

Morimoto

Gerente de Proyectos / Director / Fundada en 2007

Vea el artículo de este miembro del personal

Nos enorgullecemos de nuestra confiable estructura de equipo y de nuestra rápida capacidad de respuesta.

En Liberogic, nuestro experimentado personal impulsa los proyectos de forma proactiva, por lo que gozamos de gran prestigio entre nuestros clientes.
Nos aseguramos de que los gerentes y directores de proyecto estén correctamente asignados para asegurar el progreso fluido de todo el proyecto. Evitamos aumentos innecesarios de costos por compromisos completos y asignamos recursos a las personas adecuadas en los puestos adecuados. Somos reconocidos por la rapidez con la que comprendemos el contenido del trabajo, creamos y presentamos presupuestos.

Tenga en cuenta que no participamos activamente en trabajos de campo al estilo del SES.

Somos compatibles con casi todas las principales herramientas de gestión de proyectos y chat, incluidas Slack, Teams, Redmine, Backlog, Asana, Jira, Notion, Google Workspace, Zoom y Webex.

Comuníquese con nosotros si tiene alguna inquietud relacionada con la web.

Estudio de caso