Visibilidad en AI y LLMs - guía GEO 2026 | seo | WPPoland

Mariusz Szatkowski

ES

Cómo hacer visible tu sitio para la AI y los LLMs

4.90 /5 - (112 votes )

Última verificación: 1 de mayo de 2026

13min de lectura

Guía

PageSpeed 100/100

Datos Clave : Visibilidad en AI y LLMs (GEO) en 2026

1 GEO (Generative Engine Optimization) optimiza cómo los sistemas de AI recuperan y citan contenido. Complementa al SEO clásico, no lo sustituye.
2 Los crawlers de AI como GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended, CCBot y Applebot-Extended no ejecutan JavaScript y siempre respetan robots.txt.
3 Servir una versión Markdown hermana de cada página en URL.md reduce típicamente la huella de tokens entre un 70 y un 85 por ciento frente al HTML renderizado.
4 El contenido visible y rico en citas vence a los metadatos ocultos. Expertos nombrados, estadísticas con fuente y enlaces salientes autoritativos elevan la tasa de cita de forma medible.
5 La negociación de contenido HTTP en Accept text/markdown es el mecanismo más duradero para una entrega amigable a máquinas.

Última actualización: 2026-04-23

#Introducción

Tu sitio posiciona en Google. Los Core Web Vitals están en verde. El schema valida. Y aun así, cuando alguien pregunta a ChatGPT, Claude, Perplexity o Google AI Overviews sobre tu sector, tu marca no aparece. Ese hueco entre el SEO clásico y lo que las búsquedas con AI realmente citan es el problema que existe para resolver la Generative Engine Optimization.

GEO no sustituye al SEO. Es una disciplina paralela, centrada en cómo los grandes modelos de lenguaje recuperan, interpretan y citan contenido, no en cómo los crawlers de búsqueda lo indexan y ordenan. Las técnicas se solapan en algunos puntos y divergen en otros, y el campo avanza más rápido que cualquier norma publicada. Esta guía recoge lo que funciona en la práctica, lo que es mito y el orden en el que un equipo de ingeniería solvente debería abordar cada palanca.

#Por qué la visibilidad en AI ya no es opcional

En el primer trimestre de 2026, el tráfico mediado por AI es una fracción medible y creciente de los accesos cualificados en la mayoría de sitios con contenido relevante. ChatGPT Search está integrado en la barra de direcciones de Safari en iOS para quienes tienen la app instalada. Perplexity ha pasado de herramienta para power users a producto mainstream. Claude lee la web abierta a través de su herramienta de búsqueda. Google AI Overviews aparece en una gran parte de las búsquedas informativas en mercados anglófonos y se extiende a más idiomas cada trimestre.

La consecuencia económica es directa. Incluso cuando un prospecto acaba comprando, registrándose o reservando consulta por búsqueda clásica, su lista corta fue filtrada antes por un LLM. Si no entras en esa lista, no compites. El SEO clásico sigue importando porque alimenta la misma infraestructura de crawling que usan muchos sistemas de AI. Pero el SEO solo ya no basta.

#¿AI o LLMs? una nota terminológica

Ambos términos se usan en la práctica y la coherencia importa más que la elección. “Búsqueda con AI” es el término más amplio y orientado al usuario. Cubre chatbots, herramientas de RAG, AI Overviews y sistemas híbridos. “LLM” se refiere específicamente a los modelos de lenguaje que hay detrás. En esta guía usamos “AI” para la superficie de descubrimiento y “LLM” para la tecnología que la mueve. El objetivo de optimización es el mismo.

#El ecosistema de crawlers de AI

Antes de tocar código, sabe a quién estás optimizando. A abril de 2026, los principales user agents son:

GPTBot, OpenAI, entrenamiento y retrieval offline.
OAI-SearchBot, búsqueda en vivo de ChatGPT.
ChatGPT-User, peticiones bajo demanda disparadas por un prompt.
ClaudeBot y Claude-User, Anthropic.
PerplexityBot y Perplexity-User, Perplexity AI.
Google-Extended, control de opt-out para el entrenamiento de Gemini.
CCBot, Common Crawl, alimenta a muchos LLMs menores.
Applebot-Extended, opt-out para el entrenamiento de Apple Intelligence.
Bytespider, ByteDance.
Meta-ExternalAgent, Meta AI.

Ninguno ejecuta JavaScript. Todos respetan robots.txt. La mayoría se identifican con honestidad. Una parte recoge contenido en el instante en que el usuario envía el prompt, lo que reduce el ciclo de días a segundos.

#Lo que no funciona

El espacio GEO está lleno de folklore. La mayor parte carece de respaldo empírico.

Meta tags personalizados como <meta name="ai-content-url"> o <meta name="llms"> no tienen implementación conocida en ningún producto LLM en producción. Archivos como /.well-known/ai.txt y /ai.txt tienen propuestas competidoras y cero adopción. Los comentarios HTML dirigidos a bots son eliminados por todos los crawlers mainstream antes del procesamiento. Los conmutadores humano-o-AI exigen un clic, y los bots no hacen clic. El sniffing de user agent para servir contenido distinto a los LLMs vulnera la política de cloaking de Google y puede disparar acciones manuales. Las páginas dedicadas a AI no muestran trato diferenciado en citas. El JSON-LD y Schema.org puros los lee Microsoft Copilot a través de Bing y siguen influyendo en el SEO clásico, pero pruebas controladas muestran que ChatGPT, Claude y Perplexity ignoran en gran medida los datos estructurados al sintetizar respuestas.

El patrón se repite siempre. Alguien propone una especificación, escribe un post, y otros posts lo citan. Antes de adoptar una técnica GEO, pregúntate si hay prueba de consumo real o solo prueba de que la propuesta existe.

#Seis técnicas que sí funcionan

Ordenadas por impacto para un sitio de contenido típico.

#1. Audita primero el robots.txt

Ninguna otra cosa funciona si estás bloqueando a los crawlers sin querer. Muchos sitios heredaron reglas disallow agresivas del pánico de 2023 sobre entrenamiento de AI. Decidir a quién permites y a quién bloqueas es tu decisión, pero debe ser explícita. Una base razonable para un negocio que quiere visibilidad en AI:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

Si quieres visibilidad en ChatGPT sin que tu contenido sirva para entrenar modelos, permite OAI-SearchBot y ChatGPT-User y bloquea GPTBot. OpenAI documenta esta separación. Apple, Google y Anthropic ofrecen controles equivalentes.

#2. Sirve hermanos Markdown para cada página

El cambio técnico con mayor palanca de la lista. Expón una versión Markdown limpia de cada página en la misma URL con .md añadido, por ejemplo /blog/post y /blog/post.md. La versión Markdown elimina navegación, pies, scripts de analítica, banners de cookies y todo lo que infla tokens sin aportar información.

Mediciones independientes en varios sitios de contenido muestran de forma consistente reducciones de tokens del 70 al 85 por ciento cuando el Markdown sustituye al HTML renderizado. Un post de 15.000 tokens cae típicamente a 3.000. Importa porque, cuando un LLM descarga tu página para responder a un prompt, tiene un presupuesto de contexto finito. El contenido más pequeño y limpio cabe más íntegro y se cita con más fidelidad.

En Astro, Next.js o cualquier framework static-first, generar endpoints .md desde la misma content collection que alimenta la vista HTML es una mañana de trabajo. El Markdown debe incluir título, fecha de publicación, autor, un resumen breve, el cuerpo y las fuentes claramente marcadas.

#3. Anuncia la versión Markdown

Un crawler de LLM que aterriza en tu HTML necesita descubrir que existe un hermano Markdown. Dos mecanismos complementarios cubren las dos clases de clientes.

En la head del HTML:

<link rel="alternate" type="text/markdown" href="/blog/post.md" />

En la cabecera de respuesta HTTP:

Link: </blog/post.md>; rel="alternate"; type="text/markdown"

La etiqueta HTML llega a parsers que leen el DOM. La cabecera HTTP llega a agentes headless que hacen HEAD o GET y no parsean markup. Coste: una línea en el layout y una entrada en la configuración de cabeceras del CDN. Beneficio: los crawlers dejan de adivinar tu patrón de URL.

#4. Negociación de contenido en Accept: text/markdown

La negociación de contenido HTTP está en el estándar desde 1997. Cuando un cliente envía Accept: text/markdown, devuelve la representación Markdown desde la misma URL. Emparéjalo con Vary: Accept para que los CDNs cacheen cada representación correctamente. Claude Code, Cursor y varios agentes de investigación ya envían esta cabecera por defecto. La negociación de contenido es el estándar de largo plazo más probable porque no exige nuevas especificaciones y reutiliza la pila HTTP existente. En Cloudflare Workers la implementación cabe en menos de veinte líneas.

#5. Publica llms.txt y llms-full.txt

Dos archivos en la raíz del sitio hacen el trabajo.

/llms.txt es un índice Markdown curado. Lista las páginas más importantes agrupadas por tema con descripciones de una línea. Piénsalo como un README para un LLM al que le preguntaron por tu sitio.

/llms-full.txt concatena el contenido Markdown completo de tus páginas clave en un solo archivo. La analítica de varios editores muestra que recibe bastante más tráfico de LLM que el índice corto. Genera los dos en tiempo de build desde la misma content collection que ya mantienes y regenera en cada despliegue. Ningún gran proveedor de LLM se ha comprometido formalmente a leer estos archivos, pero aparecen en los logs con frecuencia suficiente para justificar el tiempo.

#6. Invierte en la calidad del contenido visible

La mayor palanca y la más olvidada. Los LLMs sintetizan respuestas ponderando frases candidatas de páginas que recuperan. Las frases con información concreta y atribuible pesan más que las afirmaciones vagas. “Los estudios muestran que la visibilidad en AI importa” es casi inútil. “Pruebas independientes en 2026 encontraron que las citas directas de expertos nombrados elevan la tasa de cita alrededor del 43 por ciento” es lo que se cita.

Tres movimientos elevan de forma consistente la tasa de cita en contenido antes poco citado:

Citas directas de expertos nombrados.
Estadísticas verificables con fuente claramente atribuida.
Enlaces salientes autoritativos a fuentes primarias.

Los tres son señales de contenido visibles. Ninguno está oculto. Para una agencia WordPress, una empresa SaaS o cualquier negocio con experiencia sectorial, la traducción práctica es: deja de escribir listados genéricos y empieza a escribir artículos que nombran versiones, fechas, personas y números concretos. Cita fuentes en el texto. Cita a tu equipo por nombre. Incluye el año y la versión de cada herramienta que menciones. Es buen periodismo y es GEO.

#Checklist combinado SEO y GEO para 2026

Rastreabilidad e indexación:

El robots.txt permite tanto a crawlers clásicos como a los user agents de AI en los que quieras ser visible.
Sitemap XML fresco y enviado a Google Search Console y Bing Webmaster Tools.
Enlazado interno con estructura temática clara. Hub and spoke o mapas temáticos.
Etiquetas canonical correctas en URLs duplicados o parametrizados.

On-page, sigue importando para personas y para el retrieval del LLM:

Títulos y H1 descriptivos y alineados con la intención, en sentence case.
Un H1 por página, jerarquía lógica de H2 y H3.
Meta descripciones escritas para personas, sin keyword stuffing.
Tipos Schema.org que encajen con el contenido, incluidos Article, FAQPage, Product, Organization, Person y HowTo.
Alt de imagen describiendo la imagen, no la palabra clave.

Core Web Vitals. Los crawlers de AI no ejecutan JavaScript, pero la búsqueda clásica sí:

LCP por debajo de 2,5 segundos en móvil.
CLS por debajo de 0,1.
INP por debajo de 200 milisegundos.

Específico de GEO:

Endpoints Markdown para cada página de contenido.
<link rel="alternate" type="text/markdown"> en cada layout.
Cabecera HTTP Link: a nivel de CDN.
Negociación de contenido en Accept: text/markdown.
/llms.txt y /llms-full.txt en la raíz, regenerados en cada despliegue.
Citas, fragmentos y estadísticas visibles en el propio contenido.
Entidades nombradas, incluidas personas, productos, empresas, versiones y fechas, usadas de forma consistente.

Medición:

Logging server-side de User-Agent y Referer en el edge.
Un dashboard que segmente el tráfico de crawlers de AI frente al humano y al de búsqueda clásica.
Prompts de prueba mensuales en ChatGPT, Claude, Perplexity y Gemini para seguir menciones de marca.

#Un orden de implementación pragmático

Para un sitio que no tiene nada de esto, trabaja en este orden. Cada paso aporta por sí solo.

Auditar y corregir el robots.txt. Sin esto nada funciona.
Añadir <link rel="alternate" type="text/markdown"> apuntando al futuro endpoint Markdown. Puede desplegarse antes de que el endpoint exista.
Construir la pipeline de renderizado Markdown. Empieza por el tipo de contenido con más tráfico y amplía.
Añadir la cabecera de respuesta Link: y negociación de contenido en Accept: text/markdown en el CDN.
Generar /llms.txt y /llms-full.txt desde la content collection en tiempo de build.
Reescribir los artículos bandera con entidades nombradas, citas directas y estadísticas con fuente. Trabajo editorial continuo y con mayor impacto a largo plazo.
Instrumentar analítica server-side para el tráfico de crawlers de AI.

Los pasos uno a cinco son ingeniería pura y caben en un sprint. El paso seis es editorial y compone a lo largo de trimestres. El paso siete te dice si algo de esto funcionó.

#Cómo medir la visibilidad en AI

La analítica tradicional no ve la mayor parte del tráfico de crawlers de AI. Al no ejecutar JavaScript, GA4 y Plausible se los pierden. Necesitas logging server-side.

Captura en el edge: User-Agent completo, cabecera Referer, ruta solicitada, status HTTP devuelto y tamaño de respuesta. Segmenta por patrones de user agent como GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Bytespider, CCBot, Applebot-Extended y Google-Extended para construir un dashboard semanal.

Complementa con tracking de menciones de marca. Una vez por semana, ejecuta un conjunto fijo de prompts en ChatGPT, Claude, Perplexity y Gemini y registra si se cita tu marca, en qué posición y con qué fragmento. Herramientas como Profound, Peec AI y Otterly automatizan ese trabajo. Una hoja de cálculo disciplinada cumple la misma función.

Si un crawler descarga tu endpoint Markdown pero tu marca nunca aparece en el set de citas, el contenido es alcanzable pero no competitivo. Vuelve a la palanca editorial.

#Objeciones frecuentes y respuestas honestas

¿Servir Markdown va a canibalizar mi tráfico SEO? No. Google indexa el HTML canónico. El hermano Markdown se anuncia como representación rel="alternate", lo que le dice a Google que no lo trate como duplicado.

¿Esto se va a abusar? Los LLMs evalúan candidatos a fuente por señales de confianza percibida, no por formato de archivo. Publicar Markdown no convierte contenido flojo en citable. La inversión protege del riesgo de ser ilegible, sin garantizar el retorno de ser citado.

¿Debo bloquear los crawlers de AI? Es una decisión de negocio. Si vives del tráfico directo, bloquear entrenamiento y permitir retrieval es un punto intermedio razonable. Si vives de la descubribilidad, no bloquees nada.

¿Cuánto tardan los resultados? La capa de ingeniería actúa en días, tan pronto como los crawlers vuelven a pasar. La capa editorial compone a lo largo de trimestres. Espera cambios medibles en las citas de AI entre cuatro y ocho semanas tras desplegar ambas capas a la vez.

#Una estrategia que envejece bien

El campo GEO es inestable. Cada mes aparece una norma propuesta, un crawler nuevo o un cambio en cómo uno de los grandes LLMs pondera las citas. La estrategia que envejece bien no es perseguir cada tendencia, sino invertir en la capa que cualquier sistema de retrieval necesita: contenido limpio, bien estructurado y rico en citas, entregado en un formato barato de procesar.

La fontanería técnica, es decir, hermanos Markdown, negociación de contenido y llms.txt, es coste de entrada. El trabajo editorial, es decir, entidades nombradas, citas directas, estadísticas verificables y fuentes autoritativas, es el foso. La competencia copia tu infraestructura en una semana. Cinco años de texto sustancioso firmado por expertos nombrados en tu empresa no los copia nadie.

Monta la fontanería una vez. Dedica el resto del tiempo a escribir cosas que merezca la pena citar.

Cómo hacer visible tu sitio para la AI y los LLMs

#Introducción

#Por qué la visibilidad en AI ya no es opcional

#¿AI o LLMs? una nota terminológica

#El ecosistema de crawlers de AI

#Lo que no funciona

#Seis técnicas que sí funcionan

#1. Audita primero el robots.txt

#2. Sirve hermanos Markdown para cada página

#3. Anuncia la versión Markdown

#4. Negociación de contenido en Accept: text/markdown

#5. Publica llms.txt y llms-full.txt

#6. Invierte en la calidad del contenido visible

#Checklist combinado SEO y GEO para 2026

#Un orden de implementación pragmático

#Cómo medir la visibilidad en AI

#Objeciones frecuentes y respuestas honestas

#Una estrategia que envejece bien

Transforma el artículo en una implementación real

Próximos pasos más relevantes

¿Quieres implementar esto en tu sitio?

Explora otros servicios WordPress y base de conocimiento

Categorías relacionadas

Artículos de apoyo

Preguntas Frecuentes

Artículos Relacionados

Schema.org para Búsqueda IA: Como Aparecer en ChatGPT, Perplexity y Google AI Mode

Core Web Vitals 2026: La Guia Completa de Optimización INP para WordPress

Experimento Hidden Gems de WordPress: revolucionando el descubrimiento de plugins

Mariusz Szatkowski