Einleitung
Ihre Website rankt bei Google. Die Core Web Vitals sind grün. Das Schema validiert. Und trotzdem taucht Ihre Marke nicht auf, wenn jemand ChatGPT, Claude, Perplexity oder Google AI Overviews zu Ihrer Branche befragt. Genau diese Lücke zwischen klassischem SEO und dem, was AI-Suchmaschinen tatsächlich zitieren, löst Generative Engine Optimization.
GEO ersetzt kein SEO. Es ist eine parallele Disziplin. Der Fokus liegt darauf, wie große Sprachmodelle Inhalte abrufen, interpretieren und zitieren, nicht darauf, wie Such-Crawler sie indexieren und ranken. Die Techniken überschneiden sich teilweise, divergieren an anderer Stelle, und das Feld bewegt sich schneller als jede veröffentlichte Norm. Dieser Leitfaden sammelt, was in der Praxis wirkt, was Mythos ist und in welcher Reihenfolge ein fähiges Engineering-Team die einzelnen Hebel angeht.
Warum AI-Sichtbarkeit kein Nice-to-have mehr ist
Zum Q1 2026 ist AI-vermittelter Traffic bei den meisten informationsreichen Sites ein messbarer und wachsender Anteil qualifizierter Zugriffe. ChatGPT Search ist für Nutzer mit installierter App in die iOS-Adressleiste eingebettet. Perplexity hat den Sprung vom Power-User-Tool zum Mainstream-Produkt geschafft. Claude liest das offene Web über sein Such-Tool. Google AI Overviews erscheinen bei einem großen Anteil informationeller Anfragen in englischsprachigen Märkten und rollen quartalsweise in weitere Sprachen aus.
Die wirtschaftliche Folge ist klar. Selbst wenn ein Interessent am Ende über klassische Suche kauft, registriert oder bucht, wurde seine Shortlist zuvor von einem LLM gefiltert. Wer nicht auf dieser Liste steht, spielt nicht mit. Klassisches SEO bleibt relevant, weil es dieselbe Crawling-Infrastruktur speist, die viele AI-Systeme nutzen. Aber SEO allein reicht nicht mehr.
AI oder LLMs: eine Bemerkung zur Terminologie
Beide Begriffe sind gebräuchlich und die Konsistenz ist wichtiger als die Wahl. “AI-Suche” ist der breitere, nutzerorientierte Ausdruck. Er umfasst Chatbots, RAG-Werkzeuge, AI Overviews und hybride Systeme. “LLMs” meint konkret die zugrunde liegenden Sprachmodelle. In diesem Leitfaden steht “AI” für die Entdeckungsoberfläche und “LLMs” für die Technik dahinter. Das Optimierungsziel bleibt dasselbe.
Das Ökosystem der AI-Crawler
Bevor Sie Code anfassen, wissen Sie, für wen Sie optimieren. Stand April 2026 sind die wichtigsten User-Agents:
GPTBot, OpenAI, Training und Offline-Retrieval.OAI-SearchBot, ChatGPT Live-Suche.ChatGPT-User, On-demand-Abrufe, ausgelöst durch einen Nutzer-Prompt.ClaudeBotundClaude-User, Anthropic.PerplexityBotundPerplexity-User, Perplexity AI.Google-Extended, die Opt-out-Steuerung für Gemini-Training.CCBot, Common Crawl, speist viele kleinere LLMs.Applebot-Extended, Opt-out für Apple-Intelligence-Training.Bytespider, ByteDance.Meta-ExternalAgent, Meta AI.
Keiner davon führt JavaScript aus. Alle respektieren robots.txt. Die meisten identifizieren sich ehrlich. Ein Teil holt Inhalte genau in dem Moment, in dem der Nutzer den Prompt absetzt, was den Zyklus von Tagen auf Sekunden verkürzt.
Was nicht funktioniert
Die GEO-Szene ist voller Folklore. Das meiste hat keine empirische Stütze.
Eigene Meta-Tags wie <meta name="ai-content-url"> oder <meta name="llms"> haben keine bekannte Implementierung in irgendeinem ausgelieferten LLM-Produkt. Dateien wie /.well-known/ai.txt und /ai.txt haben konkurrierende Vorschläge und null Adoption. HTML-Kommentare für Bots werden von jedem gängigen Crawler vor der Verarbeitung entfernt. Mensch-oder-AI-Umschalter erfordern einen Klick, und Bots klicken nicht. User-Agent-Sniffing, um LLMs andere Inhalte auszuspielen, verletzt Googles Cloaking-Richtlinie und kann manuelle Strafen auslösen. Dedizierte “AI-Infoseiten” zeigen kein differenzierendes Verhalten in Zitationsdaten. Reines JSON-LD und Schema.org wird von Microsoft Copilot über Bing gelesen und beeinflusst weiterhin klassisches SEO, aber kontrollierte Tests zeigen, dass ChatGPT, Claude und Perplexity strukturierte Daten bei der Antwortsynthese weitgehend ignorieren.
Das Muster ist immer dasselbe. Jemand schlägt eine Spezifikation vor, schreibt einen Blogpost, und andere Blogposts zitieren diesen einen. Bevor Sie eine GEO-Technik übernehmen, fragen Sie, ob es Belege für echten Konsum gibt oder nur für die Existenz des Vorschlags.
Sechs Techniken, die wirklich wirken
Sortiert nach Impact für typische inhaltsreiche Sites.
1. Zuerst robots.txt prüfen
Nichts anderes wirkt, wenn Sie versehentlich die Crawler sperren. Viele Sites haben aggressive Disallow-Regeln aus der Panik von 2023 um AI-Training geerbt. Wen Sie zulassen und wen Sie sperren, entscheiden Sie, aber es sollte bewusst geschehen. Ein sinnvoller Standard für Unternehmen, die AI-Sichtbarkeit wollen:
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
Wollen Sie Sichtbarkeit in ChatGPT, aber keine Nutzung Ihrer Inhalte für das Training, erlauben Sie OAI-SearchBot und ChatGPT-User und sperren GPTBot. OpenAI dokumentiert diese Trennung. Apple, Google und Anthropic bieten analoge Steuerungen.
2. Markdown-Geschwister für jede Seite
Die hebelstärkste technische Änderung der Liste. Stellen Sie zu jeder Seite unter derselben URL mit angehängtem .md eine saubere Markdown-Fassung bereit, etwa /blog/post und /blog/post.md. Die Markdown-Version wirft Navigation, Footer, Analytics-Snippets, Cookie-Banner und alles andere raus, was Tokens aufbläht, ohne Information beizusteuern.
Unabhängige Messungen über mehrere Content-Sites zeigen konsistent Token-Reduktionen im Bereich von 70 bis 85 Prozent, wenn Markdown gerenderten HTML ersetzt. Ein Blogpost von 15.000 Tokens sinkt typischerweise auf 3.000. Das zählt, weil ein LLM, das Ihre Seite zur Beantwortung eines Prompts abruft, ein endliches Kontextbudget hat. Kleinere, sauberere Inhalte passen vollständiger hinein und werden treuer zitiert.
Auf Astro, Next.js oder jedem static-first Framework ist die Erzeugung von .md-Endpunkten aus derselben Content Collection, die auch die HTML-Ansicht speist, ein halber Arbeitstag. Die Markdown-Fassung sollte Titel, Veröffentlichungsdatum, Autor, eine kurze Zusammenfassung, den Haupttext und klar markierte Quellen enthalten.
3. Die Markdown-Version bekannt machen
Ein LLM-Crawler, der auf Ihrer HTML-Seite landet, muss erkennen, dass ein Markdown-Geschwister existiert. Zwei komplementäre Mechanismen decken die zwei Klassen von Clients ab.
Im HTML-Head:
<link rel="alternate" type="text/markdown" href="/blog/post.md" />
Im HTTP-Response-Header:
Link: </blog/post.md>; rel="alternate"; type="text/markdown"
Das HTML-Tag erreicht Parser, die das DOM lesen. Der HTTP-Header erreicht Headless-Agenten, die HEAD oder GET absetzen und kein Markup parsen. Die Kosten sind eine Zeile im Layout und ein Eintrag in den CDN-Headern. Der Gewinn: Crawler müssen Ihr URL-Schema nicht mehr raten.
4. Content Negotiation auf Accept: text/markdown
HTTP Content Negotiation steht seit 1997 im Standard. Sendet ein Client Accept: text/markdown, geben Sie die Markdown-Repräsentation von derselben URL zurück. Kombinieren Sie mit Vary: Accept, damit CDNs jede Repräsentation korrekt cachen. Claude Code, Cursor und mehrere Research-Agenten senden diesen Header bereits standardmäßig. Content Negotiation ist der wahrscheinlich dauerhafteste Standard, weil sie keine neuen Spezifikationen braucht und den bestehenden HTTP-Stack nutzt. In Cloudflare Workers passt die Implementierung in unter zwanzig Zeilen.
5. llms.txt und llms-full.txt veröffentlichen
Zwei Dateien im Site-Root erledigen die Arbeit.
/llms.txt ist ein kuratierter Markdown-Index. Er listet die wichtigsten Seiten, nach Thema gruppiert, mit einzeiligen Beschreibungen. Denken Sie daran als README für ein LLM, das nach Ihrer Site gefragt wurde.
/llms-full.txt fasst den vollen Markdown-Inhalt Ihrer Kernseiten in einer Datei zusammen. Analytics über verschiedene Publisher zeigen, dass diese Datei spürbar mehr LLM-Traffic bekommt als der kurze Index. Beide zum Buildzeitpunkt aus derselben Content Collection generieren und bei jedem Deploy neu erzeugen. Kein großer LLM-Anbieter hat sich formal zum Lesen verpflichtet, aber die Dateien erscheinen häufig genug in Server-Logs, um den Aufwand zu rechtfertigen.
6. In sichtbare Inhaltsqualität investieren
Der größte und meist übersehene Hebel. LLMs synthetisieren Antworten, indem sie Kandidatensätze aus abgerufenen Seiten gewichten. Sätze mit konkreten, zuordenbaren Informationen bekommen höheres Gewicht als vage Aussagen. “Studien zeigen, dass AI-Sichtbarkeit wichtig ist” ist fast nutzlos. “Unabhängige Tests 2026 zeigten, dass direkte Zitate namentlich genannter Experten die Zitierquote um rund 43 Prozent steigern” wird zitiert.
Drei Maßnahmen erhöhen die Zitierquote verlässlich bei zuvor schwach zitierten Inhalten:
- Direkte Zitate namentlich genannter Experten.
- Nachprüfbare Statistiken mit klar zugeordneter Quelle.
- Autoritative externe Verweise auf Primärquellen.
Alle drei Signale sind sichtbar. Keines ist versteckt. Für eine WordPress-Agentur, ein SaaS-Unternehmen oder jeden Betrieb mit Fachexpertise lautet die praktische Übersetzung: hören Sie auf, generische Listicles zu schreiben, und schreiben Sie stattdessen Artikel, die konkrete Versionen, Daten, Personen und Zahlen nennen. Zitieren Sie Quellen inline. Zitieren Sie Ihr Team namentlich. Nennen Sie Jahr und Version jedes Tools, das Sie erwähnen. Guter Journalismus. Und es ist GEO.
Kombinierte SEO- und GEO-Checkliste für 2026
Crawlbarkeit und Indexierung:
- robots.txt erlaubt sowohl klassische Such-Crawler als auch die AI-User-Agents, bei denen Sie sichtbar sein wollen.
- XML-Sitemap ist aktuell und in Google Search Console sowie Bing Webmaster Tools eingereicht.
- Interne Verlinkung folgt einer klaren thematischen Struktur: Hub and Spoke oder Topical Maps.
- Canonical-Tags sind bei duplizierten oder parametrisierten URLs korrekt.
On-Page, weiter relevant für Menschen und für LLM-Retrieval:
- Aussagekräftige, keywordinformierte Titel und H1 in Sentence Case.
- Ein H1 pro Seite, logische H2- und H3-Hierarchie.
- Meta-Descriptions für Menschen geschrieben, nicht überstopft.
- Schema.org-Typen, die zum Inhalt passen, etwa Article, FAQPage, Product, Organization, Person, HowTo.
- Alt-Texte, die das Bild beschreiben, nicht das Keyword.
Core Web Vitals. AI-Crawler führen kein JavaScript aus, klassische Suche schon:
- LCP unter 2,5 Sekunden mobil.
- CLS unter 0,1.
- INP unter 200 Millisekunden.
GEO-spezifisch:
- Markdown-Endpunkte für jede Content-Seite.
<link rel="alternate" type="text/markdown">in jedem Layout.Link:-HTTP-Header auf CDN-Ebene.- Content Negotiation auf
Accept: text/markdown. /llms.txtund/llms-full.txtim Site-Root, bei jedem Deploy regeneriert.- Sichtbare Quellen, Zitate und Statistiken im Inhalt selbst.
- Konsistent verwendete Named Entities: Personen, Produkte, Firmen, Versionen, Daten.
Messung:
- Server-seitiges Logging von User-Agent und Referer am Edge.
- Ein Dashboard, das AI-Crawler-Traffic von menschlichem und klassischem Such-Traffic trennt.
- Monatliche Testprompts in ChatGPT, Claude, Perplexity und Gemini für Marken-Mentions.
Pragmatische Umsetzungsreihenfolge
Für eine Site, die bisher nichts davon hat, arbeiten Sie in dieser Reihenfolge. Jeder Schritt hat für sich Wert.
- robots.txt auditieren und korrigieren. Ohne das wirkt nichts anderes.
<link rel="alternate" type="text/markdown">ergänzen und auf den künftigen Markdown-Endpunkt zeigen. Sie können das vor der Implementierung ausliefern.- Die Markdown-Rendering-Pipeline bauen. Mit dem Content-Typ mit dem höchsten Traffic beginnen und ausrollen.
- Den
Link:-Header und Content Negotiation aufAccept: text/markdownam CDN einrichten. /llms.txtund/llms-full.txtzum Buildzeitpunkt aus der Content Collection erzeugen.- Flagship-Artikel überarbeiten: Named Entities, direkte Zitate, belegte Statistiken. Redaktionelle Daueraufgabe mit dem höchsten Langfristeffekt.
- Server-seitige Analytics für AI-Crawler-Traffic instrumentieren.
Die Schritte eins bis fünf sind reines Engineering und passen in einen Sprint. Schritt sechs ist Redaktion und verzinst sich über Quartale. Schritt sieben sagt Ihnen, ob irgendetwas davon gewirkt hat.
Wie man AI-Sichtbarkeit misst
Klassische Analytics sieht den meisten AI-Crawler-Traffic nicht. Weil die Crawler kein JavaScript ausführen, bleiben sie bei GA4 und Plausible komplett unsichtbar. Sie brauchen Server-side-Logging.
Am Edge erfassen: vollständiger User-Agent, Referer-Header, angefragter Pfad, zurückgegebener HTTP-Status, Response-Größe. Nach User-Agent-Mustern segmentieren, etwa GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Bytespider, CCBot, Applebot-Extended und Google-Extended, und daraus ein wöchentliches Dashboard bauen.
Ergänzen Sie das durch Brand-Mention-Tracking. Einmal pro Woche ein festes Prompt-Set in ChatGPT, Claude, Perplexity und Gemini laufen lassen und protokollieren, ob Ihre Marke zitiert wurde, an welcher Position und mit welchem Textausschnitt. Tools wie Profound, Peec AI und Otterly automatisieren das. Eine disziplinierte Tabelle funktioniert ebenso.
Holt ein Crawler zwar Ihren Markdown-Endpunkt ab, Ihre Marke taucht aber nie im Zitationsset auf, dann ist der Inhalt erreichbar, aber nicht wettbewerbsfähig. Zurück zum redaktionellen Hebel.
Häufige Einwände und ehrliche Antworten
Kannibalisiert Markdown meinen SEO-Traffic? Nein. Google indexiert den HTML-Canonical. Die Markdown-Fassung wird als rel="alternate"-Repräsentation angekündigt, was Google signalisiert, sie nicht als Duplikat zu werten.
Wird das alles nicht missbraucht? LLMs bewerten Kandidatenquellen nach Vertrauenssignalen, nicht nach Dateiformat. Markdown zu veröffentlichen macht dünnen Inhalt nicht zitierbar. Die Investition schützt vor dem Abwärtsrisiko unlesbar zu sein, ohne das Aufwärts einer Zitation zu garantieren.
Soll ich AI-Crawler blockieren? Geschäftsentscheidung, keine technische. Wenn Direkt-Traffic Ihr Umsatz ist, sind Trainingsblockade plus Retrieval-Zulassung ein sinnvoller Mittelweg. Wenn Entdeckbarkeit Ihr Umsatz ist, blockieren Sie nichts.
Wann sehen wir Ergebnisse? Die Engineering-Schicht wirkt binnen Tagen, sobald die Crawler neu abrufen. Die redaktionelle Schicht verzinst sich über Quartale. Erwarten Sie messbare Veränderungen in AI-Zitationen vier bis acht Wochen nach gemeinsamem Rollout beider Schichten.
Eine langlebige Strategie
Das GEO-Feld ist instabil. Jeden Monat neue vorgeschlagene Standards, neue Crawler oder eine Gewichtungsänderung bei einem der großen LLMs. Die langlebige Strategie ist nicht das Hinterherlaufen, sondern die Investition in die Schicht, die jedes Retrieval-System braucht: saubere, gut strukturierte, zitationsreiche Inhalte in einem Format, das günstig zu verarbeiten ist.
Die technische Installation, also Markdown-Geschwister, Content Negotiation und llms.txt, ist Einsatz. Die redaktionelle Arbeit, also Named Entities, direkte Zitate, belegte Statistiken und autoritative Quellen, ist der Graben. Ihre Infrastruktur kopiert die Konkurrenz in einer Woche. Fünf Jahre substanzielle Texte namentlich genannter Experten aus Ihrem Haus kopiert niemand.
Installieren Sie die Infrastruktur einmal. Verbringen Sie die restliche Zeit damit, Dinge zu schreiben, die zitiert werden wollen.



