ChatGPT-Crawler: OpenAI-Bots, Logfiles und KI-Sichtbarkeit

Warum diese Logfile-Studie für KI-Sichtbarkeit wichtig ist

Eine gemeinsame Auswertung von Botify und Nectiv liefert einen der bislang konkretesten Einblicke in die Frage, wie OpenAI mit dem offenen Web interagiert. Analysiert wurden rund 7 Milliarden OpenAI-Bot-Logevents aus Botifys Enterprise-Datensatz im Zeitraum November 2024 bis März 2026. Im Mittelpunkt stehen drei User Agents, die häufig unter dem Sammelbegriff ChatGPT-Crawler landen, in Wahrheit aber sehr unterschiedliche Aufgaben haben: OAI-SearchBot, GPTBot und ChatGPT-User.

Das macht die Studie für SEO-Teams, Content-Verantwortliche und technische Entscheider relevant. Seit dem Aufstieg von ChatGPT, Perplexity, Gemini und Claude wird viel über GEO, AEO oder LLMO gesprochen. Oft klingt es so, als brauche es eine völlig neue Disziplin, die mit klassischem SEO kaum noch etwas zu tun hat. Die Daten sprechen nuancierter: ChatGPT-Sichtbarkeit entsteht nicht durch magische Prompt-Tricks, sondern durch crawlbare Inhalte, klare technische Signale, stabile URL-Strukturen und Content, der maschinell gut verstanden werden kann.

Gleichzeitig ist die Studie kein neutraler Gesamtblick auf das komplette Web. Botify arbeitet vor allem mit größeren Enterprise-Websites aus Bereichen wie Retail, E-Commerce, Software, Verlage, Travel und Marketplaces. Das Sample ist sehr groß, aber es ist kein repräsentativer Querschnitt vom kleinen lokalen Blog bis zum globalen Konzern. Deshalb sollte man die relativen Trends ernst nehmen, die absoluten Zahlen aber nicht ungefiltert auf jede kleine Nischenwebsite übertragen.

Die Kerndaten: OpenAI crawlt seit GPT-5 deutlich mehr

Der auffälligste Befund: OpenAIs automatisierte Crawl-Aktivität ist nach dem Start von GPT-5 im August 2025 in Botifys Datensatz ungefähr auf das Dreifache gestiegen. Search Engine Journal fasst die Auswertung so zusammen: OAI-SearchBot erzeugte nach August 2025 etwa 3,5-mal mehr Events, was im Datensatz rund 2,2 Milliarden zusätzlichen Events entspricht. GPTBot legte im selben Zeitraum um etwa 2,9x zu, also um weitere rund 1,8 Milliarden Events.

Vor GPT-5 lagen OAI-SearchBot und GPTBot im Botify-Datensatz fast gleichauf. Danach verschob sich das Verhältnis: Der Suchcrawler erzeugt inzwischen mehr Logevents als der Trainingscrawler. Botify nennt für die Relation OAI-SearchBot zu GPTBot vor GPT-5 etwa 0,95 und nach GPT-5 etwa 1,14. Das ist keine Kleinigkeit. Es bedeutet, dass OpenAI in diesem Datensatz mehr Aktivität in Richtung Suche und Antwort-Grounding zeigt als in Richtung reines Trainingscrawling.

Der dritte gemessene Agent, ChatGPT-User, bewegte sich dagegen in die Gegenrichtung. Zwischen Dezember 2025 und März 2026 sank sein Event-Volumen in der Auswertung um 28 Prozent. Das darf man nicht simpel als sinkende ChatGPT-Nutzung lesen. ChatGPT-User misst vor allem nutzerinitiierte Abrufe, wenn ChatGPT eine konkrete Seite auf Wunsch eines Nutzers besucht oder eine Aktion ausführt. Wenn OpenAI mehr auf gespeicherte oder indexierte Ressourcen zurückgreift, kann dieser Live-Fetch auch dann fallen, wenn die eigentliche ChatGPT-Nutzung stabil bleibt oder steigt.

Der wichtigste Bot heißt OAI-SearchBot

Laut offizieller OpenAI-Crawler-Dokumentation ist OAI-SearchBot für Suche zuständig. OpenAI schreibt, dass dieser Bot verwendet wird, um Websites in Suchergebnissen innerhalb von ChatGPTs Search-Features sichtbar zu machen. Sites, die OAI-SearchBot blockieren, werden laut Dokumentation nicht in ChatGPT-Suchantworten angezeigt, können aber weiterhin als Navigationslinks erscheinen.

Die aktuelle Dokumentation nennt als vollständigen User-Agent-String: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot. Die veröffentlichten IP-Bereiche stehen unter https://openai.com/searchbot.json. Wer Logfiles auswertet, sollte sich nicht nur auf den User Agent verlassen, sondern die IP gegen diese Liste prüfen, weil User-Agent-Spoofing trivial ist.

OAI-SearchBot ist damit der Bot, der für klassische Sichtbarkeit in ChatGPT Search am meisten zählt. GPTBot kann langfristig beeinflussen, welche Inhalte in Modelltraining einfließen. ChatGPT-User kann einzelne Nutzeraktionen auslösen. Aber wenn es darum geht, ob eine Seite in ChatGPTs Suchantworten als Quelle auftauchen kann, ist OAI-SearchBot der zentrale Hebel. Die starke Zunahme seit GPT-5 legt nahe, dass OpenAI den eigenen Such- und Indexierungsapparat deutlich ausbaut.

GPTBot bleibt wichtig, aber mit anderer Aufgabe

GPTBot ist nicht der ChatGPT-Suchcrawler. OpenAI beschreibt GPTBot als Crawler für Inhalte, die für das Training generativer Foundation Models verwendet werden können. Wer GPTBot erlaubt, signalisiert also nicht in erster Linie: Zeige mich in ChatGPT Search. Er signalisiert: Meine Inhalte dürfen für Trainingszwecke gecrawlt werden. Wer GPTBot in robots.txt disallowt, gibt laut OpenAI an, dass Inhalte nicht für das Training generativer Foundation Models verwendet werden sollen.

Die aktuelle OpenAI-Dokumentation nennt für GPTBot den User-Agent-String: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot. Die offizielle IP-Liste steht unter https://openai.com/gptbot.json. Das ist eine wichtige Korrektur zu älteren Zusammenfassungen, in denen noch GPTBot/1.1 genannt wird. Für operative Regeln in Firewalls, Logs und Bot-Managern sollte man immer die aktuelle Dokumentation heranziehen.

Strategisch ist GPTBot besonders für Verlage, Datenanbieter, Beratungen, Softwareanbieter und Marken relevant. Manche Unternehmen wollen in künftigen Modellgenerationen präsent sein und lassen GPTBot bewusst zu. Andere, vor allem Publisher mit exklusiven Inhalten oder Paywalls, blockieren Trainingscrawling. OpenAI erlaubt diese Trennung explizit: Man kann OAI-SearchBot erlauben, um in Suchantworten aufzutauchen, und GPTBot blockieren, um Trainingsnutzung zu verhindern.

ChatGPT-User ist kein automatischer Suchcrawler

ChatGPT-User ist der Sonderfall. OpenAI schreibt, dass dieser User Agent für bestimmte Nutzeraktionen in ChatGPT und Custom GPTs verwendet wird. Wenn ein Nutzer ChatGPT bittet, eine Webseite zu besuchen, oder wenn eine externe Anwendung über GPT Actions involviert ist, kann ChatGPT-User auftauchen. OpenAI stellt zugleich klar, dass ChatGPT-User nicht für automatisches Webcrawling verwendet wird und nicht entscheidet, ob Inhalte in Search erscheinen.

Der dokumentierte User-Agent-String lautet: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot. Die IP-Liste steht unter https://openai.com/chatgpt-user.json. In der Praxis sollte man ChatGPT-User nicht wie einen klassischen Suchbot behandeln. Er ist näher an einer user-getriggerten Aktion als an einem Indexcrawler. OpenAI weist zudem darauf hin, dass robots.txt-Regeln bei solchen nutzerinitiierten Aktionen möglicherweise nicht greifen.

Der Rückgang von ChatGPT-User um 28 Prozent in der Botify-Analyse ist deshalb kein Beweis für sinkende ChatGPT-Nutzung. Botify und Chris Long nennen zwei plausible Lesarten: Entweder werden weniger Live-Fetches durch Nutzeraktionen ausgelöst, oder OpenAI kann mehr Anfragen aus einem vorhandenen Index beziehungsweise Cache beantworten. Für Website-Betreiber ist die zweite Lesart besonders wichtig: Wenn der Index wichtiger wird, muss die Website systematisch von OAI-SearchBot erreichbar sein.

Robots.txt wird zur strategischen Schnittstelle

Die wichtigste praktische Erkenntnis aus der OpenAI-Dokumentation ist die Unabhängigkeit der Einstellungen. OAI-SearchBot und GPTBot können getrennt in robots.txt gesteuert werden. OpenAI nennt selbst das Beispiel: Ein Webmaster kann OAI-SearchBot erlauben, um in Search-Ergebnissen aufzutauchen, und GPTBot blockieren, um Trainingsnutzung auszuschließen. Wenn beide Bots erlaubt sind, kann OpenAI laut Dokumentation die Ergebnisse eines einzigen Crawls für beide Zwecke nutzen, um doppelte Crawls zu vermeiden.

Ein häufig sinnvoller Mittelweg für Content-Websites, die Sichtbarkeit in ChatGPT Search wollen, aber Trainingsnutzung begrenzen möchten, sieht deshalb so aus: OAI-SearchBot erlauben, GPTBot disallowen und ChatGPT-User für nutzerinitiierte Aktionen nicht hart blockieren. Das ist keine universelle Empfehlung. Eine Nachrichtenmarke mit Paywall, ein Datenanbieter mit Lizenzmodell oder eine Plattform mit sensiblen Profilseiten kann zu einer strengeren Regel kommen. Eine B2B-Marke, die möglichst stark in künftigen Modellantworten präsent sein will, kann GPTBot bewusst zulassen.

Wichtig ist: robots.txt ist kein einmaliges Setup, sondern ein Governance-Thema. OpenAI dokumentiert, dass es für Search ungefähr 24 Stunden dauern kann, bis robots.txt-Änderungen in den Systemen berücksichtigt werden. Wer Tests macht, sollte also nicht nach zehn Minuten falsche Schlüsse ziehen. Außerdem gehören Bot-Regeln, CDN-Regeln, WAF-Regeln und Hosting-Firewall zusammen betrachtet. Eine robots.txt, die OAI-SearchBot erlaubt, hilft wenig, wenn Cloudflare, Akamai oder eine eigene Firewall die veröffentlichten IP-Ranges blockiert.

Branchen zeigen sehr unterschiedliche Crawl-Muster

Die Botify-Auswertung zeigt nicht nur einen allgemeinen Anstieg, sondern starke Unterschiede nach Branche. Laut Search Engine Journal sahen Healthcare-Sites nach GPT-5 etwa 740 Prozent mehr OAI-SearchBot-Aktivität. Media und Publishing lagen bei rund 702 Prozent. Marketplaces, Software und Retail bewegten sich im Bereich von etwa 190 bis 216 Prozent. Travel hatte mit rund 30 Prozent den kleinsten Anstieg.

Die naheliegende Interpretation: OpenAI behandelt nicht alle Themen gleich. News, aktuelle Ereignisse und Publishing-Inhalte müssen frisch sein, weil falsche Aktualität sofort auffällt. Deshalb ist es plausibel, dass Media und Publishing besonders stark über Suchcrawling laufen. Gesundheitsinhalte sind ebenfalls sensibel, aber Botifys Verhältniswerte deuten dort auf relativ mehr Trainings- als Suchaktivität hin. Retail und E-Commerce zeigen in der Auswertung ebenfalls mehr Gewicht bei GPTBot als bei OAI-SearchBot.

Für die Praxis heißt das: Eine allgemeine KI-Sichtbarkeitsstrategie reicht nicht. Eine News-Seite muss sehr stark auf Aktualität, Indexierbarkeit, strukturierte Artikelinformationen und saubere Quellen achten. Eine Healthcare-Seite braucht zusätzlich Autorität, fachliche Attribution, medizinische Sorgfalt und klare Aktualisierungsdaten. Ein Shop muss Produktdaten, Verfügbarkeit, Varianten, Preise und Canonicals sauber halten. Die Crawler sind dieselben, aber die Relevanzsignale unterscheiden sich je nach Suchintention und Branche.

Logfiles sind die einzige Quelle der Wahrheit

Wer wissen will, ob ChatGPT-Crawler die eigene Website wirklich erreichen, kommt an Logfiles nicht vorbei. Rank-Tracker, Sichtbarkeitsindizes und AI-Monitoring-Tools können Hinweise liefern, aber sie sehen nicht, was ein Bot auf Serverebene getan hat. Nur Server-Logs zeigen, welcher User Agent welche URL abgerufen hat, welchen Status-Code die Anfrage bekam, wie lange die Antwort dauerte und ob bestimmte Pfade wiederholt oder gar nicht gecrawlt wurden.

Eine sinnvolle Auswertung trennt mindestens vier Ebenen: Bot-Identifikation, URL-Muster, technische Antwort und Zeitverlauf. Zuerst werden User Agents gesammelt und gegen die offiziellen IP-Listen validiert. Dann sieht man, ob OAI-SearchBot vor allem Startseiten, Blogposts, Produktseiten, PDFs, Sitemaps oder alte 404-URLs abruft. Danach werden Status-Codes, Weiterleitungen, Timeouts und 5xx-Fehler betrachtet. Zum Schluss schaut man, ob sich die Frequenz nach technischen Änderungen, neuen Artikeln oder robots.txt-Anpassungen verändert.

Gerade für KI-Sichtbarkeit ist diese Analyse wichtiger als im klassischen SEO. Google bietet Search Console, Crawl-Statistiken, Indexierungsberichte und URL-Inspection. OpenAI bietet für ChatGPT Search derzeit kein vergleichbares Webmaster-Tool. Wer nicht in die Logs schaut, sieht nur das Ergebnis: Die Seite wird zitiert oder nicht. Die Ursache bleibt unsichtbar. Logfile-Analyse schließt diese Lücke und verhindert, dass Teams Content optimieren, obwohl eigentlich ein Rendering-, Firewall- oder robots.txt-Problem vorliegt.

JavaScript bleibt das größte technische Risiko

Die Studie selbst ist vor allem eine Logfile-Analyse. Für die Rendering-Frage ist deshalb zusätzliche Evidenz wichtig. Eine Analyse von Vercel und MERJ zeigte bereits Ende 2024, dass große AI-Crawler, darunter OAI-SearchBot, ChatGPT-User und GPTBot, JavaScript nicht wie Googlebot rendern. Sie können JavaScript-Dateien abrufen, aber clientseitig gerenderte Inhalte nicht verlässlich lesen.

Das ist für moderne Websites entscheidend. Eine React-, Vue- oder Angular-App kann im Browser perfekt aussehen und für einen Bot trotzdem fast leer sein, wenn der eigentliche Content erst nach Hydration im Client entsteht. Aus Nutzersicht ist alles da. Aus Crawler-Sicht kommt nur ein HTML-Skelett mit App-Root, Script-Tags und vielleicht einigen Meta-Tags. Für ChatGPT Search ist das ein massives Problem, weil OAI-SearchBot Inhalte aus dem abrufbaren HTML und nicht aus einer vollständig gerenderten Browseransicht verstehen muss.

Die technische Reihenfolge ist deshalb klar: Erst sicherstellen, dass Hauptinhalt, Title, Description, Canonical, Hreflang, interne Links und strukturierte Daten serverseitig im initialen HTML stehen. Danach kann man interaktive Features clientseitig anreichern. SSR, SSG, ISR oder Prerendering sind keine kosmetischen Architekturentscheidungen mehr. Sie entscheiden darüber, ob AI-Crawler die Inhalte sehen, die Menschen im Browser sehen.

Strukturierte Daten helfen Maschinen beim Verstehen

JSON-LD ist kein Zaubertrick, aber ein sehr praktischer Verständnisverstärker. Wenn ein Crawler im HTML einen sauberen Article-, NewsArticle-, BlogPosting-, FAQPage-, HowTo-, Product-, Organization- oder Person-Block findet, muss er weniger aus Fließtext erschließen. Er sieht explizit, was die Seite ist, wer der Autor ist, wann sie veröffentlicht oder aktualisiert wurde, welche Fragen beantwortet werden und welche Entitäten zusammengehören.

Wichtig ist die Auslieferung. Strukturierte Daten müssen im initialen HTML stehen. Werden sie erst durch einen Tag Manager oder eine clientseitige JavaScript-Komponente injiziert, ist die Chance groß, dass AI-Crawler sie nicht sehen. Der einfache Test lautet: Wenn ein curl-Aufruf oder View-Source das JSON-LD nicht zeigt, sollte man nicht davon ausgehen, dass OAI-SearchBot es sieht. Für Frameworks bedeutet das: Schema-Generierung gehört in Server-Komponenten, Build-Prozesse oder Template-Rendering, nicht in späte Client-Hydration.

Für KI-Antworten sind vor allem Strukturen wertvoll, die zu typischen Antwortformaten passen. FAQPage bildet Frage-Antwort-Paare ab. HowTo beschreibt Schritte. Article liefert Headline, Datum, Autor und Kontext. Product liefert Preis, Verfügbarkeit und Bewertung. Organization und Person helfen bei Entitätsverständnis und E-E-A-T-Signalen. Das ersetzt keinen guten Inhalt, aber es reduziert Ambiguität und macht eine Seite leichter als Quelle verwertbar.

Semantisches HTML ist wieder ein Wettbewerbsvorteil

Die Rückkehr zu crawlbarem HTML klingt altmodisch, ist aber hochaktuell. Eine Seite mit einem einzigen klaren H1, logischen H2- und H3-Abschnitten, echten Listen, Tabellen, Abschnitten, sprechenden Linktexten und guten Bild-Alt-Texten ist für Maschinen einfacher zu verarbeiten als eine visuelle Layout-Wand aus generischen div-Containern. LLM-Systeme müssen Textsegmente gewichten, Abschnitte abgrenzen und Beziehungen erkennen. Saubere Semantik hilft dabei.

Besonders wichtig sind Tabellen und Listen, wenn sie echte Struktur transportieren. Die Botify-Daten eignen sich zum Beispiel ideal für eine Vergleichstabelle der drei OpenAI-Bots. Produktdaten eignen sich für Tabellen mit Preis, Verfügbarkeit und Varianten. How-to-Inhalte sollten Schritte als geordnete Liste abbilden. Das wirkt banal, aber genau diese Strukturen passen zu der Art, wie KI-Systeme Informationen extrahieren und in Antworten neu zusammensetzen.

Damit schließt sich der Kreis zur AEO-Debatte. Viele Empfehlungen für ChatGPT-Sichtbarkeit sind nicht neu. Sie sind klassisches technisches SEO, nur mit weniger Fehlertoleranz. Google kann JavaScript rendern, viele Signale über lange Zeit aggregieren und Webmaster-Tools bereitstellen. AI-Crawler sind oft jünger, weniger effizient und weniger transparent. Was bei Google vielleicht noch irgendwie funktioniert, kann bei ChatGPT Search schlicht unsichtbar bleiben.

Sitemaps, Canonicals und interne Links entscheiden über Entdeckung

OAI-SearchBot muss URLs kennen, bevor er sie crawlen kann. Das klingt trivial, wird aber in KI-Sichtbarkeitsprojekten oft übersehen. Seiten sollten in sauberen XML-Sitemaps auftauchen, intern verlinkt sein, klare Canonicals haben und keine widersprüchlichen Robots- oder Meta-Robots-Signale senden. Eine starke Seite, die nur über eine Suchfunktion erreichbar ist und nicht in der Sitemap steht, ist für viele Crawler praktisch versteckt.

Canonicals sind besonders wichtig, wenn Inhalte über mehrere URLs erreichbar sind. E-Commerce-Filter, Tracking-Parameter, Sprachvarianten, AMP-Reste oder alte Migrationen können dazu führen, dass ein Bot viele Varianten sieht und die eigentliche kanonische Seite nicht klar erkennt. Für ChatGPT Search ist das nicht nur ein Effizienzproblem. Es kann dazu führen, dass veraltete, duplizierte oder schwache Versionen gecrawlt werden, während die beste Version seltener erreicht wird.

Interne Links sind ebenfalls ein Signal für Wichtigkeit. Wenn ein Artikel nur in einem tiefen Archiv hängt, bekommt er weniger Crawl-Priorität als Inhalte, die von thematisch passenden Hub-Seiten, Kategorien und Related-Links erreichbar sind. Für KI-Radar-Artikel bedeutet das konkret: Neue Analysen sollten nicht nur im Blogindex stehen, sondern mit passenden Themenclustern wie KI-Agenten, AI Search, Automatisierung und Tool-Auswahl verbunden werden. Sichtbarkeit entsteht nicht nur auf der einzelnen URL, sondern im Informationsarchitektur-Netz.

Was sich seit GPT-5 strategisch verändert hat

Die Botify-Nectiv-Auswertung passt zu einem größeren Trend: ChatGPT wird weniger als statischer Wissensspeicher verstanden und mehr als System, das bei Bedarf aktuelle Quellen nutzt. Das heißt nicht, dass Training unwichtig wird. GPTBot ist weiterhin stark gewachsen. Aber OAI-SearchBot wächst schneller und überholt GPTBot im betrachteten Datensatz. Für Unternehmen ist das ein Signal, Ressourcen nicht nur in Markenpräsenz im Modell, sondern in aktuelle, crawlbare und zitierfähige Webinhalte zu investieren.

Das verändert auch die Rolle von Content. Ein Artikel muss nicht nur gut geschrieben sein. Er muss schnell erreichbar sein, aktuelle Daten nennen, Quellen sauber auszeichnen, strukturierte Daten liefern und maschinell verständlich gegliedert sein. Besonders bei Themen mit Aktualität, Regulierung, Preisen, Produktdaten, Studien oder technischen Standards kann ChatGPT nicht allein auf altes Modellwissen vertrauen. Solche Inhalte werden eher durch Suche geerdet.

Für Marken ist das eigentlich eine gute Nachricht. Wenn ein System über Suche und Index arbeitet, gibt es bekannte Hebel: Crawlbarkeit, Informationsarchitektur, Inhaltstiefe, Aktualisierung, Entitätsklarheit und Autorität. Schlechte Nachricht: Es gibt weniger bequeme Diagnostik. Ohne OpenAI-Search-Console bleiben eigene Tests und Logfiles entscheidend. Wer erst merkt, dass er nicht zitiert wird, wenn der Traffic weg ist, ist zu spät.

Eine praktische Checkliste für Website-Betreiber

Der erste Schritt ist ein Bot-Audit. Prüfen Sie in robots.txt, CDN, WAF und Serverregeln, ob OAI-SearchBot erreichbar ist. Validieren Sie reale Anfragen gegen die offizielle IP-Liste. Trennen Sie OAI-SearchBot, GPTBot und ChatGPT-User in Reports. Mischen Sie die drei Bots nicht in einem Dashboard zusammen, sonst sehen Sie nicht, ob Suchsichtbarkeit, Trainingscrawling oder Nutzeraktionen das Volumen treiben.

Der zweite Schritt ist ein Rendering-Audit. Rufen Sie wichtige URLs mit curl oder einem einfachen HTTP-Client ab und prüfen Sie, ob der Hauptinhalt, die zentralen Links, Meta-Tags und JSON-LD im initialen HTML stehen. Wenn die Seite erst nach JavaScript-Ausführung inhaltlich entsteht, priorisieren Sie SSR, SSG oder Prerendering. Diese Arbeit kommt vor Content-Feinschliff. Ein perfekt optimierter Text, der im HTML nicht vorhanden ist, hilft OAI-SearchBot nicht.

Der dritte Schritt ist Content-Struktur. Jede wichtige Seite sollte ein klares Thema, eine eindeutige Headline, saubere Abschnitte, konkrete Antworten, Tabellen oder Listen für strukturierte Informationen und Quellenhinweise haben. Ergänzen Sie Article-, FAQ-, HowTo-, Product-, Organization- oder Person-Schema, wo es wirklich passt. Danach messen Sie in Logfiles, ob sich Crawl-Frequenz, Status-Codes und abgerufene Pfade verbessern. KI-Sichtbarkeit wird damit zu einem messbaren technischen Prozess, nicht zu Bauchgefühl.

Fazit: AEO ist keine Abkürzung um SEO herum

Die Botify-Nectiv-Analyse ist kein endgültiger Beweis für jedes Verhalten von ChatGPT im gesamten Web. Sie ist aber ein starkes, datenreiches Signal: OpenAI crawlt seit GPT-5 deutlich mehr, der Search-Crawler gewinnt relativ zum Trainingscrawler an Bedeutung und nutzerinitiierte Live-Fetches verlieren im betrachteten Zeitraum an Volumen. Für Sichtbarkeit in ChatGPT Search ist OAI-SearchBot deshalb der wichtigste technische Ansprechpartner.

Die Konsequenzen sind erstaunlich bodenständig. Erlauben Sie OAI-SearchBot, wenn Sie in ChatGPT Search sichtbar sein wollen. Entscheiden Sie bewusst, ob GPTBot für Trainingszwecke erlaubt oder blockiert werden soll. Behandeln Sie ChatGPT-User als nutzerinitiierte Aktion, nicht als Indexcrawler. Sorgen Sie für serverseitig sichtbares HTML, saubere Sitemaps, stabile Canonicals, semantisches Markup, strukturierte Daten und schnelle, fehlerfreie Responses. Und prüfen Sie in den Logs, ob das alles wirklich passiert.

Damit beantwortet die Studie die große AEO-Frage pragmatisch: Optimierung für KI-Antworten ist keine Abkürzung um SEO herum. Sie ist eine Erweiterung der gleichen Grundlagen unter strengeren Bedingungen. Wer seine technischen Hausaufgaben macht, gibt ChatGPT und anderen AI-Suchsystemen eine faire Chance, die eigenen Inhalte zu finden, zu verstehen und als Quelle zu nutzen. Wer sie nicht macht, bleibt auch mit starken Texten unsichtbar.

Vergleich

Die drei OpenAI-Bots im Vergleich

Crawler ZweckAktuelle Praxisrelevanz

OAI-SearchBot Suchcrawler für ChatGPT Search und automatische Websuche. Aktueller User Agent laut OpenAI: OAI-SearchBot/1.3.Sehr hoch: erlauben, wenn Inhalte in ChatGPT-Suchantworten erscheinen sollen. IPs gegen searchbot.json validieren.

GPTBot Trainingscrawler für Inhalte, die für generative Foundation Models genutzt werden können. Aktueller User Agent laut OpenAI: GPTBot/1.3.Strategieentscheidung: erlauben für mögliche Modellpräsenz, blockieren bei Trainings- oder Lizenzbedenken.

ChatGPT-User Nutzerinitiierter Abruf für ChatGPT, Custom GPTs und GPT Actions. Kein automatischer Search-Indexcrawler.Gezielt erlauben, wenn Nutzer und Custom GPTs Seiten abrufen sollen. Nicht für Search-Opt-outs verwenden.

Serverseitiges HTML Hauptinhalt, Links, Meta-Tags und Schema müssen im initialen Response sichtbar sein.Kritisch: AI-Crawler rendern JavaScript nicht verlässlich wie Googlebot. SSR, SSG oder Prerendering priorisieren.

Logfile-Analyse Reale Bot-Zugriffe, Status-Codes, Pfade, Frequenz und Fehler sichtbar machen.Pflicht: ohne Logs gibt es keine verlässliche Diagnose für ChatGPT-Crawling.

Praxisfälle

Drei Audits, die nach dieser Studie Priorität haben

Robots- und Firewall-Audit

Viele Websites erlauben Bots in robots.txt, blockieren sie aber indirekt über CDN-, WAF- oder Bot-Management-Regeln. OAI-SearchBot, GPTBot und ChatGPT-User sollten getrennt geprüft, gegen offizielle IP-Listen validiert und auf 403-, 429- sowie 5xx-Spitzen untersucht werden.

Rendering-Audit für JavaScript-Sites

Clientseitig gerenderte Inhalte sehen für Nutzer gut aus, können für AI-Crawler aber leer bleiben. Wichtige URLs sollten per HTTP-Response geprüft, Kerncontent per SSR oder SSG ausgeliefert und JSON-LD serverseitig eingebunden werden.

Schema- und Informationsarchitektur-Audit

Gute Inhalte sollten klar als Artikel, FAQ, Produkt, Organisation oder Person markiert und intern stark verlinkt werden. Passendes Schema, aktuelle Sitemaps und thematische Hubs helfen OpenAI-Crawlern beim Entdecken und Einordnen.

FAQ

Häufige Fragen

Welcher OpenAI-Bot ist für ChatGPT Search am wichtigsten?

OAI-SearchBot. OpenAI beschreibt ihn als Bot für ChatGPTs Search-Features. Wer in ChatGPT-Suchantworten erscheinen will, sollte OAI-SearchBot nicht blockieren und die offiziellen IP-Ranges zulassen.

Sollte man GPTBot blockieren?

Das ist eine Strategieentscheidung. GPTBot ist für Trainingsdaten relevant, nicht primär für ChatGPT Search. Viele Websites erlauben OAI-SearchBot und blockieren GPTBot, wenn sie Sichtbarkeit wollen, aber Trainingsnutzung begrenzen möchten.

Führt ChatGPT JavaScript aus?

Große AI-Crawler wie OAI-SearchBot, GPTBot und ChatGPT-User rendern JavaScript nach aktuellen externen Messungen nicht verlässlich wie Googlebot. Kritischer Content sollte deshalb serverseitig im initialen HTML ausgeliefert werden.

Reicht gutes JSON-LD für KI-Sichtbarkeit?

Nein. JSON-LD hilft beim Verstehen, ersetzt aber keinen crawlbaren Hauptinhalt, keine gute Informationsarchitektur und keine technische Erreichbarkeit. Es ist ein Verständnisverstärker, kein Ersatz für SEO-Grundlagen.

Was bedeutet der Rückgang von ChatGPT-User?

Er zeigt in Botifys Datensatz weniger nutzerinitiierte Live-Fetch-Events zwischen Dezember 2025 und März 2026. Das bedeutet nicht automatisch weniger ChatGPT-Nutzung. Eine plausible Erklärung ist, dass OpenAI stärker auf Index oder Cache zurückgreift.

Ist die Botify-Nectiv-Studie repräsentativ für alle Websites?

Nein. Der Datensatz stammt aus Botifys Enterprise-Kundenbasis und ist sehr groß, aber nicht repräsentativ für das gesamte Web. Die Trends sind relevant, die absoluten Zahlen sollte man mit Blick auf die eigene Website per Logfile prüfen.

Wie prüft man echte OpenAI-Bot-Zugriffe?

Man kombiniert User-Agent-Erkennung mit IP-Validierung gegen die offiziellen OpenAI-JSON-Listen für OAI-SearchBot, GPTBot und ChatGPT-User. Nur der User Agent reicht nicht, weil er leicht gefälscht werden kann.

Quellen und Herstellerseiten

ChatGPT-Crawler entschlüsselt: Was 7 Milliarden Logfiles über KI-Sichtbarkeit verraten