Tekoälybottien pääsy: 5,6 miljoonaa sivustoa estää GPTBotin

Mikä on tekoälybottien pääsy?

Tekoälybottien pääsy mittaa, voivatko tekoälykrawlerit — GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User ja muut — todella saavuttaa ja lukea sivujasi. Tarkistus tutkii neljää tasoa: robots.txt-direktiivit, palvelimen vastauskoodit, IP-pohjaisen estämisen CDN:istä ja WAF:eista, sekä sen, onko sisältö lukittu JavaScriptin tai maksumuurin taakse. Jokainen taso voi hiljaa tappaa tekoälynäkyvyyden, ja monet sivustot ovat estettyjä yhdellä tai useammalla huomaamattaan.

Tämä mittari on portinvartija koko GEO-Scorelle. Täydet 100/100 pistettä skeeman, sitaattien, tuoreuden ja rakenteen osalta tuottaa täsmälleen nolla tekoälysitaattia, jos yksi Disallow-rivi robots.txt:ssä tai oletus WAF-sääntö käännyttää krawlerit pois. Cloudflare ilmoitti heinäkuussa 2025, että sen verkko nyt estää tekoälykrawlerit oletuksena uusille asiakkaille — tarkoittaen, että merkittävä osa verkosta meni pimeäksi tekoälylle yhdessä yössä.

Miksi tekoälybottien pääsy on tärkeä

Tekoälyhaku on nyt mitattava osa kokonaisverkkoliikennettä, mutta se on myös haurain liikennelähde — yksi väärin määritelty sääntö voi pyyhkiä läsnäolosi ChatGPT:stä, Claudesta ja Perplexitystä samanaikaisesti. Kolme voimaa selittää, miksi bottien pääsy ansaitsee huomion ennen mitään muuta GEO-työtä.

Bottien pääsy on binäärinen portinvartija

Tekoälykrawlerit eivät indeksoi estettyä sivustoa osittain — ne ohittavat sen kokonaan. Jos GPTBot, ClaudeBot tai PerplexityBot saa 403:n, robots.txt Disallow:n tai WAF-haasteen, sivua kohdellaan ei-olemassa olevana tekoälyvastauksissa. Ei ole "vähentyneen näkyvyyden" lopputulosta: se on joko täysi sitaattikelpoisuus tai ei mitään.

Suurin osa estoista on vahingossa tehtyjä

Originality.ai havaitsi, että GPTBot on nyt estetty 35,7 %:lla top 1 000 -verkkosivustosta, mutta haastattelut sivustojen omistajien kanssa osoittavat, että monet näistä estoista perittiin oletus WAF-sääntöjoukoista, kopioiduista robots.txt-malleista tai CDN-bot-fight-tiloista, jotka luokittelevat GPTBotin yleiseksi raapijaksi. Harvat näistä omistajista lähtivät estämään tekoälyä; he yksinkertaisesti unohtivat sallia sen.

Tekoälykrawlerit ovat aggressiivisia — mutta valikoivia

Cloudflare ilmoitti, että GPTBot kasvoi 305 % raakapyyntöinä toukokuun 2024 ja toukokuun 2025 välillä, kun taas PerplexityBot kasvoi 157 490 % pieneltä lähtötasolta. Tuolla volyymillä on budjetti: botit priorisoivat sivustoja, jotka vastaavat nopeasti, palauttavat 200:t ja palvelevat sisältöä alkuperäisessä HTML:ssä. Sivustot, jotka ajoittain palauttavat 5xx:n, piilottavat sisällön JavaScriptin taakse tai rajoittavat tekoälybotteja, näkevät sitaattien laskevan ilman selkeää estoa.

Mitä tutkimus sanoo

GPTBot increased its share of all crawler traffic from 2.2% to 7.7%, with a 305% rise in raw requests over 12 months — jumping from rank #9 to rank #3 among all web crawlers. PerplexityBot showed the most explosive growth at 157,490% from a minimal baseline. Yet only 14% of analyzed domains had any specific robots.txt directives targeting AI bots — leaving the other 86% silently allowing or blocking AI traffic by accident.
João Tomé, Jorge Pacheco, Carlos Azevedo — From Googlebot to GPTBot: Who's Crawling Your Site in 2025, Cloudflare Blog, July 2025 — analysis of 3,816 top domains

GPTBot is now blocked by 35.7% of the top 1,000 websites, up from just 5% when it was first introduced in August 2023. The percentage of sites blocking GPTBot was increasing by approximately 5% per week in the early stages following the bot's announcement. Many of these blocks were inherited from default templates and CDN rules rather than deliberate policy decisions.
Originality.ai — GPTBot Blocking Tracker, August 2024 update — quarterly study of the Quantcast top 1,000 websites since GPTBot launch

Anthropic's crawl-to-referral ratio peaked near 500,000:1 early in 2025 before settling between 25,000:1 and 100,000:1, while OpenAI's GPTBot ratio spiked to roughly 3,700:1 in March 2025. This imbalance — bots taking far more than they return in human visits — is the main reason publishers are tempted to block, but for any site that is not a major news brand, blocking removes the only path to AI search citations entirely.
Cloudflare Radar — The crawl-to-click gap: AI bots, training, and referrals, 2025 — multi-month analysis of crawler-to-human-referral ratios across the Cloudflare network

3 todellisen maailman bottien pääsyskenaariota

Nämä kolme kuviota osoittavat, kuinka sama sisältö voi olla näkymätön tai täysin siteerattavissa tekoälylle riippuen muutamista konfigurointiriveistä. Jokainen "huono" tapaus on todellinen kuvio, joka on havaittu auditoinneissa — "hyvä" versio on minimikorjaus, joka pitää sisällön suojattuna siellä missä sen pitäisi olla samalla, kun tekoälybotit pääsevät läpi muualla.

Esimerkki 1: Alueellinen uutissivusto oletus robots.txt:llä

Estetty — näkymätön ChatGPT:lle ja Claudelle

Alueellinen uutiskustantaja käyttää CMS-mallia, jossa toimitetaan robots.txt sisältäen User-agent: GPTBot / Disallow: / ja User-agent: ClaudeBot / Disallow: /. Toimitustiimi ei ole tietoinen, että nämä rivit ovat olemassa. Sivustolla on korkea E-E-A-T, päivittäin päivitettyjä artikkeleita ja hyvä skeema, mutta 18 kuukauden aikana ChatGPT ja Claude eivät ole koskaan siteeranneet yhtäkään artikkelia. Palvelinlokit vahvistavat, että GPTBot käy /robots.txt:ssä muutaman tunnin välein ja kävelee pois.

Miksi tämä epäonnistuu: Disallow juuripolulla kertoo GPTBotille ja ClaudeBotille ohittamaan koko verkkotunnuksen. Molemmat botit kunnioittavat robots.txt:ää, joten kaikki toimituksellinen panostus tuottaa nolla tekoälysitaattia. Kustantaja ei voi ymmärtää, miksi kilpailijat heikommalla sisällöllä siteerataan päivittäin — kunnes joku lukee robots.txt:n.

Sallittu ja seurattu — täysi tekoälynäkyvyys palautettu

Kustantaja kirjoittaa robots.txt:n uudelleen: User-agent: GPTBot / Allow: / / User-agent: OAI-SearchBot / Allow: / / User-agent: ChatGPT-User / Allow: / / User-agent: ClaudeBot / Allow: / / User-agent: PerplexityBot / Allow: / / Sitemap: https://news.example.com/sitemap.xml. Palvelinlokeja näytteistetään viikoittain vahvistaakseen 200-vastaukset ja seuratakseen krawlausfrekvenssiä per botti. Neljän viikon sisällä ChatGPT-haku alkaa siteerata viimeaikaisia artikkeleita nimeltä.

Miksi tämä toimii: Eksplisiittiset Allow-säännöt ohittavat perityt mallioletukset ja viestivät aikomusta jokaiselle tekoälykrawlerille. Sekä koulutusbottien (GPTBot, ClaudeBot) että hakuaikaisten bottien (OAI-SearchBot, ChatGPT-User) listaaminen kattaa sekä koulutusdata-sitaatit että live-vastausten haut. Sitemap-rivi kertoo krawlereille tarkalleen, mitä URL-osoitteita priorisoida — joten uudet artikkelit nousevat esiin tekoälyvastauksissa päivissä, ei kuukausissa.

Esimerkki 2: Verkkokauppabrändi oletus WAF:n takana

WAF estää tekoälybotit hiljaa — ei robots.txt-ongelmaa, silti näkymätön

Keskikokoisella verkkokauppabrändillä Cloudflaressa on puhdas robots.txt, joka sallii kaikki tekoälybotit. Mutta sen WAF:ssä on "Block AI bots" käytössä Super Bot Fight Mode -tilassa ja mukautettu sääntö, joka estää minkä tahansa user-agentin, joka sisältää "bot" ja joka ei ole Googlebot tai Bingbot. Tekoälykrawlerit saavat 403 Forbidden -vastauksia jokaisessa pyynnössä. Tuotelistaukset, ostooppaat ja kategoriasivut eivät koskaan päädy tekoälyn koulutusdataan tai live-hakuindekseihin.

Miksi tämä epäonnistuu: Robots.txt on rehellinen, mutta WAF suoritetaan ensin. Cloudflaren dokumentaatio toteaa nimenomaisesti, että tekoälybotin estosääntö ohittaa Allow Verified Botsin — joten jopa Cloudflaren IP:n perusteella vahvistamat tekoälykrawlerit estyvät. Brändi näkee nolla ChatGPT- tai Perplexity-viittausta, vaikka sen sisällön laatupisteet ovat erinomaiset.

Valikoiva WAF-sallittujen lista — estä raapijat, salli nimetyt tekoälybotit

Brändi poistaa käytöstä yleisen "Block AI bots" -kytkimen ja luo sen sijaan Cloudflare AI Crawl Control -sallittujen listan GPTBotille, OAI-SearchBotille, ChatGPT-Userille, ClaudeBotille, Claude-SearchBotille, PerplexityBotille ja Google-Extendedille. WAF:n mukautettu sääntö kirjoitetaan uudelleen haastamaan vahvistamattomat botit samalla, kun vahvistetut tekoälykrawlerit päästetään läpi. Kuukausittainen tarkistus tutkii tekoälykrawlauslokit, ja mikä tahansa uusi kaupallisesti relevantti tekoälybotti lisätään sallittujen listalle 7 päivän sisällä.

Miksi tämä toimii: Vahvistetut tekoälybotit saapuvat julkaistuilta IP-alueilta, jotka Cloudflare todentaa — sallittujen lista luottaa botin identiteettiin, ei vain user-agent-merkkijonoon (jonka raapijat voivat väärentää). Brändi säilyttää suojansa haitallisia raapijoita vastaan samalla, kun se avaa oven jokaiselle tekoälyhakukoneelle, joka voi ohjata ostoksia. Vuosineljänneksen sisällä brändi alkaa esiintyä ChatGPT:n ostosvastauksissa ostoaikomushakuihin.

Esimerkki 3: Tilauspohjainen kustantaja kovalla maksumuurilla

Kova maksumuuri — tekoäly näkee kirjautumissivun, ei artikkelia

B2B-tilausjulkaisu näyttää 50 sanan teaserin ja sitten täyssivun kirjautumismodaalin, palveltuna JavaScriptin kautta sivun latauksessa. Tekoälykrawlerit kuten GPTBot eivät suorita JavaScriptiä, joten ne näkevät teaserin ja modaalin HTML:n. Artikkeleita ei koskaan kouluteta, ja hakuaikaan tekoälyhakukoneilla ei ole mitään siteerattavaa — ne palaavat kilpailijalähteisiin, jotka kirjoittavat samoista aiheista avoimesti. Tilausten kasvu hidastuu, koska brändi ei koskaan esiinny tekoälyvastauksissa, joissa päättäjät tutkivat toimittajia.

Miksi tämä epäonnistuu: Tekoälykrawlerit hakevat vain raaka-HTML:n. JavaScriptin injektoima maksumuuri on näkymätön ihmisille (se latautuu jälkikäteen) mutta estää tekoälyn täysin — ne näkevät vain 50 sanan teaserin. Ei ole polkua kustantajan asiantuntemukselle päästä tekoälyn koulutusdataan tai live-vastausputkiin, vaikka toimituksellinen laatu on alan korkein.

Hybridimalli — tekoälyluettava yhteenveto plus maksumuuri

Kustantaja esittelee 250 sanan "executive summary" -tiivistelmän renderöitynä alkuperäiseen HTML:ään jokaiselle artikkelille: keskeinen löydös, datapiste, suositus ja lähde. Täysi syvällinen analyysi pysyy maksumuurin takana. Robots.txt sallii GPTBotin, ClaudeBotin, PerplexityBotin, OAI-SearchBotin ja Google-Extendedin. Schema.org Article -merkintä paywalledContent-annotaatiolla kertoo krawlereille, mitkä osiot vaativat tilausta, kun taas yhteenveto-osio on vapaasti indeksoitavissa.

Miksi tämä toimii: Tekoälykrawlereilla on nyt sisällöllistä, siteerattavaa sisältöä jokaiselle artikkelille — yhteenveto on tarpeeksi pitkä ollakseen täydellinen vastaus (Answer Completeness -tutkimuksen mukaan 200 sanan itsenäiset kappaleet ovat ihanteellisia). Kun päättäjä kysyy ChatGPT:ltä "kuka on johtava lähde X:stä", kustantajan yhteenveto siteerataan ja täyden raportin klikkaus konvertoituu. Maksumuuri suojaa tilaustuloja samalla, kun tekoälystä tulee top-of-funnel-hankintakanava.

Kuinka parannat tekoälybottien pääsypisteytystäsi

ÄLÄ tee näin

✗Käytä User-agent: * / Disallow: / tai mitä tahansa globaalia estoa robots.txt:ssä — tämä tappaa tekoälypääsyn jokaiselle krawlerille yhdellä rivillä, mukaan lukien ne, jotka haluat
✗Jätä oletus WAF "Block AI bots" -kytkimet päälle ilman tarkistusta — Cloudflare ja muut CDN:t toimittavat yhä useammin tekoälyestoja oletuksena, mukaan lukien vahvistetut botit
✗Estä pelkän user-agent-merkkijonon perusteella — raapijat väärentävät "GPTBotin" helposti, ja laillisia botteja voidaan jäljitellä; vahvista IP-alueen perusteella tai käytä CDN:n vahvistamia bottilistoja sen sijaan
✗Lukitse pääsisältö JavaScriptin renderöimien komponenttien tai single-page-app-reittien taakse — GPTBot, ClaudeBot ja PerplexityBot eivät suorita JavaScriptiä ja näkevät vain alkuperäisen HTML-rungon
✗Ohita palvelinlokien valvonta tekoälyboteille — ilman viikoittaisia tarkistuksia GPTBot-, ClaudeBot- ja PerplexityBot-osumiin vahingossa tehdyt estot voivat säilyä kuukausia ennen kuin kukaan huomaa puuttuvan tekoälyliikenteen

Tee näin sen sijaan

✓Lisää eksplisiittinen User-agent: GPTBot / Allow: /, plus vastaavat ClaudeBotille, PerplexityBotille, OAI-SearchBotille, ChatGPT-Userille, Google-Extendedille ja Applebot-Extendedille robots.txt:ssä
✓Hyväksy vahvistetut tekoälybotit WAF:ssäsi käyttämällä niiden julkaistuja IP-alueita — Cloudflare AI Crawl Control, Vercel AI Bot Manager ja Akamai paljastavat tämän kaikki
✓Renderöi palvelinpuolella tai esirenderöi jokaisen tärkeän sivun ensimmäiset 200–500 sanaa, jotta tekoälykrawlerit näkevät sisällöllistä sisältöä alkuperäisessä HTML-vastauksessa
✓Näytteistä palvelinlokeja viikoittain GPTBot-, ClaudeBot-, PerplexityBot-, OAI-SearchBot- ja Google-Extended-osumiin — vahvista 200-vastaukset, keskimääräinen vastausaika alle 2 sekuntia ja vakaa krawlausfrekvenssi
✓Jos sinulla on maksumuuri, paljasta 200–300 sanan executive summary HTML:ssä ja käytä Schema.org paywalledContentia merkitäksesi suojatut osiot — säilyttää tulot ja pitää tekoälysitaattikelpoisuuden

Nopeat vinkit tekoälybottien pääsyyn

•Käytä aina eksplisiittisiä Allow-sääntöjä per tekoälybotti — "User-agent: * / Allow: /" näyttää sallivalta, mutta ei viesti aikomusta ja monet WAF:t ohittavat sen
•Tarkista CDN-paneeli ennen robots.txt:ää — Cloudflaren heinäkuun 2025 muutos estää tekoälykrawlerit oletuksena uusille asiakkaille, riippumatta siitä, mitä robots.txt:ssäsi sanotaan
•Salli sekä koulutusbotit (GPTBot, ClaudeBot) että hakuaikaiset botit (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot) — ne palvelevat tekoälyvastausputken eri osia
•Älä luota llms.txt:hen ensisijaisena pääsymekanismina — vuoden 2025 lopulla yksikään suuri tekoälykrawler ei lue sitä; robots.txt pysyy ainoana yleisesti kunnioitettuna standardina
•Renderöi kriittinen sisältö palvelinpuolella tai SSG:n kautta — vain Googlebot suorittaa luotettavasti JavaScriptin pääkrawlereiden joukossa, joten JS-only-sisältö on näkymätön GPTBotille, ClaudeBotille ja PerplexityBotille
•Näytteistä pääsylokejasi viikoittain tekoäly-user-agent-merkkijonoja varten — yhtäkkinen pudotus nollaan on aikaisin signaali vahingossa tehdystä estosta CDN-päivityksen tai WAF-sääntömuutoksen vuoksi

Usein kysytyt kysymykset

Pitäisikö minun estää GPTBot suojellakseni sisältöäni tekoälykoulutukselta?

Useimmille sivustoille ei. Originality.ai havaitsi, että 35,7 % top 1 000 sivustosta estää GPTBotin, mutta Hack/Hackers-analyysi osoitti, että suuret kustantajat, jotka estivät tekoälybotit, menettivät myöhemmin noin 23 % liikenteestään. Ellei sinulla ole monen miljoonan dollarin lisensointisopimusta (NYT-Amazon, News Corp-OpenAI) tai liiketoimintamallisi riipu suljetusta asiantuntemuksesta, estäminen poistaa ainoan polkusi tekoälyhakutuloksiin — joissa asiakkaat yhä useammin aloittavat matkansa. Oletuksen ei-kustantajille pitäisi olla Allow.

Mikä on tekoälybottien sallimisen vaikutus GEO-Score-pisteytykseeni?

Tekoälybottien salliminen on edellytys jokaiselle muulle GEO-mittarille. Analysaattori käsittelee bottien pääsyä porttitekijänä: jos tekoälykrawlerit eivät pääse sivuillesi, sitaatti-, skeema-, sisällönrakenne- ja tuoreuspisteytyksesi muuttuvat akateemisiksi. Sivustot, jotka vaihtavat estämisestä sallimiseen, näkevät tyypillisesti tekoälyn ohjaaman liikenteen ilmestyvän 2–6 viikon sisällä riippuen siitä, kuinka usein kukin botti uudelleenkrawlaa. Muutoksella ei ole negatiivista SEO-vaikutusta, koska Googlebot ja Google-Extended ovat itsenäisiä — toisen estäminen ei vaikuta toiseen.

Mikä on ero GPTBotin, ChatGPT-Userin ja OAI-SearchBotin välillä?

OpenAI käyttää kolmea krawleria erillisiin tarkoituksiin. GPTBot krawlaa laajasti kerätäkseen koulutusdataa tuleviin malliversioihin. OAI-SearchBot indeksoi sivuja ChatGPT:n sisäänrakennettuun hakuominaisuuteen, joka nostaa tuloksia esiin reaaliajassa keskustelujen aikana. ChatGPT-User aktivoituu, kun yksittäinen ChatGPT-käyttäjä pyytää mallia hakemaan tietyn URL-osoitteen tai selaamaan aihetta. Ollaksesi täysin näkyvä OpenAI:n ekosysteemissä, sinun tulisi sallia kaikki kolme — pelkän GPTBotin estäminen pysäyttää vain koulutusdatan sisällyttämisen, ei live-sitaatteja.

Vaikuttaako Google-Extendedin estäminen Googlen hakusijoituksiini?

Ei. Googlen virallinen dokumentaatio toteaa, että Google-Extended on erillinen tunniste Googlebotista, ja sen estäminen ei vaikuta hakusijoituksiin, indeksointiin tai näkyvyyteen. Google-Extended hallitsee vain sitä, voidaanko sisältöäsi käyttää Geminin kouluttamiseen ja Googlen AI Overviews -vastausten pohjustamiseen. Monet kustantajat estävät Google-Extendedin rajoittaakseen koulutusdatan käyttöä samalla, kun säilyttävät täyden hakunäkyvyyden — vaikka tämä myös vähentää mahdollisuutta tulla siteeratuksi AI Overviews -tuloksissa.

Miksi tekoälybotit krawlaavat sivustoani niin paljon lähettämättä liikennettä takaisin?

Tämä on crawl-to-referral-kuilu. Cloudflaren 2025-analyysi havaitsi, että Anthropicin suhde nousi lähelle 500 000:1 (500 000 sivuhakua per ihmisen viittaus) ennen kuin asettui 25 000:1:n ja 100 000:1:n välille, kun taas OpenAI:n GPTBot-suhde sijoittui noin 1 200–3 700:1. Epätasapaino on todellinen, mutta vaihtoehto — estäminen — eliminoi pienen mutta kasvavan viittausvirran kokonaan ja poistaa sinut vastauksista, jotka käyttäjät näkevät, vaikka nämä vastaukset eivät klikkautuisikaan läpi. Useimmille sivustoille paras vastaus on sallia pääsy ja samalla varmistaa krawlaustehokkuus (nopeat vastaukset, tarkat sitemapit) sen sijaan, että estäisi.

Pitäisikö minun toteuttaa llms.txt-tiedosto robots.txt:n rinnalla?

Ei korvaajana robots.txt:lle. Jeremy Howardin (syyskuu 2024) llms.txt-ehdotus on mielenkiintoinen standardi tekoälyn ohjaamiseksi arvokkaisiin resursseihin, mutta vuoden 2025 lopulla yksikään suuri tekoälykrawler — OpenAI, Anthropic, Google, Perplexity — ei ole vahvistanut lukevansa tai noudattavansa llms.txt:ää. Auditointi sadoista palvelinlokeista lokakuussa 2025 löysi nolla LLM-krawleria pyytämässä llms.txt-tiedostoja. Sen lisääminen tulevaisuuden varalta ei maksa paljoa, mutta jokainen pääsypäätös tänään riippuu edelleen robots.txt:stä, palvelimen vastauskoodeista ja CDN/WAF-konfiguraatiosta.

Liittyvät mittarit tutkittavaksi

Sivun nopeus
Hitaat vastaukset saavat tekoälykrawlerit timeoutaan — sivun nopeus muuttaa pääsyn "sallitusta" "todella krawlattavaksi"
Sitemap ja löydettävyys
Kun botit pääsevät sivustollesi, sitemap ja linkkirakenne ratkaisevat, mitkä sivut ne todella löytävät
Skeeman tarkistaja
Skeemamerkintä auttaa tekoälykrawlereita tulkitsemaan saavutettavia sivuja — mukaan lukien paywalledContent-annotaatiot hybridimalleille
Tekoälyoptimointi
Kattava pisteytys, joka yhdistää bottien pääsyn, skeeman, rakenteen ja tuoreuden yhdeksi tekoälyvalmiussignaaliksi

Tekoälybottien pääsy