Mikä on robots.txt?
robots.txt-tiedosto on yksinkertainen tekstitiedosto, joka kertoo boteille ja roboteille, mitä osia verkkosivustostasi ne voivat käydä. Ajattele sitä kylttinä verkkosivustosi sisäänkäynnillä, joka sanoo "vierailijat tervetulleita" tai "yksityinen alue." Jokainen sääntöjä noudattava botti (kutsutaan Robots Exclusion Protocol) tarkistaa tämän tiedoston ensin ennen sivustosi indeksointia.
Tekoälyhakukoneille robots.txt on erityisen tärkeä. Se hallitsee, voivatko tekoälybotit kuten GPTBot (ChatGPT), ClaudeBot (Claude) ja PerplexityBot käyttää sisältöäsi koulutukseen ja hakutuloksiin. Tämän asettaminen oikein auttaa sinua hallitsemaan tekoälybottien pääsyä tehokkaasti.
robots.txt-tiedostosi täytyy sijaita osoitteessa yoursite.com/robots.txt. Botit eivät etsi sitä muualta. Jos sinulla ei ole tätä tiedostoa, botit olettavat voivansa indeksoida kaiken.
Miksi robots.txt on tärkeä tekoälylle
Tekoälybotit eroavat perinteisistä hakukoneindeksoijista. Ne käyvät sivustollasi kahdesta päätarpeesta:
Harjoitteludatan keräys
Jotkut tekoälyyhtiöt käyttävät verkkosisältöä kielimalliensa kouluttamiseen. Ne indeksoivat miljoonia sivuja rakentaakseen tietopankkeja.
Voit hallita, käytetäänkö sisältöäsi koulutukseen, estämällä tietyt botit robots.txt:ssä.
Hakutulosten luominen
Tekoälyhakukoneet indeksoivat sisältöäsi sisällyttääkseen sen hakutuloksiinsa ja vastausten luontiin.
Näiden bottien salliminen auttaa sisältöäsi näkymään tekoälyn luomissa vastauksissa, parantaen GEO-Scoreasi.
Avain on löytää oikea tasapaino. Haluat tekoälyhakukoneiden käyttävän sisältöäsi näkyvyyteen, mutta saatat haluta estää tietyt alueet tai erityiset koulutusbotit. robots.txt-tiedostosi antaa sinulle tämän hallinnan.
Tärkeimmät tekoälybotti-user-agentit
Jokainen tekoälybotti tunnistaa itsensä ainutlaatuisella user-agent-merkkijonolla. Tässä tärkeimmät:
GPTBot
OpenAIUser-agent: GPTBot
Käyttäjä: ChatGPT, OpenAI:n hakuominaisuudet
GPTBot indeksoi sisältöä sekä ChatGPT-vastauksiin että koulutukseen. Sen estäminen estää sisältöäsi näkymästä ChatGPT:n verkkohakutuloksissa.
ClaudeBot
AnthropicUser-agent: ClaudeBot
Käyttäjä: Claude AI, Anthropicin tekoälyavustaja
ClaudeBot käyttää verkkosisältöä tarjotakseen ajantasaista tietoa Clauden vastauksissa. Se noudattaa robots.txt-sääntöjä tiukasti.
PerplexityBot
PerplexityUser-agent: PerplexityBot
Käyttäjä: Perplexity AI -hakukone
PerplexityBot käyttää yhtä suosituimmista tekoälyhakukoneista. Sen salliminen parantaa näkyvyyttä Perplexityn hakutuloksissa.
Google-Extended
GoogleUser-agent: Google-Extended
Käyttäjä: Google Gemini AI -koulutus
Tämä on erillinen Googlebotista. Google-Extended kerää dataa Geminin koulutukseen. Sen estäminen ei vaikuta normaaliin Google-haun indeksointiin.
FacebookBot
MetaUser-agent: FacebookBot
Käyttäjä: Meta AI, Facebookin linkkiesikatselut
FacebookBot indeksoi linkkiesikatseluita ja Metan tekoälyominaisuuksia varten. Se on tärkeä sosiaalisen median näkyvyyteen.
Täydellistä listaa tekoälybotti-user-agenteista teknisin yksityiskohdin katso tekoälybotti-user-agenttien viitteestämme.
robots.txt:n perussyntaksi
robots.txt-tiedosto käyttää yksinkertaista syntaksia vain muutamilla komennoilla:
User-agent
Määrittää, mihin bottiin seuraavat säännöt soveltuvat. Käytä * kaikille boteille.
User-agent: GPTBot User-agent: *
Disallow
Kertoo boteille EI käyttää tiettyjä polkuja. Käytä / estääksesi kaiken.
Disallow: /admin/ Disallow: /private/ Disallow: /
Allow
Kertoo boteille, että ne VOIVAT käyttää tiettyjä polkuja. Käytä tätä laajemman Disallow-säännön ohittamiseen.
Disallow: /admin/ Allow: /admin/public/
Crawl-delay
Asettaa viiveen sekunneissa botin pyyntöjen välille. Eivät kaikki botit tue.
Crawl-delay: 10
Sitemap
Osoittaa boteille XML-sivustokarttasi paremman indeksointitehokkuuden saavuttamiseksi.
Sitemap: https://yoursite.com/sitemap.xml
Yleiset robots.txt-määritykset
Tässä valmiit määritykset yleisiin skenaarioihin:
Salli kaikki tekoälybotit (suositeltu useimmille sivustoille)
Tämä määritys ottaa kaikki tekoälyhakukoneet vastaan suojaten samalla hallinta-alueet:
# Allow all AI bots to crawl User-agent: * Allow: / # Block private areas for all bots Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /dashboard/ # Sitemap location Sitemap: https://yoursite.com/sitemap.xml
Estä tekoälykoulutus, salli tekoälyhaku
Estä tekoälymallien koulutukseen käytettävät botit sallien hakubotit:
# Block training bots User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / # Allow search bots User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / # Default rules for other bots User-agent: * Allow: / Disallow: /admin/ Sitemap: https://yoursite.com/sitemap.xml
Valikoiva sisällön pääsy
Salli tekoälybottien käyttää blogisisältöä, mutta ei tuotesivuja:
# AI bots can access blog User-agent: GPTBot Allow: /blog/ Disallow: / User-agent: ClaudeBot Allow: /blog/ Disallow: / # Default rules User-agent: * Allow: / Sitemap: https://yoursite.com/sitemap.xml
Estä kaikki tekoälybotit
Jos haluat jättäytyä kokonaan pois tekoälyhausta (ei suositeltu näkyvyyden kannalta):
# Block all known AI bots User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: FacebookBot Disallow: / User-agent: CCBot Disallow: / # Allow traditional search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://yoursite.com/sitemap.xml
Parhaat käytännöt
Tee nämä
✓Sijoita robots.txt juurihakemistoosi
✓Käytä yhtä sääntöä per rivi
✓Sisällytä sivustokartan sijainti
✓Testaa robots.txt muutosten jälkeen
✓Salli tekoälybotit paremmaksi GEO-näkyvyydeksi
✓Pidä tiedosto alle 500 kt:n
Vältä näitä
✗robots.txt:n käyttämistä turvallisuuteen
✗Kaikkien bottien estämistä ilman syytä
✗Säännöllisten lausekkeiden käyttöä (ei tuettu)
✗Päivittämisen unohtamista sivustomuutosten jälkeen
✗Sivun renderöintiin tarvittavien CSS/JS:n estämistä
✗Useiden robots.txt-tiedostojen luomista
robots.txt:si testaaminen
Testaa aina robots.txt-tiedostosi ennen sen käyttöönottoa. Käytä näitä menetelmiä:
Manuaalinen testaus
Käy osoitteessa yoursite.com/robots.txt selaimessa varmistaaksesi:
- Tiedosto on saavutettavissa ja latautuu oikein
- Ei syntaksivirheitä tai kirjoitusvirheitä
- Kaikki user-agent-nimet on kirjoitettu oikein
- Polut vastaavat todellista sivustorakennettasi
Google Search Console
Käytä Googlen robots.txt-testaajan työkalua:
- Mene Google Search Consoleen
- Siirry kohtaan Crawl → robots.txt-testaaja
- Testaa tietyt URL-osoitteet sääntöjäsi vastaan
- Tarkista virheet ja varoitukset
Online-validaattorit
Käytä kolmannen osapuolen robots.txt-validaattoreita:
- Robots.txt Checker: Tarkista syntaksi ja kattavuus
- Bloffee GEO Analyzer: Validoi robots.txt osana koko sivuston analyysiä
- SEO-työkalut: Monet SEO-alustat sisältävät robots.txt-testauksen
Palvelinlokien seuranta
Tarkista palvelinlokisi botin käyttäytymisen todentamiseksi:
- Etsi tekoälybotti-user-agent-merkkijonoja käyttölokeista
- Varmista, että botit noudattavat sääntöjäsi
- Tunnista mahdollinen luvaton indeksointi
- Seuraa indeksointitiheyttä ja kuvioita
Edistyneet määritykset
Pyyntörajoitus Crawl-delay:llä
Hallitse, kuinka nopeasti botit indeksoivat sivustoasi vähentääksesi palvelimen kuormitusta:
User-agent: GPTBot Crawl-delay: 10 Allow: / User-agent: ClaudeBot Crawl-delay: 5 Allow: /
Huomio: Eivät kaikki botit tue crawl-delay:tä. On luotettavampaa käyttää palvelinpuolen pyyntörajoitusta.
Jokerimerkkikuviot
Käytä jokerimerkkejä useiden polkujen sovittamiseen (useimpien modernien bottien tukema):
User-agent: * # Block all PDF files Disallow: /*.pdf$ # Block all URLs with query parameters Disallow: /*? # Block all admin pages Disallow: /*/admin/
Useat sivustokartat
Listaa useita sivustokarttoja eri sisältötyypeille:
Sitemap: https://yoursite.com/sitemap-pages.xml Sitemap: https://yoursite.com/sitemap-blog.xml Sitemap: https://yoursite.com/sitemap-products.xml Sitemap: https://yoursite.com/sitemap-images.xml
robots.txt:n pikavinkit
- •Aloita sallimalla kaikki tekoälyhakubotit maksimaalisen näkyvyyden saavuttamiseksi
- •Estä tietyt botit vain, jos sinulla on vahva syy
- •Sisällytä aina sivustokartan sijainti
- •Testaa muutokset ennen tuotantoon viemistä
- •Seuraa botin pääsyä palvelinlokeissasi
- •Päivitä robots.txt, kun muutat sivustorakennetta
- •Muista: robots.txt ei ole turvatoimi
Vaikutus GEO-Scoreesi
robots.txt-määrityksesi vaikuttaa suoraan tekoälybottien pääsy -pistemäärääsi, joka on keskeinen osa kokonaisGEO-Scoreasi.
Bloffee tarkistaa robots.txt:stäsi:
- Voivatko tekoälybotit käyttää sisältöäsi
- Asianmukainen syntaksi ja muotoilu
- Tärkeiden sivujen vahingossa estäminen
- Sivustokartan ilmoitus
- Liian rajoittavat säännöt, jotka vahingoittavat näkyvyyttä
Hyvin määritetty robots.txt, joka tervehtii tekoälybotteja, voi parantaa GEO-Scoreasi 10-15 pistettä. Tärkeiden bottien estäminen voi vähentää pistemäärääsi 20-30 pistettä tai enemmän.
Valmis luomaan robots.txt:si?
Käytä ilmaista robots.txt-luojaamme luodaksesi tekoälyoptimoitua määritystä sekunneissa. Määritä yli 40 bottia yhdellä klikkauksella.
Aiheeseen liittyvät aiheet
- Tekoälybotti-user-agenttien viite
Täydellinen lista tekoälybotti-user-agenteista teknisin yksityiskohdin
- Tekoälybottien pääsy
Opi miten bottien pääsy vaikuttaa GEO-Scoreesi
- Meta-tagit täydellinen opas
Määritä meta robots -tagit lisäbotin hallintaan
- Ilmainen robots.txt-luoja
Luo tekoälyoptimoitu robots.txt-tiedosto sekunneissa