Generator robots.txt
Skonfiguruj reguły dostępu dla botów wyszukiwarek i AI. Dodaj ścieżki do blokowania, sitemap i ustawienia crawl-delay. Skopiuj gotowy plik.
Czym jest plik robots.txt?
robots.txt to plik tekstowy umieszczany w katalogu głównym strony internetowej, który informuje roboty wyszukiwarek (crawlery), które części witryny mogą indeksować, a których powinny unikać. Działa na zasadzie protokołu wykluczenia robotów (REP).
Podstawowa składnia
| Dyrektywa | Znaczenie | Przykład |
|---|---|---|
User-agent | Określa robota | User-agent: Googlebot |
Disallow | Blokuje ścieżkę | Disallow: /admin/ |
Allow | Zezwala na ścieżkę (nadpisuje Disallow) | Allow: /admin/public/ |
Sitemap | Wskazuje mapę witryny | Sitemap: https://example.pl/sitemap.xml |
Crawl-delay | Opóźnienie między żądaniami (sekundy) | Crawl-delay: 10 |
# | Komentarz | # To jest komentarz |
Przykładowa konfiguracja
# Reguły dla wszystkich robotów
User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /tmp/
Allow: /api/public/
# Mapa witryny
Sitemap: https://example.pl/sitemap.xml
Blokowanie botów AI
Coraz więcej właścicieli stron blokuje boty AI trenujące modele na treściach:
# Blokowanie botów AI
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
Lista popularnych botów AI
- GPTBot – OpenAI (ChatGPT)
- CCBot – Common Crawl (dane treningowe)
- Google-Extended – Google AI (Gemini)
- anthropic-ai – Anthropic (Claude)
- Bytespider – ByteDance (TikTok)
- FacebookBot – Meta AI
Ważne ograniczenia robots.txt
- Nie gwarantuje blokady – to jedynie zalecenie, nie zabezpieczenie techniczne
- Nie ukrywa treści – URL-e w Disallow mogą być znalezione z innych źródeł
- Nie zastępuje noindex – do usunięcia z indeksu użyj meta tagu
noindex - Publiczny plik – każdy może go odczytać (
example.pl/robots.txt) - Nie blokuje linków – strony mogą nadal przekazywać PageRank
Testowanie robots.txt
- Google Search Console – narzędzie do testowania robots.txt
- Bing Webmaster Tools – analogiczne narzędzie Bing
- Online walidatory – sprawdzają składnię i konflikty reguł
- curl –
curl https://example.pl/robots.txt
Najczęstsze błędy
- Blokowanie CSS/JS – uniemożliwia renderowanie strony przez Google
- Blokowanie obrazów – obrazy nie pojawią się w Google Images
- Trailing slash –
/adminvs/admin/mają różne znaczenie - Brak pliku – oznacza „wszystko dozwolone" (brak ograniczeń)
- Zbyt restrykcyjne reguły – przypadkowe zablokowanie ważnych sekcji
- Mieszanie Allow i Disallow – kolejność ma znaczenie (Google wybiera bardziej szczegółową regułę)
Dobre praktyki
- Umieść plik w katalogu głównym:
https://domena.pl/robots.txt - Zawsze dodaj dyrektywę
Sitemapz pełnym URL - Testuj zmiany przed wdrożeniem
- Nie blokuj zasobów potrzebnych do renderowania (CSS, JS, fonty)
- Regularnie sprawdzaj, czy reguły są aktualne
Jeśli ten kalkulator był przydatny, sprawdź również: JSON, .htpasswd, CV i więcej kalkulatorów.
Kalkulator zawiera walidację danych wejściowych i działa lokalnie w przeglądarce. Dzięki temu możesz szybko porównać różne scenariusze bez przesyłania danych na serwer.
Najczęstsze pytania (FAQ)
Co to jest robots.txt?
robots.txt to plik tekstowy w głównym katalogu strony, który informuje boty wyszukiwarek, które części serwisu mogą indeksować, a których nie.
Czy robots.txt blokuje dostęp?
Nie gwarantuje! robots.txt to tylko sugestia. Szanowane boty (Google, Bing) go przestrzegają, ale złośliwe crawlery mogą ignorować.
Jak zablokować boty AI (ChatGPT, Claude)?
Dodaj: User-agent: GPTBot, Disallow: /. Również: User-agent: ChatGPT-User, User-agent: CCBot, User-agent: Google-Extended z Disallow: /.