Robots.txt là gì? Robots.txt là một file văn bản thuần (plain text) đặt tại thư mục gốc của website (example.com/robots.txt), dùng để hướng dẫn search engine bots (Googlebot, Bingbot, v.v.) biết trang nào được phép crawl và trang nào không. Robots.txt là một phần của Robots Exclusion Protocol — tiêu chuẩn internet có từ năm 1994. Theo Google 2025, cấu hình robots.txt sai là nguyên nhân của hơn 12% vấn đề crawl budget trên các website lớn.
Cú Pháp Robots.txt Cơ Bản
Mỗi “rule” trong robots.txt gồm 2 phần: User-agent (chỉ định bot) và chỉ thị (Disallow/Allow):
User-agent: *
Disallow: /wp-admin/
Disallow: /tmp/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xmlCác Directive Quan Trọng
- User-agent: * — áp dụng cho tất cả bots (wildcard)
- Disallow: /path/ — ngăn bot crawl đường dẫn này
- Allow: /path/ — cho phép crawl (dùng để override một Disallow rộng hơn)
- Sitemap: — khai báo vị trí XML Sitemap — giúp bot discover URL dễ hơn
- Crawl-delay: — thời gian chờ giữa các request (Google không hỗ trợ, Bing hỗ trợ)
Robots.txt Làm Gì Và Không Làm Được Gì?
| Robots.txt CÓ THỂ | Robots.txt KHÔNG THỂ |
|---|---|
| Ngăn bot crawl URL | Ngăn URL bị index (nếu có backlink) |
| Bảo vệ tài nguyên nội bộ (scripts, CSS) | Ẩn URL với người dùng |
| Tiết kiệm crawl budget | Thay thế cho noindex meta tag |
| Hướng dẫn bot đến Sitemap | Ngăn URL xuất hiện trong SERPs nếu có external links |
Lưu ý quan trọng: Disallow một URL trong robots.txt KHÔNG có nghĩa là URL đó sẽ không xuất hiện trong Google. Nếu URL đó có backlink từ site khác, Google có thể vẫn index nó (với snippet trống). Dùng noindex meta tag nếu muốn chắc chắn URL không xuất hiện trong SERP.
Robots.txt Chuẩn Cho WordPress 2026
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /tag/ (chỉ nếu không cần index tag pages)
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xmlKhông block CSS và JS — Google cần crawl chúng để render trang và đánh giá Core Web Vitals đúng. Block CSS/JS là lỗi phổ biến gây ra điểm CWV thấp hơn thực tế.
Quản Lý Crawl Budget Qua Robots.txt
Crawl Budget là số lượng URL Googlebot crawl trong một khoảng thời gian. Với site lớn (+10,000 trang), tối ưu crawl budget bằng robots.txt là cần thiết. Block các URL không cần index: faceted navigation, URL có parameter lặp lại, staging/test pages, internal search results.
Kết Hợp Robots.txt Với Technical SEO
Robots.txt là một phần của bộ Technical SEO. Kết hợp với: Canonical Tags (để xử lý duplicate), noindex meta tag (để ẩn khỏi SERP), XML Sitemap (để hướng dẫn crawl). Ba công cụ này hoạt động độc lập nhưng bổ trợ lẫn nhau.
Kiểm Tra Robots.txt Với Google Search Console
Trong Google Search Console, vào Settings → robots.txt → kiểm tra từng URL có bị block không. Công cụ “URL Inspection” cũng cho biết URL có bị robots.txt block không. Robots.txt Tester (cũ, đã bị gỡ khỏi GSC) giờ thay bằng việc check trực tiếp qua URL Inspection.
Lỗi Robots.txt Nghiêm Trọng Nhất
- Disallow: / (block toàn bộ site) — disaster khi vô tình deploy lên production
- Block Googlebot từ CSS/JS — Google không render được trang, đánh giá thấp CWV
- Không khai báo Sitemap — Google tự tìm được nhưng chậm hơn nhiều
- Cú pháp sai — robots.txt phân biệt hoa thường, một ký tự sai vô hiệu hóa cả rule
Câu Hỏi Thường Gặp (FAQ)
Robots.txt và noindex khác nhau như thế nào?
Robots.txt Disallow ngăn bot crawl URL (bot không đọc nội dung). Noindex cho phép crawl nhưng yêu cầu không index vào SERP. Dùng Disallow khi muốn tiết kiệm crawl budget. Dùng noindex khi muốn chắc chắn URL không hiển thị trong Google Search, kể cả khi có backlink trỏ về.
Robots.txt có bảo mật website không?
Không. Robots.txt là file công khai — ai cũng đọc được tại example.com/robots.txt. Thực ra, liệt kê các trang cần ẩn trong robots.txt có thể vô tình tiết lộ cấu trúc nhạy cảm. Để bảo mật thực sự: dùng password protection, IP whitelist, hoặc HTTP authentication — không dùng robots.txt.
Có cần robots.txt cho website mới không?
Có, ngay từ ngày đầu. Ít nhất block /wp-admin/ (WordPress) và khai báo Sitemap. Website không có robots.txt vẫn được crawl bình thường (Google mặc định là allow tất cả), nhưng có file rõ ràng giúp quản lý tốt hơn và tránh index những trang không mong muốn.



