Robots.txt là gì? Robots.txt là một file văn bản thuần (plain text) đặt tại thư mục gốc của website (example.com/robots.txt), dùng để hướng dẫn search engine bots (Googlebot, Bingbot, v.v.) biết trang nào được phép crawl và trang nào không. Robots.txt là một phần của Robots Exclusion Protocol — tiêu chuẩn internet có từ năm 1994. Theo Google 2025, cấu hình robots.txt sai là nguyên nhân của hơn 12% vấn đề crawl budget trên các website lớn.

Table of Contents

Cú Pháp Robots.txt Cơ Bản

Mỗi “rule” trong robots.txt gồm 2 phần: User-agent (chỉ định bot) và chỉ thị (Disallow/Allow):

User-agent: *
Disallow: /wp-admin/
Disallow: /tmp/
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Allow: /

Sitemap: https://example.com/sitemap.xml

Các Directive Quan Trọng

User-agent: * — áp dụng cho tất cả bots (wildcard)
Disallow: /path/ — ngăn bot crawl đường dẫn này
Allow: /path/ — cho phép crawl (dùng để override một Disallow rộng hơn)
Sitemap: — khai báo vị trí XML Sitemap — giúp bot discover URL dễ hơn
Crawl-delay: — thời gian chờ giữa các request (Google không hỗ trợ, Bing hỗ trợ)

Robots.txt Làm Gì Và Không Làm Được Gì?

Robots.txt CÓ THỂ	Robots.txt KHÔNG THỂ
Ngăn bot crawl URL	Ngăn URL bị index (nếu có backlink)
Bảo vệ tài nguyên nội bộ (scripts, CSS)	Ẩn URL với người dùng
Tiết kiệm crawl budget	Thay thế cho noindex meta tag
Hướng dẫn bot đến Sitemap	Ngăn URL xuất hiện trong SERPs nếu có external links

Lưu ý quan trọng: Disallow một URL trong robots.txt KHÔNG có nghĩa là URL đó sẽ không xuất hiện trong Google. Nếu URL đó có backlink từ site khác, Google có thể vẫn index nó (với snippet trống). Dùng noindex meta tag nếu muốn chắc chắn URL không xuất hiện trong SERP.

Robots.txt Chuẩn Cho WordPress 2026

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /tag/ (chỉ nếu không cần index tag pages)
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap_index.xml

Không block CSS và JS — Google cần crawl chúng để render trang và đánh giá Core Web Vitals đúng. Block CSS/JS là lỗi phổ biến gây ra điểm CWV thấp hơn thực tế.

Quản Lý Crawl Budget Qua Robots.txt

Crawl Budget là số lượng URL Googlebot crawl trong một khoảng thời gian. Với site lớn (+10,000 trang), tối ưu crawl budget bằng robots.txt là cần thiết. Block các URL không cần index: faceted navigation, URL có parameter lặp lại, staging/test pages, internal search results.

Kết Hợp Robots.txt Với Technical SEO

Robots.txt là một phần của bộ Technical SEO. Kết hợp với: Canonical Tags (để xử lý duplicate), noindex meta tag (để ẩn khỏi SERP), XML Sitemap (để hướng dẫn crawl). Ba công cụ này hoạt động độc lập nhưng bổ trợ lẫn nhau.

Kiểm Tra Robots.txt Với Google Search Console

Trong Google Search Console, vào Settings → robots.txt → kiểm tra từng URL có bị block không. Công cụ “URL Inspection” cũng cho biết URL có bị robots.txt block không. Robots.txt Tester (cũ, đã bị gỡ khỏi GSC) giờ thay bằng việc check trực tiếp qua URL Inspection.

Lỗi Robots.txt Nghiêm Trọng Nhất

Disallow: / (block toàn bộ site) — disaster khi vô tình deploy lên production
Block Googlebot từ CSS/JS — Google không render được trang, đánh giá thấp CWV
Không khai báo Sitemap — Google tự tìm được nhưng chậm hơn nhiều
Cú pháp sai — robots.txt phân biệt hoa thường, một ký tự sai vô hiệu hóa cả rule

Câu Hỏi Thường Gặp (FAQ)

Robots.txt và noindex khác nhau như thế nào?

Robots.txt Disallow ngăn bot crawl URL (bot không đọc nội dung). Noindex cho phép crawl nhưng yêu cầu không index vào SERP. Dùng Disallow khi muốn tiết kiệm crawl budget. Dùng noindex khi muốn chắc chắn URL không hiển thị trong Google Search, kể cả khi có backlink trỏ về.

Robots.txt có bảo mật website không?

Không. Robots.txt là file công khai — ai cũng đọc được tại example.com/robots.txt. Thực ra, liệt kê các trang cần ẩn trong robots.txt có thể vô tình tiết lộ cấu trúc nhạy cảm. Để bảo mật thực sự: dùng password protection, IP whitelist, hoặc HTTP authentication — không dùng robots.txt.

Có cần robots.txt cho website mới không?

Có, ngay từ ngày đầu. Ít nhất block /wp-admin/ (WordPress) và khai báo Sitemap. Website không có robots.txt vẫn được crawl bình thường (Google mặc định là allow tất cả), nhưng có file rõ ràng giúp quản lý tốt hơn và tránh index những trang không mong muốn.

Robots.txt Là Gì? Cách Viết & Kiểm Tra File robots.txt Chuẩn SEO

Cú Pháp Robots.txt Cơ Bản

Các Directive Quan Trọng

Robots.txt Làm Gì Và Không Làm Được Gì?

Robots.txt Chuẩn Cho WordPress 2026

Quản Lý Crawl Budget Qua Robots.txt

Kết Hợp Robots.txt Với Technical SEO

Kiểm Tra Robots.txt Với Google Search Console

Lỗi Robots.txt Nghiêm Trọng Nhất

Câu Hỏi Thường Gặp (FAQ)

Robots.txt và noindex khác nhau như thế nào?

Robots.txt có bảo mật website không?

Có cần robots.txt cho website mới không?

Thương hiệu bạn xứng đáng
được AI nhắc đến.

Bạn cần dịch vụ gì?

Ngân sách hàng tháng?

Mô tả ngắn dự án (không bắt buộc)

Thông tin liên hệ

Cảm ơn bạn!

Robots.txt Là Gì? Cách Viết & Kiểm Tra File robots.txt Chuẩn SEO

Cú Pháp Robots.txt Cơ Bản

Các Directive Quan Trọng

Robots.txt Làm Gì Và Không Làm Được Gì?

Robots.txt Chuẩn Cho WordPress 2026

Quản Lý Crawl Budget Qua Robots.txt

Kết Hợp Robots.txt Với Technical SEO

Kiểm Tra Robots.txt Với Google Search Console

Lỗi Robots.txt Nghiêm Trọng Nhất

Câu Hỏi Thường Gặp (FAQ)

Robots.txt và noindex khác nhau như thế nào?

Robots.txt có bảo mật website không?

Có cần robots.txt cho website mới không?

Thương hiệu bạn xứng đángđược AI nhắc đến.

Thương hiệu bạn xứng đáng
được AI nhắc đến.