Crawl Budget là gì?
Crawl budget là số lượng URL Googlebot sẵn sàng crawl và index trên website của bạn trong một khoảng thời gian nhất định. Theo Google, crawl budget được xác định bởi hai yếu tố: Crawl Rate Limit (tốc độ crawl không làm chậm server) và Crawl Demand (mức độ Google muốn crawl site dựa trên popularity và freshness).
📊 Theo Google Search Central 2025, website có hơn 10.000 trang mà không quản lý crawl budget có thể bị Googlebot bỏ qua đến 40% trang quan trọng.
Crawl Budget Quan Trọng với Ai?
Google đã xác nhận crawl budget không phải vấn đề với hầu hết websites nhỏ (<1.000 URLs). Tuy nhiên, crawl budget cực kỳ quan trọng với:
- Ecommerce sites với hàng trăm nghìn trang sản phẩm
- News sites cần index bài mới nhanh
- Sites có nhiều faceted navigation URLs
- Sites bị duplicate content nghiêm trọng
- Enterprises sites với hàng triệu trang
Yếu Tố Ảnh Hưởng đến Crawl Budget
1. Site authority và popularity
Sites có domain authority cao, nhiều backlinks chất lượng được Google phân bổ crawl budget lớn hơn. Đây là lý do quan trọng để đầu tư vào link building.
2. Server response time
Nếu server phản hồi chậm (>500ms), Googlebot giảm tốc độ crawl để không overload server. Cải thiện tốc độ trang trực tiếp giúp tăng crawl rate.
3. Số lượng URLs cần crawl
Sites có nhiều URLs (đặc biệt là URL vô giá trị) phân tán crawl budget. Google phải “lãng phí” crawl budget vào các trang không quan trọng.
Các Lãng Phí Crawl Budget Phổ Biến
| Nguyên nhân | Mô tả | Giải pháp |
|---|---|---|
| Faceted navigation | URLs từ filter/sort tạo ra hàng nghìn URL | Noindex hoặc disallow trong robots.txt |
| Session IDs trong URL | ?sessionid=xyz123 tạo duplicate URLs | Dùng cookies thay URL parameters |
| Thin/duplicate pages | Tag pages, archive pages trùng nội dung | Canonical, noindex, hoặc consolidate |
| Broken links (404) | Googlebot waste time crawl 404 pages | Fix broken links, update redirects |
| Infinite scroll/pagination | URLs pagination không có limit | Limit pagination, dùng rel=next/prev |
| Old/removed products | Trang sản phẩm hết hàng vẫn accessible | 301 redirect hoặc 410 Gone |
Cách Tối Ưu Crawl Budget
1. Kiểm tra crawl stats trong Google Search Console
Vào GSC → Settings → Crawl stats để xem số trang Googlebot crawl mỗi ngày, response codes, và crawl rate.
2. Tối ưu robots.txt
Disallow các section không cần index:
User-agent: * Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /*?sort= Disallow: /*?filter= Disallow: /search?
3. Sử dụng noindex đúng chỗ
- Tag pages, author archives với ít posts
- Pagination pages từ trang 3+ (tùy site)
- Internal search results pages
- Thin content pages không có giá trị SEO
4. Cải thiện tốc độ server
Server response time <200ms giúp Googlebot crawl nhanh hơn. Dùng CDN, optimize database queries, và caching plugin.
5. Fix 4xx và redirect chains
Crawl toàn site với Screaming Frog, fix tất cả broken links và redirect chains dài (>2 hops).
6. Cải thiện internal linking
Trang quan trọng cần nhiều internal links để Googlebot tìm thấy và crawl thường xuyên hơn.
XML Sitemap và Crawl Budget
Sitemap không tăng crawl budget nhưng giúp Google biết URL nào quan trọng và cần được ưu tiên. Best practices:
- Chỉ đưa vào sitemap URLs bạn muốn index
- Cập nhật lastmod chính xác (không fake ngày)
- Tách sitemap theo type (posts, pages, products)
- Giới hạn mỗi sitemap tối đa 50.000 URLs
Liên Kết Liên Quan
Xem thêm về technical SEO audit, tối ưu tốc độ trang, duplicate content, internal linking, và XML sitemap SEO.
FAQ — Crawl Budget
Crawl budget có ảnh hưởng đến thứ hạng Google không?
Crawl budget không trực tiếp ảnh hưởng ranking nhưng gián tiếp tác động vì: nếu trang quan trọng không được crawl thường xuyên, cập nhật nội dung sẽ không được index nhanh, ảnh hưởng đến freshness signal và cạnh tranh với các site cập nhật liên tục.
Làm sao biết site bị crawl budget issues?
Dấu hiệu: (1) GSC Coverage report có nhiều “Discovered – currently not indexed” URLs; (2) Trang mới đăng mất nhiều ngày/tuần mới được index; (3) Crawl stats trong GSC giảm bất thường; (4) Log file analysis cho thấy nhiều URLs ít được crawl nhưng quan trọng về SEO.
Nên dùng robots.txt Disallow hay noindex meta tag?
Disallow trong robots.txt ngăn Googlebot crawl hoàn toàn (tiết kiệm crawl budget nhưng không đọc được noindex tag). Noindex meta tag cho phép crawl nhưng không index (tốn crawl budget hơn). Với URLs muốn exclude hoàn toàn và không có giá trị, dùng robots.txt Disallow. Với URLs cần crawl nhưng không index (để đọc canonical), dùng noindex.



