Crawl Budget là gì?

Crawl budget là số lượng URL Googlebot sẵn sàng crawl và index trên website của bạn trong một khoảng thời gian nhất định. Theo Google, crawl budget được xác định bởi hai yếu tố: Crawl Rate Limit (tốc độ crawl không làm chậm server) và Crawl Demand (mức độ Google muốn crawl site dựa trên popularity và freshness).

📊 Theo Google Search Central 2025, website có hơn 10.000 trang mà không quản lý crawl budget có thể bị Googlebot bỏ qua đến 40% trang quan trọng.

Crawl Budget Quan Trọng với Ai?

Google đã xác nhận crawl budget không phải vấn đề với hầu hết websites nhỏ (<1.000 URLs). Tuy nhiên, crawl budget cực kỳ quan trọng với:

Ecommerce sites với hàng trăm nghìn trang sản phẩm
News sites cần index bài mới nhanh
Sites có nhiều faceted navigation URLs
Sites bị duplicate content nghiêm trọng
Enterprises sites với hàng triệu trang

Yếu Tố Ảnh Hưởng đến Crawl Budget

1. Site authority và popularity

Sites có domain authority cao, nhiều backlinks chất lượng được Google phân bổ crawl budget lớn hơn. Đây là lý do quan trọng để đầu tư vào link building.

2. Server response time

Nếu server phản hồi chậm (>500ms), Googlebot giảm tốc độ crawl để không overload server. Cải thiện tốc độ trang trực tiếp giúp tăng crawl rate.

3. Số lượng URLs cần crawl

Sites có nhiều URLs (đặc biệt là URL vô giá trị) phân tán crawl budget. Google phải “lãng phí” crawl budget vào các trang không quan trọng.

Các Lãng Phí Crawl Budget Phổ Biến

Nguyên nhân	Mô tả	Giải pháp
Faceted navigation	URLs từ filter/sort tạo ra hàng nghìn URL	Noindex hoặc disallow trong robots.txt
Session IDs trong URL	?sessionid=xyz123 tạo duplicate URLs	Dùng cookies thay URL parameters
Thin/duplicate pages	Tag pages, archive pages trùng nội dung	Canonical, noindex, hoặc consolidate
Broken links (404)	Googlebot waste time crawl 404 pages	Fix broken links, update redirects
Infinite scroll/pagination	URLs pagination không có limit	Limit pagination, dùng rel=next/prev
Old/removed products	Trang sản phẩm hết hàng vẫn accessible	301 redirect hoặc 410 Gone

Cách Tối Ưu Crawl Budget

1. Kiểm tra crawl stats trong Google Search Console

Vào GSC → Settings → Crawl stats để xem số trang Googlebot crawl mỗi ngày, response codes, và crawl rate.

2. Tối ưu robots.txt

Disallow các section không cần index:

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /search?

3. Sử dụng noindex đúng chỗ

Tag pages, author archives với ít posts
Pagination pages từ trang 3+ (tùy site)
Internal search results pages
Thin content pages không có giá trị SEO

4. Cải thiện tốc độ server

Server response time <200ms giúp Googlebot crawl nhanh hơn. Dùng CDN, optimize database queries, và caching plugin.

5. Fix 4xx và redirect chains

Crawl toàn site với Screaming Frog, fix tất cả broken links và redirect chains dài (>2 hops).

6. Cải thiện internal linking

Trang quan trọng cần nhiều internal links để Googlebot tìm thấy và crawl thường xuyên hơn.

XML Sitemap và Crawl Budget

Sitemap không tăng crawl budget nhưng giúp Google biết URL nào quan trọng và cần được ưu tiên. Best practices:

Chỉ đưa vào sitemap URLs bạn muốn index
Cập nhật lastmod chính xác (không fake ngày)
Tách sitemap theo type (posts, pages, products)
Giới hạn mỗi sitemap tối đa 50.000 URLs

Liên Kết Liên Quan

Xem thêm về technical SEO audit, tối ưu tốc độ trang, duplicate content, internal linking, và XML sitemap SEO.

FAQ — Crawl Budget

Crawl budget có ảnh hưởng đến thứ hạng Google không?

Crawl budget không trực tiếp ảnh hưởng ranking nhưng gián tiếp tác động vì: nếu trang quan trọng không được crawl thường xuyên, cập nhật nội dung sẽ không được index nhanh, ảnh hưởng đến freshness signal và cạnh tranh với các site cập nhật liên tục.

Làm sao biết site bị crawl budget issues?

Dấu hiệu: (1) GSC Coverage report có nhiều “Discovered – currently not indexed” URLs; (2) Trang mới đăng mất nhiều ngày/tuần mới được index; (3) Crawl stats trong GSC giảm bất thường; (4) Log file analysis cho thấy nhiều URLs ít được crawl nhưng quan trọng về SEO.

Nên dùng robots.txt Disallow hay noindex meta tag?

Disallow trong robots.txt ngăn Googlebot crawl hoàn toàn (tiết kiệm crawl budget nhưng không đọc được noindex tag). Noindex meta tag cho phép crawl nhưng không index (tốn crawl budget hơn). Với URLs muốn exclude hoàn toàn và không có giá trị, dùng robots.txt Disallow. Với URLs cần crawl nhưng không index (để đọc canonical), dùng noindex.

Crawl Budget là gì? Cách Tối Ưu để Googlebot Crawl Trang Quan Trọng

Crawl Budget là gì?

Crawl Budget Quan Trọng với Ai?