SEO

Duplicate Content là gì? Tổng hợp 30 nguyên nhân và cách khác phục hiệu quả nhất 2021

Tôi chắc rằng ngay lúc này, tại đây bạn đang có một câu hỏi rất lớn đối với cụm từ “Duplicate Content!?”. Nó thật sự là vấn đề không chỉ riêng của những người chuyên về Content, Marketing, SEOer,… mới quan tâm. Mà nó còn là một đề tài của mọi người, mọi ngành nghề nếu đang sở hữu hoặc làm việc trên website.

Bạn đã quá băn khoăn khi nghe một ai đó nhắc về Duplicate Content là gì chưa, như:

  • Nội dung bị Duplicate Content sẽ 100% gây hại đến website, có thể bị Google phạt.
  • Hay, Duplicate Content thật sự không ảnh hưởng xấu đến website, không cần chú ý quá nhiều.

Tuy nhiên, đây mới thật sự là thắc mắc của bạn về Duplicate Content:

  • Duplicate Content là gì?
  • Duplicate Content thật sự là vấn đề gì về nội dung?
  • Nếu Duplicate Content ảnh hưởng xấu đến website thì cách xử lý như thế nào?
  • Đặc biệt hơn, cách nào để phát hiện trùng lặp nội dung và cách Check Duplicate Content trên website?

Tôi cũng từng như bạn và hiểu bạn đang cần gì. Đó là lý do tôi gửi đến bạn nội dung hướng dẫn sau. Đây sẽ lời giải cho tất cả các câu hỏi của bạn về Duplicate Content và hơn thế.

Tìm hiểu ngày nào!

Duplicate Content là gì?

Hiểu theo nghĩa hẹp thì Duplicate Content chính là những nội dung trên một hoặc nhiều website khác nhau nhưng lại có ý nghĩa tương tự hoặc hoàn toàn giống nhau. Hiểu theo nghĩa rộng hơn thì Duplicate Content là gì? Nó là nội dung mang lại ít hoặc gần như không có giá trị đối với người dùng. Vì thế, các trang có ít hoặc không có nội dung hữu ích với người dùng thường được xem là Duplicate Content.

duplicate-content-la-gi

Tại sao Duplicate Content có hại cho SEO?

Duplicate Content có thể làm ảnh hưởng rất xấu đến SEO vì hai lý do chính sau đây:

  • Khi có quá nhiều phiên bản nội dung giống nhau thì rất khó để công cụ tìm kiếm có thể xác định được nên index phiên bản nào. Cũng như nên hiển thị phiên bản nào trong trang kết quả tìm kiếm. Điều này sẽ làm giảm hiệu suất của tất cả các phiên bản nội dung bởi chúng đang cạnh tranh lẫn nhau.
  • Các công cụ tìm kiếm sẽ gặp phải rất nhiều khó khăn khi cố gắng hợp nhất số liệu liên kết. Ví dụ như mức độ liên quan, mức độ ảnh hưởng và mức độ tin cậy cho nội dung. Đặc biệt là khi các website khác liên kết với nhiều phiên bản nội dung đó.

Google có phạt Duplicate Content không?

Duplicate Content sẽ gây ảnh hưởng rất xấu đến hiệu suất SEO của website của bạn. Nhưng nó sẽ không khiến cho website bị Google phạt nếu như bạn không cố tình sao chép nội dung từ những website khác.

Nếu bạn sử dụng một vài kỹ thuật trong website của mình nhưng không cố tình đánh lừa Google thì bạn không cần phải quá lo lắng về việc bị Google phạt.

Nếu bạn đã sao chép một lượng lớn nội dung từ những website khác. Thì chắc chắn bạn đang đứng ở ranh giới rất mỏng manh. Bởi Google đã từng lên tiếng về vấn đề Duplicate Content như sau:

“Duplicate content trên một website không phải là cơ sở để chúng tôi áp dụng hình phạt. Google sẽ chỉ phạt khi website sử dụng Duplicate Content để đánh lừa và cố gắng thao túng kết quả của công cụ tìm kiếm.

Nếu website của bạn đang gặp vấn đề về Duplicate content và bạn không tuân theo các khuyến cáo của Google. Thì chúng tôi sẽ lựa chọn phiên bản nội dung tốt nhất để hiển thị trong kết quả tìm kiếm”

15 Nguyên nhân phổ biến dẫn đến Duplicate Content và Cách khắc phục

Có rất nhiều nguyên nhân dẫn đến lỗi Technical SEO – Duplicate Content. Tuy nhiên, tôi đã tổng hợp lại cho bạn 15 nguyên nhân thường gặp dẫn đến vấn đề này và cách để bạn giải quyết chúng.

Có thể bạn quan tâm: Technical SEO: Hướng dẫn sử dụng Technical SEO từ A-Z.

1. Faceted/Filtered Navigation

Faceted Navigation – Hay còn gọi là điều hướng nhiều chiều. Đây là nơi mà người dùng có thể lọc và sắp xếp các mục trên trang web. Các website thương mại điện tử thường xuyên sử dụng nó.

Bởi vì thường có nhiều sự kết hợp của các bộ lọc. Điều hướng nhiều chiều dẫn đến Duplicate Content hoặc gần trùng lặp.

Cùng xem xét 2 ví dụ sau đây để hiểu rõ hơn về nguyên nhân này nhé:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

Các URL này là duy nhất, nhưng nội dung lại gần như giống hệt nhau.

Ngoài ra, thứ tự của các tham số thường không quan trọng. Ví dụ: bạn có thể truy cập cùng một trang khi sử dụng 1 trong 2 URL sau:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

Cách sửa chữa:

Faceted navigation là một vấn đề hết sức phức tạp. Nếu như bạn nghi ngờ thì đây chính là nguyên nhân dẫn đến Duplicate Content. Hãy quyết định xem bạn muốn Google index những trang nào. Sau đó, hãy tăng số lượng trang hữu ích đã được index và bỏ đi những trang không cần thiết trên website.

2. Tracking Parameters

Các URL được tham số hóa cũng cần được sử dụng để theo dõi. Ví dụ, ta có thể sử dụng thông số UMT để theo dõi lượt truy cập trong phần chiến dịch bản tin của Google Analytics:

Ví dụ: example.com/page?utm_source=newsletter

Cách sửa chữa:

Chuẩn hóa các URL được tham số hóa của bạn để có được các phiên bản thân thiện với SEO mà không cần có các thông số theo dõi.

3. Session IDs

Session IDs lưu trữ thông tin về khách truy cập vào website. Chúng thường nối một chuỗi dài vào URL như sau:

Ví dụ: example.com?sessionId=jow8082345hnfn9234

Cách khắc phục:

Chuẩn hóa các URL để có được các phiên bản thân thiện với SEO.

4. HTTPS với HTTP và non-www với www

Bạn có thể truy cập vào website bằng một trong 4 biến thể dưới đây:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

Phiên bản sử dụng HTTPS chính là hai URL đầu tiên. Dù là dùng phiên bản có www hay không có www thì bạn vẫn có thể truy cập website được.

Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ. Thì website của bạn sẽ có thể được truy cập bằng những biến thể này. Điều này thực sự không tốt và có thể dẫn đến vấn đề Duplicate Content.

Cách sửa chữa:

Sử dụng chuyển hướng để đảm bảo website của bạn chỉ có thể được truy cập bằng một phiên bản duy nhất.

5. URL phân biệt chữ hoa chữ thường

URL phân biệt chữ hoa chữ thường nghĩa là 3 URL dưới đây đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

Cách sửa chữa:

Nhất quán với các liên kết nội bộ (nghĩa là không liên kết nội bộ với quá nhiều phiên bản URL). Nếu cách này không giải quyết được vấn đề bạn đang gặp phải với Duplicate Content là gì nữa, thì có thể thử chuẩn hóa hoặc chuyển hướng.

6. Dấu gạch chéo theo sau so với dấu gạch chéo không theo sau

Google không xem xét đến vấn đề các URL có hay không có dấu gạch chéo theo sau. Điều đó có nghĩa là Google xem 2 URL dưới đây như một:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể được truy cập bằng cả hai URL thì sẽ dẫn đến lỗi Duplicate Content. Để Check Duplicate Content xem đây có phải sự cố hay không, hãy thử dùng cả URL có và không có dấu gạch chéo theo sau.

Ví dụ: Nếu bạn cố gắng tải bài đăng của mình bằng URL không có dấu gạch chéo, nó sẽ chuyển hướng đến URL có dấu gạch chéo.

Cách sửa chữa:

Chuyển hướng phiên bản mà bạn không mong muốn. Ví dụ: Không có dấu gạch chéo theo sau, sang phiên bản mong muốn (ví dụ: có dấu gạch chéo theo sau). Bạn cũng nên đảm bảo luôn luôn nhất quán các liên kết nội bộ. Hãy chọn một phiên bản duy nhất và sử dụng xuyên suốt cho tất cả các URL.

7. URL thân thiện với bản in

URL thân thiện với bản in có nội dung giống như bản gốc. Và nó đơn giản chỉ là một URL khác mà thôi.

  • example.com/page
  • example.com/print/page

Cách sửa chữa:

Chuẩn hóa các phiên bản thân thiện thành phiên bản bản gốc.

8. URL thân thiện với thiết bị di động

Tương tự như các URL thân thiện với bản in thì các URL thân thiện với thiết bị di động cũng là trùng lặp.

Ví dụ:

  • example.com/page
  • m.example.com/page

Cách sửa chữa:

Chuẩn hóa phiên bản để nó thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng rel=“alternate” để nhắc nhở Google rằng URL này thân thiện với các thiết bị di động là phiên bản thay thế cho phiên bản nội dung trên máy tính để bàn.

9. URL AMP

Các trang thiết bị di động được tăng tốc (AMP) cũng là các bản trùng lặp.

Ví dụ:

  • example.com/page
  • example.com/amp/page

Cách khắc phục:

Chuẩn hóa phiên bản AMP thành phiên bản không sử dụng AMP. Sử dụng rel=”amphtml” để thông báo với Google rằng các URL AMP là phiên bản thay thế cho các nội dung không chứa AMP.

Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ canonical tự tham chiếu (self-referencing canonical tag).

10. Tag và Category Pages

Hầu hết các CMS (Hệ quản trị nội dung) đều tạo các trang có các thẻ chuyên dụng khi bạn sử dụng thẻ.

Ví dụ: Nếu bạn có một bài viết về Whey Protein hữu cơ. Và bạn đang sử dụng cả 2 cụm từ khóa chính là “bột protein” và “whey” làm thẻ thì bạn sẽ kết thúc với hai trang thẻ như sau:

  • https://www.calton Nutrition.com/tag/whey/
  • https://www.calton Nutrition.com/tag/protein-powder/

Điều này không phải lúc nào cũng dẫn đến Duplicate Content nhưng đôi khi nó cũng gây ra vấn đề này.

Trường hợp dưới đây, chỉ có một trang trên website có hai thẻ – Vì vậy mỗi trang đều giống hệt nhau.

trang-thu-nhat-bi-duplicate-content
Trang thứ nhất dùng cụm từ “bột protein”
trang-thu-hai-bi-duplicate-content
Trang thứ hai dùng cụm từ “whey”

Cách sửa chữa:

Có 2 cách giải quyết như sau:

  1. Không sử dụng thẻ. Bởi chúng có rất ít hoặc thậm chí là chẳng có giá trị gì.
  2. Không index các trang có quá nhiều thẻ. Điều này sẽ không giải quyết được vấn đề về ngân sách thu nhập dữ liệu bởi Google sẽ vẫn dành thời gian thu thập thông tin những trang này.

Lưu ý rằng các trang danh mục có thể dẫn đến vấn đề tương tự như các trang có nhiều thẻ. Ví dụ như:

  • https://www.xs-stock.co.uk/adidas/
  • https://www.xs-stock.co.uk/brands/Chelsea-FC.html

Cả 2 trang này gần như là giống hệt nhau vì không có sản phẩm nào được liệt kê trong cả 2 danh mục. Do đó, tất cả những gì chúng ta nhìn thấy chỉ là bản sao mẫu đã được soạn sẵn.

Cách sửa chữa:

Sử dụng số lượng vừa phải các danh mục trên website hoặc thậm chí là không index các trang danh mục của bạn.

11. URL hình ảnh đính kèm

Nhiều CMS tạo ra các trang dành riêng cho tệp đính kèm hình ảnh. Những trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao chép mẫu.

Bởi vì bản sao này giống nhau xuyên suốt tất cả các trang được tạo tự động nên nó dẫn đến Duplicate Content.

Cách sửa chữa:

Tắt các trang dành riêng cho hình ảnh trong CMS. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.

12. Nhận xét được phân trang

WordPress và các CMS cho phép nhận xét được phân trang. Điều này cũng dẫn đến Duplicate Content bởi vì nó tạo ra nhiều phiên bản của cùng một URL.

Ví dụ:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Cách sửa:

Tắt phân trang nhận xét hoặc không lập chỉ mục những trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.

13. Localization

Nếu bạn đang phân bổ một nội dung tương tự cho nhiều người ở nhiều quốc gia khác nhau nhưng sử dụng chung một ngôn ngữ (ví dụ: tiếng Anh) thì cũng sẽ dẫn đến vấn đề Duplicate Content.

Ví dụ: Bạn có thể thiết kế từng phiên bản website khác nhau cho người dùng ở Mỹ, Anh và Úc. Mỗi phiên bản đều dành riêng cho mỗi quốc gia này sẽ gần như trùng lặp nhau và chỉ khác nhau ở một vài điểm nhỏ.

Chẳng hạn như sử dụng từ “đô la” trong nội dung dành cho người Mỹ và “bảng Anh” trong nội dung dành cho người Anh.

Tuy nhiên, theo John Mueller thì nội dung bản dịch không phải là Duplicate Content.

Cách sửa:

Sử dụng thẻ Hreflang để thông báo cho các công cụ tìm kiếm biết về mối quan hệ giữa các biến thể.

14. Trang kết quả tìm kiếm

Rất nhiều website có hộp tìm kiếm. Việc sử dụng những hộp này thường tạo ra một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

Cách khắc phục:

Sử dụng thẻ Meta Robot để xóa các trang tìm kiếm khỏi danh sách chỉ mục của Google hoặc chặn quyền truy cập của googke vào các trang chứa kết quả tìm kiếm trong tệp robots.txt. Hạn chế liên kết nội bộ từ các trang đó đến các trang chứa kết quả tìm kiếm trên website của bạn.

15. Môi trường Staging

Môi trường Staging là một phiên bản trùng hoặc gần trùng lặp của website được sử dụng với mục đích thử nghiệm.

Ví dụ: Hãy tưởng tượng rằng bạn muốn cài đặt một Plugin mới hoặc thay đổi một vài dòng code trên website của mình. Tất nhiên là bạn sẽ không muốn hiển thị chúng ra website của mình bởi mỗi ngày, có hàng ngàn khách truy cập vào xem nó.

Do đó, hãy kiểm tra những thay đổi trong môi trường staging trước. Tuy nhiên, môi trường Staging lại ảnh hưởng đến SEO khi Google vẫn index chúng và dẫn đến vấn đề Duplicate Content.

Cách khắc phục:

Để bảo vệ môi trường Staging. Bạn nên sử dụng xác thực HTTP, danh sách trắng các địa chỉ IP hoặc quyền truy cập VPN. Nếu nó vẫn được index thì hãy sử dụng lệnh ngăn index tự động để xóa nó.

Cách Check Duplicate Content trên website

Duplicate Content là nội dung xuất hiện trên nhiều vị trí trực tuyến khác nhau. Điều này có nghĩa là các website khác nhau. Nếu như bạn đăng nội dung của mình ở quá nhiều nơi thì sẽ dẫn đến Duplicate Content.

Nếu bạn sao chép nội dung của những người khác và đăng tải nó lên website của mình. Hoặc thậm chí là họ đăng những nội dung của bạn lên website của họ thì đều bị xem là Duplicate Content.

Vậy làm sao để Check Duplicate Content xem nội dung của mình có bị mắc lỗi Duplicate Content hay không?

Sử dụng Google để Check Duplicate Content

Cách nhanh chóng để kiểm tra xem một trang có bị xem là chứa nội dung trùng lặp (Duplicate Content) hay không chính là sao chép khoảng 10 từ đầu tiên của bài viết và để chúng vào dấu ngoặc kép. Sau đó, bỏ chúng lên Google. Đây là cách mà Google đề xuất để Check Duplicate Content.

Nếu như bạn chỉ kiểm tra mỗi Duplicate Content trong nội bộ trang của website của mình thì sẽ không nhận được kết quả hữu ích nào cả.

Nếu các website khác hiển thị tốt tương tự như website của bạn. Google sẽ đánh giá xem trang nào là trang nguồn gốc và hiển thị nó trước. Nếu website của bạn không được hiển thị đầu tiên nghĩa là đã gặp vấn đề Duplicate Content.

Các Tool miễn phí hỗ trợ Check Duplicate Content Online

Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online.

  1. Copyscape – Với công cụ Check Duplicate Content Online này, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra được nội dung của mình có trùng lặp với những nội dung đã được đăng lên trước đó hay không. Công cụ so sánh này sẽ làm nổi bật nội dung trùng lặp, cũng như ghi rõ trùng lặp bao nhiêu phần trăm.
  2. Plagspotter – Công cụ này có thể xác định được các trang web có nội dung trùng lặp trên website. Đây là một công hết sức tuyệt vời để xác định được website nào đã đánh cắp nội dung từ website của bạn. Nó cũng cho bạn phép bạn tự động theo dõi các URL của mình hàng tuần để xác định Duplicate Content.
  3. Duplichecker – Công cụ này kiểm tra nhanh chóng tính duy nhất của nội dung mà bạn dự định đăng lên website của mình. Những người dùng đã đăng ký công cụ này có thể thực hiện tối đa 50 lượt tìm kiếm/ngày.
  4. Siteliner – Công cụ này giúp bạn có thể kiểm tra được toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Nó cũng có thể kiểm tra được các liên kết bị hỏng. Và xác định được những trang nổi bật nhất đối với các công cụ tìm kiếm.
  5. Smallseotools – Có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.

Lời kết

Hy vọng qua bài viết này, bạn đã biết rõ được Duplicate Content là gì và những tác hại mà nó có thể gây ra đối với website của bạn. Do đó, trước khi bạn đăng bất cứ bài viết nào đó, bạn nên sử dụng các công cụ Check Duplicate Content Online mà tôi vừa nên bên trên để đảm bảo nội dung của mình là duy nhất.

Chỉ cần bạn làm theo hướng dẫn này và nghiêm túc trong việc quản lý Duplicate Content. Bạn sẽ cải thiện thứ hạng của mình và tránh những lỗi không đáng có trên website.

Chúc bạn thành công!

Cảm ơn bạn đã đọc hết bài viết trên của VIDCOGROUP mọi ý kiến và thắc mắc vui lòng để lại dưới phần Comment.

Tham khảo bài viết:

  1. Sitemap là gì? Hướng dẫn cách tạo Sitemap & 15 Mẹo tối ưu Sitemap cho Website
  2. 6 Tips viết Content Marketing mà bạn không thể bỏ qua.
  3. Schema là gì? Schema ảnh hưởng đến SEO như thế nào?

Author

nguyendaihai