Robots.txt

Robots.txt là gì? Cách tạo file robots.txt tối ưu SEO cho website

File robots.txt thường được sử dụng để tối ưu trình thu thập dữ liệu của các công cụ tìm kiếm. Qua đó, bạn có thể cải thiện SEO cho website.

Đa phần những bạn mới học SEO và làm website se không biết về tầm quan trọng file robots.txt và cách cấu hình file này, trong bài viết này mình sẽ giúp bạn hiểu rõ về Robots.txt.

File robots.txt là gì?

File robots.txt là một file văn bản nhỏ có đuôi .txt nằm trong mỗi trang web giúp cho bot Google có thể thu thập dữ liệu website nhanh hơn.

File Robots.txt có các dòng lệnh cho phép bot thu thập dữ liệu hoặc ngăn chặn bot thu thập các dữ liệu không cần thiết lên kết quả tìm kiếm của người dùng.

Muốn kiểm tra xem trang web của bạn đã tồn tại file này hay chưa?

Rất đơn giản, hãy thêm đuôi /robots.txt vào sau URL trang web của bạn (ví dụ: yourdomain.com/robots.txt) và tìm kiếm trên trình duyệt web.

Ví dụ như Blogcasestudy.com của mình:

Trong trường hợp website bạn hiện ra trang 404 đó là do website bạn chưa có file Robots.txt, lúc này bạn cần phải tự tạo file Robots.txt và upload lên hosting/VPS đang lưu trữ website của bạn.

Tại sao file robots.txt lại quan trọng với mọi website?

Đa số mọi người xây dựng website đều mong muốn được Google chú ý và đưa lên vị trí cao trên SERP (trang hiển thị kết quả khi người dùng search từ khóa) và để thuận tiện hơn trong việc giúp bot của các công cụ tìm kiếm thu thập dữ liệu thì các webmasters sẽ sử dụng file Robots.txt để giúp bot hiểu được đâu là các dữ liệu cần ưu tiên index, đâu là các dữ liệu không quan trọng và không cần index.

Theo Google, để trình thu thập dữ liệu truy cập và lập chỉ mục nội dung của một trang web cần một khoảng thời gian và tài nguyên nhất định.

Mỗi một website chỉ được index một lượng url nhất định, đừng nghĩ rằng bạn tạo ra 10000 bài viết trên website và tất cả đều được Google index, bot Google sẽ tự index những gì mà nó cào được khi truy cập vào website và dĩ nhiên chúng ta chỉ muốn hiển thị các url quan trọng lên top, còn các bài viết không có giá trị hoặc không cần index thì phải ngăn chặn bot lập chỉ mục để tránh tốn tài nguyên của website.

Đối với các website lớn

Nếu website của bạn có quá nhiều trang, thư mục con hay dữ liệu (các tệp, hình ảnh,…) có thể sẽ khiến các robot không đủ thời gian, tài nguyên để thu thập tất cả chúng.

Điều này vô tình có thể làm robot bỏ qua các dữ liệu, trang quan trọng website cần SEO mà tiêu tốn tài nguyên để thu thập những nội dung ít quan trọng hơn hoặc không phải nội dung đem lại lợi nhuận cho các chủ website.

Đây chính xác là lúc file robots.txt có thể được sử dụng để khắc phục được các nhược điểm trên.

Bằng cách chỉnh sửa file robots.txt, các chủ website có thể phân bổ tài nguyên của Googlebot đến những trang quan trọng, chất lượng hơn. Từ đó Google sẽ có thể đánh giá và xếp hạng bạn cao hơn trên công cụ tìm kiếm của họ.

Đối với các website mới và nhỏ

Đối với các website mới thì sao? Đặc điểm có hầu hết ở các trang web mới là chứa nhiều nội dung chưa thực sự chất lượng hoặc có thể ở mức tệ.

Việc để Googlebot thu thập những nội dung như vậy sẽ khiến nó hiểu rằng trang web của bạn có chất lượng thấp.

Điều này sẽ khiến website của bạn bị giảm thứ hạng hoặc tệ hơn Google sẽ hạn chế đáng kể việc thu thập, index dữ liệu của bạn lên công cụ tìm kiếm.

“Nhìn chung, việc tạo file robots.txt sẽ giúp trình thu thập dữ liệu của các công cụ tìm kiếm như Google tối ưu tài nguyên đến những nội dung chất lượng hơn, các trang web quan trọng hơn với website.

Đồng thời có thể hạn chế hoặc không cho phép nó thu thập hay index những nội dung không quan trọng, nội dung mà bạn không cho phép nó truy cập.”

Hướng dẫn tạo và tối ưu hóa file robots.txt cho SEO

Trước tiên, mình sẽ giải thích cho bạn các thuộc tính và lệnh thường dùng cho file Robots.txt.

User-agent: Phần này sẽ là tên của các trình thu thập dữ liệu như. Nó giúp các quy tắc bạn đặt ra có thể áp dụng cho tất cả hoặc từng loại trình thu thập dữ liệu riêng biệt (ví dụ: Googlebot, LinkedInBot, Bingbot,…)

Allow: Phần này thường chỉ có tác dụng với Googlebot. Nó chứa các đường dẫn trang hoặc tệp mà bạn cần Googlebot thu thập dữ liệu.

Disallow: Được sử dụng để thông báo cho các trình thu thập dữ liệu biết những trang nào nó không được phép thu thập dữ liệu (không đồng nghĩa với việc bot sẽ không lập chỉ mục các trang của bạn lên kết quả tìm kiếm).

Trang web của điện máy xanh sử dụng rất nhiều lệnh disallow để ngăn Googlebot thu thập dữ liệu những trang không cần thiết

Noindex: Được dùng khi bạn có một trang nào đó mà không muốn nó được index.

Bạn cũng thể bổ sung thêm XML Sitemap vào cuối cùng của file giúp Googlebot index các nội dung nhanh hơn.

Qua những lệnh cơ bản trên, bạn đã có thể dễ dàng điều khiển các trình thu thập dữ liệu theo nhu cầu.

Dưới đây là tệp robots.txt đơn giản mình tạo ra cho một website của mình hiện tại, bạn có thể copy về để dùng:

User-agent: * Allow: /wp-admin/admin-ajax.php

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /wp-admin/

Disallow: /readme.html

Disallow: /refer/

Allow: /*.js$

Allow: /*.css$

Sitemap: https://blogcasestudy.com/sitemap.xml

Bạn hãy mở trình soạn Notepad lên và copy dòng lệnh mình vừa để phía trên và lưu lại với name là “Robots.txt” sau đó save lại là được

Tải tệp Robots.txt lên hosting

Hãy làm theo các bước sau để tải lên file robots.txt và bắt đầu áp dụng nó trên website của bạn.

Bước 1: Truy cập vào File Manager

Bước 2: Chọn tới thư mục website của bạn (mặc định là public_html)

Bước 3: Upload thành công và kiểm tra kết quả bằng cách truy cập vào domain.com/robots.txt

Kết luận

Hy vọng qua những chia sẻ của mình bạn đã định nghĩa được file robots.txt là gì cũng như cách tạo và ứng dụng nó vào việc tối ưu trình thu thập dữ liệu của các công cụ tìm kiếm, từ đó giúp tăng thứ hạng SEO cho website.

Nếu có bất kỳ thắc mắc nào về chủ đề này, đừng ngần ngại để lại câu hỏi, mình sẽ hỗ trợ giải đáp bạn trong thời gian sớm nhất có thể.

guest
2 Comments
Inline Feedbacks
View all comments
Đỗ Minh Nhật
Đỗ Minh Nhật

Cái dòng cuối trong tệp lệnh nãy mình thay tên website của mk vào lại là đc phải không anh