Cách tạo file robots.txt ,chuẩn SEO Onpage
Trước khi đi vào việc hướng dẫn cách tạo file robots.txt, Tôi muốn giới thiệu cho các bạn biết file robots.txt là gì? công dụng của file robots.txt là gì ? Tại sao chúng ta phải tạo file robots.txt ?
Tại sao chúng ta phải tạo file robots.txt ?
- Khi các bọ của search engine crawl một website nào đó thì tập tin đầu tiên các bọ đọc là file robots.txtRobots.txt là gì ? công dụng của file robots.txt là gì ?
- robots.txt là một file dạng text có đuôi .txt có chứa các câu lệnh để cho hay không cho bot của các công cụ tìm kiếm đánh chỉ mục (index) một thự mục nào đó trong website của bạn.- file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của website ( ngang cấp với file index.htm, index.php, default.aspx,….)
Ví dụ
http://seotopten.net/robots.txt
Hướng dẫn cách tạo file robots.txt
Để tạo tập tin robots.txt bạn mở chương trình Notepad và gõ các lệnh, sau đó lưu lại với tên robots.txt và chép vào thư mục gốc của website.3 lệnh cơ bản nhất của 1 tâp tin robots.txt như sau
User-agent: * Allow: /SEO/ Disallow: /wp-includes/
- User-agent : dùng để xác định bot của công cụ tìm kiếm nào.
- Allow: cho phép bot vào thư mục, trang nào đó.
- Disallow: chặn bot vào thư mục, trang nào đó.
Một vài ví dụ huớng dẫn cách sử dụng Robots.txt
1. Chặn tất cả các bot vào webUser-agent: * Disallow: /- với lệnh trên thì không có công cụ tìm kiếm nào lập chỉ mục (index) website của bạn, có nghĩa là các bài viết trên website của bạn sẽ không xuất hiện trong kết quả tìm kiếm của các công cụ tìm kiếm.
2. Không cho bot truy cập vào một thư mục, trang nào đó
User-agent: * Disallow: /wp-includes/ Disallow: /test.html- điều này có nghĩa là cho tất cả các loại bot truy cập vào website và trừ thư mục wp-includes và trang test.html không được truy cập.
3. Chặn 1 bot nào đó
User-agent: SpamBot Disallow: / User-agent: * Disallow: /wp-includes/- spamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-includes”
4. cho phép bot truy cập vào một thư mục, trang nào đó
User-agent: * Allow: /bai-viet/ Allow: /demo.html Disallow: /wp-includes/- cho tất cả bot truy cập vào thư mục bai-viet vài trang demo, nhưng không truy cập được thu mục wp-includes
5. có bao nhiêu loại bot ?
để có được danh sách các loại bot bạn xem ở đây : www.useragentstring.com/pages/Crawlerlist/
*** Tự động tạo robots.txt
Nếu bạn có sử dụng Google Webmaster thì họ cũng cho phép bạn tạo robots.txt hoặc bạn có thể sử dụng Robots.txt Generator để tự động tạo file robots.txt cho mìnhSau khi bạn đã tạo xong file robots.txt (đừng quên chữ S), bạn chỉ việc upload lên thư mục gốc là hoàn thành
Những lưu ý khi tạo file robots.txt
khi các bạn tạo và sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót và cần chú ý các điểm sau:- Không thay đổi trật tự của các dòng lệnh (User-agent luôn ở trên).
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
- Không được để khoảng trắng ở đầu dòng lệnh
0 nhận xét:
Đăng nhận xét