Go to top

Trang chủ  » Thiết kế website giá rẻ

Bảo vệ thông tin ‘nhạy cảm’ khỏi các chương trình tìm kiếm

Cụm từ “Robots” có thể bạn đã được nghe tới nhiều lần trong các bộ phim khoa học viễn tưởng. Tuy nhiên, nếu bạn sở hữu một trang web, bạn sẽ hiểu đây sẽ là một tệp tin rất quan trọng. Vậy vay trò của của Robots.txt là gì? Làm thế nào để sử dụng Robots.txt? Bài viết giúp bạn vén bớt một phần tấm màn “bí mật” xung quanh tệp tin này.

 

 

Khác các công cụ hỗ trợ tìm kiếm khác, tệp tin Robots.txt xác định những gì các cỗ máy tìm kiếm (search engine robot) không được phép “bén mảng”- bao gồm cả các cây thư mục hoặc các tệp tin cụ thể. Robots.txt còn xác định cả các chủng loại công cụ rò tìm thông tin trực tuyến nào được phép rà quét thông tin; ví dụ phần lọc và lưu trữ email, phần mềm “ngửi” nội dung (content sniffer), phần mềm tìm kiếm thông tin dạng thống kê v.v… (bạn có thể duyệt trang web http://www.robotstxt.org/wc/active.html để xem danh sách các chủng loại “robot” và tính năng của chúng). Như vậy, nhìn tổng thể vai trò của Robots.txt là chối bỏ quyền truy nhập của một số công cụ tìm kiếm thông tin trực tuyến, bảo vệ nhiều tệp tin nhà quản trị cần thiết phải để “online” nhưng lại không muốn ai cùng “chia sẻ”.

 

 

Hầu hết các website không có tệp tin Robots.txt. Đương nhiên, không vì thế mà các trang web không vận hành bình thường hoặc ít được mọi người biết tới. Vậy lý do gì các nhà quản trị nên nhanh chóng tạo lập tệp tin Robots.txt?

 

 

Thứ nhất, không phải cỗ máy tìm kiếm nào cũng được triển khai với ý đồ tốt hoặc ít nhất là vô hại. Trên thực tế, số lượng lớn các cỗ máy rà quét thông tin để lượm lặt địa chỉ email- công đoạn đầu tiên trong chiến dịch gửi thư rác hàng loạt (spam).

 

 

Thứ hai, website của bạn có lẽ chưa hoàn thiện và có những thông tin bạn chưa thể ngay lập tức tung ra. Cụ thể, một đường dẫn “không dẫn tới đâu cả” có thể để lại ấn tượng xấu đối với người truy nhập.

 

 

Thứ ba, website của bạn có khu vực dành riêng cho thành viên đăng nhập (có thể tính phí) và bạn không muốn bất cứ công cụ tìm kiếm nào bén mảng tới- Robots.txt là cách duy nhất bạn có thể chặn đứng các ‘spider’.

 

 

Thứ tư, bạn muốn giữ một số tệp tin “bí mật” (có thể là các thông tin cá nhân). Những tệp tin này không có đường dẫn liên kết tới nhưng lại chứa các đường dẫn liên kết ra bên ngoài. Nếu không sử dụng Robots.txt, khó có thể loại trừ tình huống các công cụ rà quét thông tin “lần” theo đường liên kết ra ngoài của tệp tin nhạy cảm và tìm ra chúng.

 

 

Tạo tệp tin Robots.txt: Đơn giản!

 

 

Chỉ cần dùng một chương trình soạn thảo văn bản thông dụng (ví dụ Notepad, Nottab Light…) người dùng không chuyên cũng có thể tạo cho mình một tệp tin Robots.txt. Hãy tham khảo một câu lệnh (syntax) của tệp tin:

 

 

User-agent:

 

Disallow:

 

 

Dòng lệnh thứ nhất xác định loại công cụ tìm kiếm không được phép rà quét thông tin trong một khu vực được định sẵn. Dòng lệnh thứ hai (có thể là 3, 4 v.v…) xác định “khu vực cấm” đối với các chương trình rà quét thông tin bị “điểm danh” trong dòng lệnh một (User-agent). Sau khi tạo (lưu ở định dạng .txt), hãy đẩy tệp tin lên thư mục gốc (Root- nơi lưu trữ các tệp tin kiểu index.html, index.php, index.asp …)

 

 

Tăng cường hơn nữa tính năng của Robots.txt, bạn có thể tham khảo một số snippets:

 

 

User-agent: *

 

Disallow: /

 

 

Tổ hợp mã này loại bỏ quyền tìm kiếm đối với mọi công cụ tìm kiếm trong một máy chủ (server) duy nhất.

 

 

User-agent: *

 

Disallow: /cgi-bin/

 

Disallow: /tmp/

 

Disallow: /private/

 

 

Tổ hợp mã không cho phép các công cụ tìm kiếm thâm nhập các thư mục /cgi-bin, /tmp và /private.

 

 

User-agent: esculapio

 

Disallow: /secret

 

 

Tổ hợp phím không cho phép công cụ tìm kiếm esculapio (một chương trình rà quét thông tin theo đường dẫn hoạt động trên nền Linux) thâm nhập thư mục /secret.

 

 

Như chúng ta đã thấy, Robots.txt khá thú vị và thực sự là một tệp tin quan trọng và hữu ích. Để tìm hiểu thêm thông tin chi tiếp về tệp tin này, bạn có thể truy nhập website http://www.robotstxt.org.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Các tin tức khác:

Security tài nguyên mạng với quyền truy cập NTFS - Phần 5

Các phần mềm hữu ích giúp quản lý file,thư mục, email, Internet và bảo và bảo vệ máy tính

Lỗi máy chủ Windows khiến 800 máy bay mất liên lạc

Tạm hoãn việc thành lập tên miền .XXX

Phlooding làm 'lụt' hệ thống xác thực mạng doanh nghiệp

Paul Otellini - nhà chiến lược mới của Intel

Trò lừa cảnh báo virus điện thoại di động 'mò' vào Việt Nam

Tùy biến thao tác Copy và Cut trong hệ điều hành Windows

Jamaica: Nhắn tin SMS vào điện thoại... cố định

Phân tích đối thủ cạnh tranh trong SEO

Danh mục

Hãy gọi cho chúng tôi để được tư vấn miễn phí

0989 722 522

TRUNG TÂM PHÁT TRIỂN WEBSITE - ỨNG DỤNG - THIẾT BỊ CHUYÊN NGHIỆP TOPSITE

Địa chỉ: 41/1, Phường Trung Mỹ Tây Quận 12, TP Hồ Chí Minh.
Email: hotro@topsite.vn - info@topsite.vn Tel: 0978.893.678 - 0938 869 787
MSDN/GPĐKKD: 19025687954
MST: 0310368322
Số TK: 0501000001371 tại Ngân Hàng Vietcombank Chi nhánh Vĩnh Lộc
© 2004 - 2014 Copyright. All rights reserved. Bản quyền thuộc về công ty thiet ke web ITECHCO CO.,LTD

Chúng tôi chấp nhận thanh toán qua:

liberty reservengan luongonepaysoha payvisaweb money1web money2paypalpayone