สร้างไฟล์ robots.txt เพื่อให้สิทธิ์การเข้าถึงข้อมูลบนเว็บไซต์
การสร้างไฟล์ robots.txt ไว้ในเว็บไซต์ของเรานั้น เพื่อเป็นการบอกบอทของแต่ละ Search Engine ที่มาเก็บข้อมูลในเว็บไซต์ของเรา ว่าอนุญาติให้บอทของที่ไหนมาเก็บอะไร หรือไม่ให้เก็บข้อมูลอะไรในเว็บไซต์บ้าง
อย่างที่เกริ่นไปข้างต้น สำหรับผู้ที่มีเว็บไซต์การสร้างไฟล์ robots.txt ไว้ในเว็บของคุณจะเป็นการบอก บอทของ Search engine ว่า “ไม่ต้องการให้มาเก็บเว็บไซต์ของฉัน หรือไม่ต้องการให้เก็บข้อมูลหน้าบางหน้า หรือไฟล์บางไฟล์ ในเว็บของฉันนะ” ทั้งนี้ก็เพื่อไม่ต้องการให้ข้อมูลเหล่านั้นถูกเก็บไป หรือ index ไว้ในสารระบบ Search Engine
เหตุผลหลักๆ ที่ต้องมีการสร้างไฟล์ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ Search Engine มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน Search Engine นั้น ๆ ซึ่งอาจมีเหตุผลมาจากใน file หรือ folder ในเว็บไซต์นั้นๆ เป็น ความลับหรือเขตหวงห้ามพิเศษ restriction zone/Log-in required zone ที่ไม่อยากให้ Search Engine เข้าไปค้นหา เช่น ข้อมูลลับของบริษัท ที่ต้อง upload ไปเก็บในเว็บไซต์ เป็นต้น
การเขียนไฟล์ robots.txt
robots.txt แบบที่ 1
ไม่ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูล เขียนคำสั่ง robots.txt ดังนี้
User-agent: *
Disallow: /
robots.txt แบบที่ 2
ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูล เขียนคำสั่ง robots.txt ดังนี้
User-agent: *
Allow: /
robots.txt แบบที่ 3
ต้องการให้บอทของ Search Engine เฉพาะบางที่มาเก็บข้อมูลในเว็บไซต์ได้ ตามตัวอย่าง จะเป็นการอนุญาตให้เฉพาะบอทจาก Google และ MSN เท่านั้น ที่มีสิทธ์เก็บข้อมูลทั้งหมดในเว็บไซต์ของเรา เขียนคำสั่ง robots.txt ดังนี้
User-agent: Googlebot
User-agent: msnbot
Allow: /
robots.txt แบบที่ 4
ไม่ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูล เฉพาะบางไฟล์ หรือบางโฟลเดอร์ (นอกจากไฟล์หรือโฟลเดอร์ที่ระบุ บอทสามารถเก็บข้อมูลได้) เขียนคำสั่ง robots.txt ดังนี้
User-agent: *
Disallow: /foldername
Disallow: /filename
Disallow: /*.jpg$ (กำหนดให้ไม่ต้องเก็บไฟล์ ที่มีนามสกุล .jpg)
ต้องการคำสั่ง robots.txt แบบไหนก็เขียนคำสั่งนั้น ๆ ลงในไฟล์ notepad จากนั้นบันทึกชื่อไฟล์เป็น robots.txt แล้วอัพโหลดไฟล์ไปไว้ที่ root ของ Server เป็นอันเสร็จค่ะ
หมายเหตุ เพิ่มเติม
แม้ว่าเราสามารถกำหนด เขียนไฟล์ robots.txt ไม่ให้บอทมาเก็บข้อมูลที่เราหวงห้าม แต่การเขียน robots.txt ก็เหมือนดาบ 2 คม เพราะถึงแม้ข้อมูลส่วนนี้จะไม่แสดงบน Search Engine แต่ผู้ไม่หวังดี หรือผู้ใช้บางคนที่สงสัยใครรู้ ที่อาจจะต้องการดูว่าในเว็บไซต์เีรามีส่วนหวงห้ามที่ไหนบ้าง เค้าก็อาจมาดูในไฟล์ robots.txt ที่เราเขียนได้ ดังนั้นนอกจากเขียน robots.txt แล้ว ในส่วนที่เป็นข้อมูลหวงห้าม เราควรจะมีการเข้ารหัสเนื้อหาข้อมูล เพื่อความปลอดภัยไว้ด้วย