วันอังคารที่ 22 กันยายน พ.ศ. 2552

robot.txt สิ่งที่คนทำเว็บสมควรรู้

robot.txt นั้นคืออะไร

Web Administrator หลายท่านคงสงสัย ว่าทำไม Web Server ของเราถึงมีไฟล์ robot.txt ทั้ง ๆ ที่ไม่ได้ติดตั้งมาก่อน หรือเครื่องเราโดนดีเข้าให้แล้ว หรืออย่างไร

ก่อนอื่นเราต้องทำความเข้าใจหลักการทำของงาน Search Engine กันนิดหนึ่งนะครับ Search Engine ทุกตัว จะส่ง robot ของตัวเอง เช่น หากเป็น Google จะเรียกว่า Google bot , MSN จะเรียกของตัวเองว่า MSN bot หรือแม้แต่ Yahoo หรือ Search Engine ตัวอื่น ๆ ก็จะเรียกชื่อที่ต่างกันออกไป เพื่อจุดประสงค์็ ไปไต่ (Craw) ตามเว็บ Link ต่าง เช่น และเก็บเอาเนื้อหา หรือ Content ต่างๆ กลับมาวิเคราะห์ที่ Server ของตัวเอง เพื่อหาว่า เนื้อหาใน Web ที่ไปเก็บมานั้น มีเนื้อหาเกี่ยวกับอะไร เช่น กีฬา , ข่าว , Blog หรือเนื้อหาอื่น ๆ โดยจะใช้กรรมวิธีในการคิด วิเคราะห์ (Algorithm) ที่แตกต่างกันออกไป เพื่อวิเคราะห์ให้ได้ว่า Web นั้น มีเนื้อหาด้านนั้นจริงๆ และนำมาจัดเก็บใน Index Server เพื่อให้ผู้ที่ต้องการค้นหาคำที่ต้องการ มาค้นหาจาก Index Server เ้พื่อจะได้ค้นหา Website ที่เขาต้องการได้รวดเร็ว และตรงตามใจที่สุด

หากท่านเป็น Web Administrator หากต้องการ Promote Site ให้คนอื่นรู้จัก อาจจะชอบที่จะให้ Google bot มาเ้ก็บหน้า Web อยู่เป็นประจำ เพื่อให้คนอื่นที่ใช้ Google สามารถค้นหาชื่อเราได้รวดเร็ว อยู่ในอันดับที่ดี ๆ แต่คิดในทางตรงกันข้ามนะครับ หาก Web เราเป็บเว็บที่มีการมีข้อมูลอ่อนไหวง่าย เช่น ข้อมูลเกี่ยวกับเงินเดือน บุคลากร หรือ ข้อมูลที่ปกปิด ไม่ต้องการให้ใครทราบ (แต่ไม่สามารถจำกัดการเข้าถึง ให้เหลือเพียงใน Network ภายในได้) จะทำอย่างไร เพราะ Bot ต่างๆ เหล่านี้ไม่ทราบหรอกว่า ข้อมูลไหน เป็นความลับ ข้อมูลไหน ควรเปิดเผยได้ มันก็ทำหน้าที่ของมันไป

วิธีการที่จะป้องในกันเบื้องต้น คือสร้างไฟล์ที่ชื่อว่า Robot.txt วางไว้ที่ Root ของแต่ละ Directory ที่ต้องการกำหนดการเข้าถึง ตามหลักแล้ว Robot ที่มีจริยธรรม จะอ่าน Robot.txt เสมอ ว่า Web นั้นอนุญาติ Robot ตัวไหน เข้าถึงไฟล์ หรือ Folder ไหนได้บ้าง โดยวิธีการกำหนดมีดังนี้

robot.txt

User-Agent: Googlebot
Disallow: /logs/User-Agent : หมายถึง กำหนดสำหรับชื่อของ Robot ที่ต้องการ ในตัวอย่างแสดงให้เห็นถึงการกำหนดถึง Googlebot
Disallow: หมายถึง ไม่อนุญาติให้เขาถึง ในที่นี้ /logs/ ไม่อนุุญาติให้ Google bot เข้าไปอ่าน และกลับไปสร้าง Index

สรุป

หากพบ Robot.txt ในเครื่องของเราไม่ต้องตกใจนะครับ บางที่ Application ที่เราใช้ อาจสร้าง Robot.txt ให้เราอัตโนมัติครับ แต่หากเรามีข้อมูลที่ไม่ต้องการให้ Search Engine เข้ามาทำ Index หรือ ไม่ต้องการเปิดเผยข้อมูลให้กับคนอื่น ๆ ทราบ หรือ Search ไม่เจอนั้น เราไม่ควรนำข้อมูลไปเก็บไว้บน Web Server แต่หากหลีกเลี่ยงไม่ได้ ก็ยังพอมีอีกวิธีหนึ่ง นั้นคือ การสร้าง robot.txt ขึ้นมาและกำหนดชั้นของความปลอดภัย การเข้าถึง Folder ต่างๆ แต่ก็คงได้แต่ Robot ที่มีจริยธรรมเท่านั้น ๆ เอ๊ะ เจ้า Bot ที่ไม่มีมาตรฐาน มีด้วยเหรอ .. มีครับ เช่น bot ที่พวกเรา ๆ ท่าน ๆ เขียน หรือพวก Hacker ไงครับ Bot พวกนี้สามารถหา Download ได้ตามเว็บไซต์ทั่วไปครับ ซึ่งโดยส่วนใหญ่ถูกพัฒนาจากภาษา C หรือ Java กัน โดยให้ทั้ง Source Code ด้วย หากใครมีกำลังพอตัว ก็สามารถดัดแปลง หรือเพิ่มความสามารถ หรือสั่งให้ทำงานอื่น ๆ เพิ่มเติมจากหน้าที่ของมันได้ครับ
ยิ่ง bot ที่ถูกดัดแปลง เพิ่มศักยภาพในด้านไม่ดีเข้าไป Bot พวกนี้ไม่สนอยู่แล้ว Folder ไหน / อะไรก็ไม่สน จะเข้าไปดูให้หมด .. ดูไม่ดูเปล่า หากมีใครไปแก้ Code ให้ Bot พวกนี้หาช่องโหว่ได้ โจมตีได้ หรือแม้กระทั่งมาเก็่บ เอาอะไรกลับออกไป …… เพราะฉะนั้น Web Administrator ควรให้ความสนใจด้าน Security ด้วยนะครับ

ขอบพระคุณที่สนใจอ่าน

Reference :

มาตรฐานของ Robot : http://www.robotstxt.org/orig.html
googleblog.blogspot.com : http://googleblog.blogspot.com/2007/01/controlling-how-search-engines-access.html

ขอขอบคุณขอมูลดี ๆจาก Kittichon Mansamutr หรือ link catadmin.cattelecom.com/km/.../robottxt
Date: 22/09/09

ไม่มีความคิดเห็น:

แสดงความคิดเห็น