robots.txt
این فایل چه کار می کنه؟
ربات های جستجوگر را هشیار می کنه که برای جستجو چه فایل هایی را نباید باز کنند و چه فایل هایی رو می تونند باز کنند
خاصیتش چیه
برای کاربر مهمترین خاصیتش حفظ امنیته و حفظ حریم های شخصی به این وسیله کاربر می تونه مدارک خصوصی و عکس های خانوادگیش رو با آرامش روی هاستش نگه داری کنه
برای ربات ها هم خاصیتش اتلاف کمتر وقت و انرژی در یک سایته و این امر دومین خاصیت فایل رو ایجاد می کنه
موتورها رو تشویق می کنه به یافتن نتایج جستجو ها در سایت هایی که robots.txt دارند و این یعنی بالا رفتن در رتبه ی گوگل و آلکسا
این فایل باید در یک صفحه text only به وسیله ی notepad نوشته بشه و کد و علائم جدا کننده خاص مثل <> یا , و " نیاز نداره ولی هر تکه از دستوراتش باید در یک سطر جدا باشه
این فایل بر پایه دو دستور Disallow و Allow و یک شاخصه User-agent نوشته می شه
Disallow محدوده ممنوع رو تعریف می کنه
Allow محدوده ی آزاد برای جستجو
User-agent محدوده کسانی که اجازه جستجو براشون مسدود یا باز شده
سایت گوگل سالم ترین نمونه ی این برگه رو نمایش داده
نگاه کنید:
http://www.google.com/robots.txt
و به این ترتیب کد زیر
User-agent: *
Disallow: /news
Allow: /news/directory
در این فایل اینگونه ترجمه می شه
هر نوع جستجوگر و رباتی (هیچ نوع)
نمی تونه پوشه news را جستجو کنه ولی می تونه زیر پوشه ی directory رو از این پوشه بخونه و جستجو کنه
گوگل دستورات این فایل را به اینگونه تقسیم می کنه
برای بلوکه کردن جستجو در کل سایت
Disallow: /
برای مسدود کردن جستجوی یک پوشه
Disallow: /junk-directory/
برای مسدود کردن جستجو در یک صفحه
Disallow: /private_file.html
برای اینکه یک عکس در لیست یافته های گوگل دیده نشود
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
برای پاک کردن کل عکس های سایت از لیست جستجوی گوگل
User-agent: Googlebot-Image
Disallow: /
برای پاک کردن یک فرمت مشخص (مانند gif) از جستجوی گوگل
User-agent: Googlebot
Disallow: /*.gif$
برای صفحاتی که هنوز مطالبشون در حال تکمیله و یا آماده پذیرش آگهی نیست مطالب این صفحات در نتایج جستجو دیده نمی شه ولی گوگل اونها رو آنالیز می کنه و دسته بندی های لازم رو روشون انجام می ده
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
خوب اینها تمام دانش مورد نیاز برای نوشتن این فایل بودند حالا برای شروع فولدرها و فایل هاتون رو روی هاست دسته بندی و لیست کنید و تلاش کنید هر گزینه را در یکی از شرایطی که بالا عنوان شد قرار دهید و یا برای دسته ی اخر که دسته ای کاملا مجاز خواهد بود جدا کنید
لیست نهایی شما به راحتی وضعیت هر فایل را مشخص می کنه
معمولا ما با کل ربات ها کار داریم و
user-agent :*
کارمون رو راه می ندازه که استفاده یکبار ازش در اولین سطر کافیه ولی اگر موردی مثل آخرین مورد ذکر شده بود
User-agent: Mediapartners-Google
نام ربات گوگل آنالیزه
نام بعضی از معروف ترین ربات ها هم عبارته از:
User-agent: IsraBot
# unless they're feeding search engines.
User-agent: UbiCrawler
User-agent: DOC
User-agent: WebCopier
User-agent: Offline Explorer
User-agent: Teleport
User-agent: TeleportPro
User-agent: WebZIP
User-agent: linko
User-agent: HTTrack
User-agent: Microsoft.URL.Control
User-agent: Download Ninja
User-agent: wget
# http://www.nameprotect.com/botinfo.html
User-agent: NPBot
# http://www.webreaper.net/
User-agent: WebReaper
User-agent: ia_archiver
در آخرین خطوط این فایل آدرس های sitemap.xml را اضافه می کنید به این صورت
Sitemap: http://YourDomain.com/sitemap.xml
خب این فایلارو از هیچ سایتی کپی نکنید و فایل روبوتس بسازید!
نتیجش جز ضرر چیزی نداره!