آنچه باید از فایل robots.txt بدانید | راهنمای استفاده

چکیده مقاله : فایل robots.txt وظیفه‌ی دادن مجوز به ربات‌ها و محدود کردن دسترسی آنها را دارد. ربات‌های موتورهای جستجو قبل از ورود به بخش‌های مختلف سایت این فایل را بررسی نموده و مجوز ورود به صفحات مختلف را بررسی می کنند. با این امکان وب‌مسترها قادر می‌شوند که بخش‌ یا صفحاتی از سایت را که نمی‌خواهند در اختیار عموم قرار بگیرد را محدود کنند. البته این تمام ماجرا نیست، گوگل به طور رسمی اعلام کرده است که از برخی دستورات این فایل پیروی نمی کند و باید از راهکارهای جایگزین استفاده نمود که در این مقاله به آنها پرداخته شده است.

robots.txt یک فایل متنی است که در مسیر اصلی فضای سایت یا روت دایرکتوری (Root Directory) قرار می‌گیرد. فایل robots.txt وظیفه معرفی بخش‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها و خزنده های گوگل را برعهده دارد. بنابراین با درج دستورات خاصی در این فایل، می‌توانید قسمت های مد نظرتان را برای ربات های موتورهای جستجو مشخص کنید تا فقط آن ها را ایندکس کنند.

بهبود عملکرد سایت و مدیریت لینک ها از دیگر مزایای استفاده از فایل robots.txt است. برای آشنایی بیشتر با نحوه عملکرد و ساخت این فایل متنی با گرشا همراه شوید و ادامه مقاله را از دست ندهید.

robots.txt چیست و چرا اهمیت دارد؟

robots.txt فایلی است که در روت اصلی هاست قرار می گیرد. بنابراین آدرس دسترسی به این فایل به صورت زیر خواهد بود :

www.Yourwebsite.com/robots.txt

چنانچه سایت شما فایل متنی فوق را نداشته باشد، ربات‌های موتورهای جستجو  می توانند به تمام صفحات سایت شما دسترسی داشته باشند. بنابراین تمام  محتوای سایت را ایندکس می کنند.

کاربرد robot.txt در سایت

اگرفایل متنی با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، ربات های موتورهای جستجو باز هم می توانند به اطلاعات دسترسی داشته باشند. این بدان معناست که ربات ها به صورت پیشفرض بررسی و ایندکس تمام قسمت های سایت را انجام می دهند مگر اینکه به صورت دقیق در فایل robots.txt دستوری دریافت کنند و تغییر رفتار دهند.

مدیریت دسترسی موتورهای جستجو

به نظرشما چرا نباید بعضی از صفحات یا فایل‌های سایت ایندکس شوند؟

پاسخ: گاهی ایندکس شدن و معرفی یک صفحه یا فایل از سایت در موتورهای جستجو منجر به نتایج نامناسبی می شود. به عنوان مثال انتشار مطالبی که برخی از قوانین و مقررات موتورهای جستجو را نقض می کند و یا امکان انتشار محتوای آن به صورت عمومی وجود ندارد را می توان به کمک فایل robots.txt  مدیریت کرد و دسترسی موتورهای جستجو را محدود ساخت.

بهبود عملکرد سایت

سایت ها به صورت مداوم توسط موتورهای جستجو مورد بازدید و بررسی قرار می گیرند. هر ربات ابتدا اطلاعات را بررسی و سپس ایندکس می کند. بنابراین تمام قسمت های سایت ارزیابی می شوند. بدیهی است ترافیک بالای کاربران و حجم بالای ربات ها می تواند مشکل ساز باشد. استفاده از فایل robots.txt راه حل این مشکل است. و می توان دسترسی ربات های موتورهای جستجو را به قسمت های مشخص شده که اهمیت زیادی در سئو ندارند، محدود کرد.

با این روش نه تنها سرور سایت با ترافیک کم ‌تری فعالیت خواهد کرد، بلکه مراحل بررسی و جمع‌آوری اطلاعات و سپس ایندکس کردن آن‌ها توسط ربات‌ها نیز با سرعت بالاتری انجام خواهد شد.

مدیریت لینک ها

مدیریت لینک‌ها وURL  توسط robots.txt امکان پذیر است. مخفی‌سازی آدرس صفحات یا URL Cloacking  نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است.

می توان گفت لینک‌های مربوط به Affiliate Marketing یا سیستم همکاری در فروش بیشترین استفاده را از فایل متنی مذکور دارند. با مدیریت لینک‌های ایجاد شده در سیستم همکاری در فروش می توانید آدرس آن ها را مخفی کنید.

نکته: مخفی‌سازی آدرس صفحات یا URL Cloacking  حتما بایستی توسط افراد ماهر انجام شود. در صورتی که به درستی پیاده سازی نشود، با نقض قوانین موتورهای جستجو شامل جریمه گوگل می شوید.

آیا گوگل همچنان از دستورات فایل robot.txt پیروی می‌کند؟

قبل از هر چیز باید به این سوال مهم پاسخ دهیم که آیا در سال ۲۰۲۱ دستورات این فایل توسط گوگل و سایر موتورهای جستجو پیروی می شود یا خیر.

گوگل به صورت رسمی اعلام کرده است که از سپتامبر ۲۰۱۹ ربات های گوگل از دستور نوایندکس فایل robot.txt پیروی نخواهند کرد و وب مستران برای ایندکس نشدن صفحات خود باید از راهکارهای جایگزین استفاده کنند.

In the interest of maintaining a healthy ecosystem and preparing for potential future open source releases, we’re retiring all code that handles unsupported and unpublished rules (such as noindex) on September 1, 2019.

همچنین گوگل در توئیتر رسمی خود اعلام نموده است که:

Today we’re saying goodbye to undocumented and unsupported rules in robots.txt

امروز ما با قوانین پشتیبانی نشده و غیر مستند در فایل robots.txt خداحافظی می کنیم.

 

در حال حاضر استفاده از noindex در متا تگ Robot در بخش هد صفحات، موثرترین راه برای حذف URL ها از ایندکس و کراول شدن است. البته تفاوت اصلی در این است که با استفاده از فایل robot.txt می توانستیم کل سایت و یا کل یک دسته بندی را نوایندکس کنیم در حالی که با متاتگ robot باید صفحات را تک تک noindedx نمود.

<meta name=”robots” content=”noindex, nofollow”>

همچنین با پنهان کردن اطلاعات و محدود کردن آن برای کاربران لاگین شده به سیستم و یا استفاده از یوزرنیم و پسورد برای مشاهده اطلاعات و محتوای آن، می توان موجب حذف شدن و ایندکس نشدن آن از فهرست گوگل شد.
با کمک ابزار Remove URLs در سرچ کنسول گوگل نیز می توان یک url را به صورت موقت از نتایح جستجوی گوگل حذف نمود.

دستورات robots.txt چیست؟

مهم‌ترین دستورات این فایل متنی شامل User-agent ، Disallow ، Allow ، Crawl-delay  وSitemap  است.

 

دستورات کلی robot.txt

User-agent:

با این دستور می توان به ربات خاصی و یا به تمام ربات ها اجازه دسترسی را داد یا محدود کرد. بنابراین ربات بعد از ورود به صفحه، و قبل از بررسی صفحه، فایل robots.txt  را چک می کند.

User-agent: * به معنای در دسترس بودن تمام قسمت های سایت برای تمام ربات های موتورهای جستجو است. چنانچه قصد دارید اطلاعات صفحه فقط برای ربات خاصی در دسترس باشد، به جای * نام ربات را بنویسید. مثلا در کد  User-agent: Googlebot فقط ربات گوگل حق دسترسی به اطلاعات را دارد.

Disallow & Allow:

این دستور برای مشخص کردن قسمت هایی است که باید توسط  User-agent بررسی و ایندکس شوند. کد Allow  به منزله ایجاد دسترسی و کد  Disallow به منزله محدودسازی دسترسی ربات‌ها مورد استفاده قرار می گیرد. دستور  “Allow: /” به معنای اجازه بازدید، بررسی یا ایندکس توسط ربات ها است. اما با درج دستور “Disallow: /” در فایل robots.txt  به ربات‌ها اعلام می‌کنید که آن‌ها نباید هیچ صفحه‌ای از این سایت را بازدید، بررسی یا ایندکس کنند.

Sitemap:

یکی از روش های ساده برای ثبت کردن نقشه سایت در موتورهای جستجو، درج دستور مربوط به نقشه سایت در robots.txt  است. بااین روش برای موتورهای جستجو مشخص می کنید که فایل  XMLنقشه سایت شما را از چه مسیری پیدا کرده و به آن دسترسی داشته باشند. برای این کار کد دستوری زیر را در فایل  robots.txt  اضافه کنید :

Sitemap: https://example.com/sitemap.xml

Crawl-delay:

نرخ تاخیر یا Crawl-delay موجب می شود تا ربات‌های موتورهای جستجو برای بررسی و ایندکس کردن صفحات شما به نوبت، برای زمان مشخص شده توسط شما صبر کنند. کاهش تعداد درخواست‌های پیاپی ربات‌ها به سرور سایت، هدف اصلی نرخ تاخیر است. کد crawl-delay: 10 به این معناست که ربات های موتورهای جستجو  Yahoo و Bing بعد از هر ایندکس به مدت ۱۰ ثانیه صبر کنند و سپس صفحه دیگری را ایندکس کنند.

اما استفاده از همین کد برای موتور جستجوی Yandex به این معناست که هر ۱۰ ثانیه یک بار به کل صفحات سایت دسترسی پیدا خواهند کرد.

نکته: این دستور روی ربات گوگل یا Googlebot  قابل استفاده نیست. برای فعال کردن این قابلیت در گوگل باید از Google Search Console نرخ زمان مربوط را از بخش تنظیمات سایت مشخص کنید.

 

نحوه ساخت فایل robots.txt

برای اینکه متوجه شوید قبلا فایل متنی در سرور سایت شما ایجاد شده است یا نه آدرس www.example.com /robots.txt را تایپ کنید. در صورتیکه ارور ۴۰۴ به شما نشان داده شد، یعنی این فایل قبلا ساخته نشده است.

برای ساخت یک فایل متنی، از طریق Notepad  ویندوز یک فایل txt  بسازید و آن را با نام robots   ذخیره کنید. سپس دستورات مدنظر را درون آن قرار داده و فایل را ذخیره سازی کنید. در نهایت، فایل آماده شده را از طریق  FTP یا فایل منیجر کنترل پنل هاست در روت اصلی سایت آپلود کنید.

اما اگر با کدهایی که در بالا معرفی کردیم روبرو شدید، بدان معناست که سایت شما این فایل متنی را دارد. برای ویرایش فایل robots.txt باید از طریق  FTP و یا کنترل پنل هاست سایت خود، به قسمت مدیریت فایل رفته و در روت اصلی هاست فایل  robots.txt را پیدا کنید. سپس ویرایشات لازم را انجام دهید و آن را جایگزین فایل متنی قبلی کنید.

فایل robots.txt در وردپرس چگونه است؟

وردپرس به صورت پیش‌فرض یک فایل متنی robots.txt دارد. این فایل متنی را نمی توان به صورت مستقیم پیدا و آن را ویرایش کرد. یک روش که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگر http://www.example.com/robots.txt  است. برای ویرایش این فایل می توانید به چندین طریق عمل کنید. اگر از افزونه Yoast SEO استفاده می کنید، می توانید فایل robots.txt را در قسمت داشبورد افزونه ایجاد و ویرایش کنید. بدین منظور به منوی ابزارها در زیرمجموعه منوی سئو رفته و روی گزینه File editor کلیک کنید. با کلیک بر روی گزینه Create robots.txt می توانید اقدام به تولید و ویرایش محتوای روبات فایل کنید.

دستورات زیر به صورت پیشفرض در فایل robots.txt قرار دارند:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

بنابراین ربات‌ها به صفحه admin-ajax.php دسترسی دارند. برای غیرفعال کردن این حالت، به تنظیمات وردپرس در صفحه wp-admin  رفته و گزینه Search Engine Visibility  را فعال کنید تا دسترسی تمامی ربات‌ها به سایت شما مسدود شود.

بهبود عملکرد سایت و مدیریت لینک ها از مزایای استفاده از فایل robots.txt است. اگر فایل متنی با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قابل شناسایی نباشند، ربات های موتورهای جستجو نمی‌توانند به درستی آنها را درک کنند. گوگل رسما اعلام کرده است که از برخی دستورات این فایل پیروی نمی کند. بنابراین بهتر است برای نوایندکس کردن صفحات خود از روش های جایگزین معرفی شده در مقاله استفاده نمایید.

آزمون دیجیتال مارکتینگ

این مطلب برای شما مفید بود؟

شما امتیاز دهید

میانگین امتیاز 5 / 5. تعداد رای: 1

اولین رای را شما بدهید!

متاسفیم که این مطلب برای شما مفید نبود

به بهبود این مطلب کمک کنید

به ما بگویید چطور این مطلب را بهبود دهیم؟

رمز مانایی: نواختن بر اساس قواعد، نوشتن طبق اصول و پویایی است. پس خوب بازی کن تا برنده میدان و مانای روزگار شوی.

ورود به کانال

تعداد افرادی که دانش روز دیجیتال مارکتینگ را می خواهند

۱۱۹۱

از قافله عقب نمانید! جدیدترین مقالات، دوره ها و اخبار سایت

ساعت 10:30 ایمیلهای ما را دریافت خواهید کرد

مقالات مرتبط :

دوره های آموزشی مرتبط :

دیدگاه خود را بیان کنید :

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *