چکیده مقاله : فایل robots.txt وظیفه‌ی دادن مجوز به ربات‌ها و محدود کردن دسترسی آنها را دارد. ربات‌های موتورهای جستجو قبل از ورود به بخش‌های مختلف سایت این فایل را بررسی نموده و مجوز ورود به صفحات مختلف را بررسی می کنند. با این امکان وب‌مسترها قادر می‌شوند که بخش‌ یا صفحاتی از سایت را که نمی‌خواهند در اختیار عموم قرار بگیرد را محدود کنند. البته این تمام ماجرا نیست، گوگل به طور رسمی اعلام کرده است که از برخی دستورات این فایل پیروی نمی کند و باید از راهکارهای جایگزین استفاده نمود که در این مقاله به آنها پرداخته شده است.

robots.txt یک فایل متنی است که در مسیر اصلی فضای سایت یا روت دایرکتوری (Root Directory) قرار می‌گیرد. فایل robots.txt وظیفه معرفی بخش‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها و خزنده های گوگل را برعهده دارد. بنابراین با درج دستورات خاصی در این فایل، می‌توانید قسمت های مد نظرتان را برای ربات های موتورهای جستجو مشخص کنید تا فقط آن ها را ایندکس کنند.

بهبود عملکرد سایت و مدیریت لینک ها از دیگر مزایای استفاده از فایل robots.txt است. برای آشنایی بیشتر با نحوه عملکرد و ساخت این فایل متنی با گرشا همراه شوید و ادامه مقاله را از دست ندهید.

robots.txt چیست و چرا اهمیت دارد؟

robots.txt فایلی است که در روت اصلی هاست قرار می گیرد. بنابراین آدرس دسترسی به این فایل به صورت زیر خواهد بود :

www.Yourwebsite.com/robots.txt

چنانچه سایت شما فایل متنی فوق را نداشته باشد، ربات‌های موتورهای جستجو می توانند به تمام صفحات سایت شما دسترسی داشته باشند. بنابراین تمام محتوای سایت را ایندکس می کنند.

اگرفایل متنی با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، ربات های موتورهای جستجو باز هم می توانند به اطلاعات دسترسی داشته باشند. این بدان معناست که ربات ها به صورت پیشفرض بررسی و ایندکس تمام قسمت های سایت را انجام می دهند مگر اینکه به صورت دقیق در فایل robots.txt دستوری دریافت کنند و تغییر رفتار دهند.

مدیریت دسترسی موتورهای جستجو

به نظرشما چرا نباید بعضی از صفحات یا فایل‌های سایت ایندکس شوند؟

پاسخ: گاهی ایندکس شدن و معرفی یک صفحه یا فایل از سایت در موتورهای جستجو منجر به نتایج نامناسبی می شود. به عنوان مثال انتشار مطالبی که برخی از قوانین و مقررات موتورهای جستجو را نقض می کند و یا امکان انتشار محتوای آن به صورت عمومی وجود ندارد را می توان به کمک فایل robots.txt مدیریت کرد و دسترسی موتورهای جستجو را محدود ساخت.

بهبود عملکرد سایت

سایت ها به صورت مداوم توسط موتورهای جستجو مورد بازدید و بررسی قرار می گیرند. هر ربات ابتدا اطلاعات را بررسی و سپس ایندکس می کند. بنابراین تمام قسمت های سایت ارزیابی می شوند. بدیهی است ترافیک بالای کاربران و حجم بالای ربات ها می تواند مشکل ساز باشد. استفاده از فایل robots.txt راه حل این مشکل است. و می توان دسترسی ربات های موتورهای جستجو را به قسمت های مشخص شده که اهمیت زیادی در سئو ندارند، محدود کرد.

با این روش نه تنها سرور سایت با ترافیک کم ‌تری فعالیت خواهد کرد، بلکه مراحل بررسی و جمع‌آوری اطلاعات و سپس ایندکس کردن آن‌ها توسط ربات‌ها نیز با سرعت بالاتری انجام خواهد شد.

مدیریت لینک ها

مدیریت لینک‌ها وURL توسط robots.txt امکان پذیر است. مخفی‌سازی آدرس صفحات یا URL Cloacking نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است.

می توان گفت لینک‌های مربوط به Affiliate Marketing یا سیستم همکاری در فروش بیشترین استفاده را از فایل متنی مذکور دارند. با مدیریت لینک‌های ایجاد شده در سیستم همکاری در فروش می توانید آدرس آن ها را مخفی کنید.

نکته: مخفی‌سازی آدرس صفحات یا URL Cloacking حتما بایستی توسط افراد ماهر انجام شود. در صورتی که به درستی پیاده سازی نشود، با نقض قوانین موتورهای جستجو شامل جریمه گوگل می شوید.

آیا گوگل همچنان از دستورات فایل robot.txt پیروی می‌کند؟

قبل از هر چیز باید به این سوال مهم پاسخ دهیم که آیا در سال ۲۰۲۱ دستورات این فایل توسط گوگل و سایر موتورهای جستجو پیروی می شود یا خیر.

گوگل به صورت رسمی اعلام کرده است که از سپتامبر ۲۰۱۹ ربات های گوگل از دستور نوایندکس فایل robot.txt پیروی نخواهند کرد و وب مستران برای ایندکس نشدن صفحات خود باید از راهکارهای جایگزین استفاده کنند.

In the interest of maintaining a healthy ecosystem and preparing for potential future open source releases, we’re retiring all code that handles unsupported and unpublished rules (such as noindex) on September 1, 2019.

همچنین گوگل در توئیتر رسمی خود اعلام نموده است که:

Today we’re saying goodbye to undocumented and unsupported rules in robots.txt

امروز ما با قوانین پشتیبانی نشده و غیر مستند در فایل robots.txt خداحافظی می کنیم.

در حال حاضر استفاده از noindex در متا تگ Robot در بخش هد صفحات، موثرترین راه برای حذف URL ها از ایندکس و کراول شدن است. البته تفاوت اصلی در این است که با استفاده از فایل robot.txt می توانستیم کل سایت و یا کل یک دسته بندی را نوایندکس کنیم در حالی که با متاتگ robot باید صفحات را تک تک noindedx نمود.

همچنین با پنهان کردن اطلاعات و محدود کردن آن برای کاربران لاگین شده به سیستم و یا استفاده از یوزرنیم و پسورد برای مشاهده اطلاعات و محتوای آن، می توان موجب حذف شدن و ایندکس نشدن آن از فهرست گوگل شد.
با کمک ابزار Remove URLs در سرچ کنسول گوگل نیز می توان یک url را به صورت موقت از نتایح جستجوی گوگل حذف نمود.

دستورات robots.txt چیست؟

مهم‌ترین دستورات این فایل متنی شامل User-agent ، Disallow ، Allow ، Crawl-delay وSitemap است.

User-agent:

با این دستور می توان به ربات خاصی و یا به تمام ربات ها اجازه دسترسی را داد یا محدود کرد. بنابراین ربات بعد از ورود به صفحه، و قبل از بررسی صفحه، فایل robots.txt را چک می کند.

User-agent: * به معنای در دسترس بودن تمام قسمت های سایت برای تمام ربات های موتورهای جستجو است. چنانچه قصد دارید اطلاعات صفحه فقط برای ربات خاصی در دسترس باشد، به جای * نام ربات را بنویسید. مثلا در کد User-agent: Googlebot فقط ربات گوگل حق دسترسی به اطلاعات را دارد.

Disallow & Allow:

این دستور برای مشخص کردن قسمت هایی است که باید توسط User-agent بررسی و ایندکس شوند. کد Allow به منزله ایجاد دسترسی و کد Disallow به منزله محدودسازی دسترسی ربات‌ها مورد استفاده قرار می گیرد. دستور “Allow: /” به معنای اجازه بازدید، بررسی یا ایندکس توسط ربات ها است. اما با درج دستور “Disallow: /” در فایل robots.txt به ربات‌ها اعلام می‌کنید که آن‌ها نباید هیچ صفحه‌ای از این سایت را بازدید، بررسی یا ایندکس کنند.

Sitemap:

یکی از روش های ساده برای ثبت کردن نقشه سایت در موتورهای جستجو، درج دستور مربوط به نقشه سایت در robots.txt است. بااین روش برای موتورهای جستجو مشخص می کنید که فایل XMLنقشه سایت شما را از چه مسیری پیدا کرده و به آن دسترسی داشته باشند. برای این کار کد دستوری زیر را در فایل robots.txt اضافه کنید :

Sitemap: https://example.com/sitemap.xml

Crawl-delay:

نرخ تاخیر یا Crawl-delay موجب می شود تا ربات‌های موتورهای جستجو برای بررسی و ایندکس کردن صفحات شما به نوبت، برای زمان مشخص شده توسط شما صبر کنند. کاهش تعداد درخواست‌های پیاپی ربات‌ها به سرور سایت، هدف اصلی نرخ تاخیر است. کد crawl-delay: 10 به این معناست که ربات های موتورهای جستجو Yahoo و Bing بعد از هر ایندکس به مدت ۱۰ ثانیه صبر کنند و سپس صفحه دیگری را ایندکس کنند.

اما استفاده از همین کد برای موتور جستجوی Yandex به این معناست که هر ۱۰ ثانیه یک بار به کل صفحات سایت دسترسی پیدا خواهند کرد.

نکته: این دستور روی ربات گوگل یا Googlebot قابل استفاده نیست. برای فعال کردن این قابلیت در گوگل باید از Google Search Console نرخ زمان مربوط را از بخش تنظیمات سایت مشخص کنید.

نحوه ساخت فایل robots.txt

برای اینکه متوجه شوید قبلا فایل متنی در سرور سایت شما ایجاد شده است یا نه آدرس www.example.com /robots.txt را تایپ کنید. در صورتیکه ارور ۴۰۴ به شما نشان داده شد، یعنی این فایل قبلا ساخته نشده است.

برای ساخت یک فایل متنی، از طریق Notepad ویندوز یک فایل txt بسازید و آن را با نام robots ذخیره کنید. سپس دستورات مدنظر را درون آن قرار داده و فایل را ذخیره سازی کنید. در نهایت، فایل آماده شده را از طریق FTP یا فایل منیجر کنترل پنل هاست در روت اصلی سایت آپلود کنید.

اما اگر با کدهایی که در بالا معرفی کردیم روبرو شدید، بدان معناست که سایت شما این فایل متنی را دارد. برای ویرایش فایل robots.txt باید از طریق FTP و یا کنترل پنل هاست سایت خود، به قسمت مدیریت فایل رفته و در روت اصلی هاست فایل robots.txt را پیدا کنید. سپس ویرایشات لازم را انجام دهید و آن را جایگزین فایل متنی قبلی کنید.

فایل robots.txt در وردپرس چگونه است؟

وردپرس به صورت پیش‌فرض یک فایل متنی robots.txt دارد. این فایل متنی را نمی توان به صورت مستقیم پیدا و آن را ویرایش کرد. یک روش که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگر http://www.example.com/robots.txt است. برای ویرایش این فایل می توانید به چندین طریق عمل کنید. اگر از افزونه Yoast SEO استفاده می کنید، می توانید فایل robots.txt را در قسمت داشبورد افزونه ایجاد و ویرایش کنید. بدین منظور به منوی ابزارها در زیرمجموعه منوی سئو رفته و روی گزینه File editor کلیک کنید. با کلیک بر روی گزینه Create robots.txt می توانید اقدام به تولید و ویرایش محتوای روبات فایل کنید.

دستورات زیر به صورت پیشفرض در فایل robots.txt قرار دارند:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

بنابراین ربات‌ها به صفحه admin-ajax.php دسترسی دارند. برای غیرفعال کردن این حالت، به تنظیمات وردپرس در صفحه wp-admin رفته و گزینه Search Engine Visibility را فعال کنید تا دسترسی تمامی ربات‌ها به سایت شما مسدود شود.

بهبود عملکرد سایت و مدیریت لینک ها از مزایای استفاده از فایل robots.txt است. اگر فایل متنی با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قابل شناسایی نباشند، ربات های موتورهای جستجو نمی‌توانند به درستی آنها را درک کنند. گوگل رسما اعلام کرده است که از برخی دستورات این فایل پیروی نمی کند. بنابراین بهتر است برای نوایندکس کردن صفحات خود از روش های جایگزین معرفی شده در مقاله استفاده نمایید.

این مطلب برای شما مفید بود؟

شما امتیاز دهید

میانگین امتیاز 5 / 5. تعداد رای: 1

اولین رای را شما بدهید!

آکادمی دیجیتال مارکتینگ گرشا

دوره های آموزشی دیجیتال مارکتینگ آنلاین و بهترین

آنچه باید از فایل robots.txt بدانید | راهنمای استفاده

robots.txt چیست و چرا اهمیت دارد؟

مدیریت دسترسی موتورهای جستجو

بهبود عملکرد سایت

مدیریت لینک ها

آیا گوگل همچنان از دستورات فایل robot.txt پیروی می‌کند؟

دستورات robots.txt چیست؟

User-agent:

Disallow & Allow:

Sitemap:

Crawl-delay:

نحوه ساخت فایل robots.txt

فایل robots.txt در وردپرس چگونه است؟

الهام خلیلی

دوره آموزشی تکنیکهای بهبود سئو وبسایت

دوره جامع آموزش مبانی سئو (آپدیت)

دوره آموزشی استراتژی کلمات کلیدی سئو (keyword research strategy)

دوره جامع سئو + آپدیت جدید

وبینار آموزشی سئو سایت فروشگاهی

دوره آموزشی پیشرفته سئو تکنیکال: ایجاد سایت SEO-Friendly

بازاریابی محتوایی (درک، استراتژی و برنامه عملیاتی)

بازاریابی محتوایی در شبکه های اجتماعی

بازاریابی پیشرفته، هک رشد

آموزش جامع میلرلایت

دوره آموزشی ولاگری برای کسب و کار

مسیر یادگیری ۵: کارشناس بازاریابی محتوایی شوید

دوره جامع آموزش اصول دیجیتال مارکتینگ (آپدیت جدید)

دوره آموزشی بهینه سازی نرخ تبدیل (CRO)

دوره آموزشی برندینگ پیشرفته

دوره آموزشی تحلیل بازاریابی:تنظیم و اندازه گیری KPI

دوره جامع آموزش اصول و پایه برندینگ

دوره آموزشی طراحی پلن یکپارچه دیجیتال مارکتینگ

دیدگاه خود را بیان کنید : لغو پاسخ

پرفروش ترین دوره های آموزشی

برترین مقالات آموزشی

robots.txt چیست و چرا اهمیت دارد؟

مدیریت دسترسی موتورهای جستجو

بهبود عملکرد سایت

مدیریت لینک ها

آیا گوگل همچنان از دستورات فایل robot.txt پیروی می‌کند؟

دستورات robots.txt چیست؟

User-agent:

Disallow & Allow:

Sitemap:

Crawl-delay:

نحوه ساخت فایل robots.txt

فایل robots.txt در وردپرس چگونه است؟

مقالات مرتبط :

گوگل لایت هاوس چیست؟ آموزش جامع بهینه سازی

CDN و تاثیر آن بر سرعت و سئو سایت

معرفی انواع ریدایرکت، کاربرد و تاثیر آن در سئو

تاثیر سرعت سایت بر سئو

دوره های آموزشی مرتبط :

دیدگاه خود را بیان کنید : لغو پاسخ