ربات های خزنده گوگل برای خزش (crawling) در سرتاسر دنیای وب و URLهای مختلف مورد استفاده قرار میگیرند. در سری مقالات آموزش سئو، هدف ما توصیف و تشریح عملکرد خزنده گوگل، نحوهی ایندکس صفحات سایت در گوگل و در نهایت چگونگی نشان دادن نتایج به مخاطبان است. در انتها نیز به تمامی سوالات و کامنتهای شما در مورد خزش یا کراول خزنده گوگل، ایندکس صفحات سایت و رتبهی سایت توسط گوگل پاسخ خواهیم داد. برای آشنایی با خزنده گوگل و اهمیت آن تا انتهای این مقاله با آکادمی گرشا همراه باشید.
نکته: در برخی از مقالات، بجای واژه خزش از کراول (یا کرول) و برای واژه خزنده، از کراولر (یا کرولر) استفاده می کنند.
موتور جستجوی گوگل چگونه کار میکند؟
با فرض بر اینکه با گوگل و دیگر موتورهای جستجو آشنایی دارید یک راست به سراغ نحوهی کار گوگل و تاثیر خزنده گوگل بر جستجوهای آن میرویم. به طور کلی گوگل برای نشان دادن یک صفحه در نتایج خود برای کاربران، ۳ مرحلهی زیر را انجام میدهد:
- خزش در سایتها و URLهای مختلف توسط خزنده گوگل
- ایندکس (Index) صفحات خزش شده
- رتبهبندی و نمایش محتوا به کاربران بر اساس الگوریتمهای پیشرفته
نحوهی خزش خزنده گوگل
روش کار خزش ربات خزنده گوگل بدین صورت است که این ربات یا نرم افزار به هر لینکی که بر سر راهش قرار میگیرد وارد میشود و از یک محتوا یا URL به محتوا و URL دیگر میرود. بطور کلی میتوان گفت وظیفهی خزنده گوگل بررسی و بازبینی محتواهای URLهای مختلف است. به عنوان مثال فرض کنید شما یک مقاله در دل سایت خود دارید که درون آن لینکسازی داخلی یا حتی خارجی صورت گرفته است. خزنده گوگل با ورود به محتوای شما، از ابتدای محتوا تا انتهای محتوای شما را بازبینی میکند و کلیات و جزئیات آن را بر اساس الگوریتمهای مخصوص گوگل رندر (Render) و برای همان URL ذخیره میکند. در این بین در طول بازبینی محتوای همان صفحه، در صورت برخورد با یک یا چندین لینک در دل محتوا، خزنده از طریق همان لینکها به صفحات هدف میرود و در URLهای جدید نیز محتوای صفحات را بازبینی و این بار برای URL هدف ذخیره میکند. این چرخه مدام و در عمقهای مختلف تکرار میشود تا خزنده گوگل با محتواهای جدید سایتهای مختلف آشنا شود و موجب ایندکس شدن صفحات و محتواهای جدید شود. به نظر میرسد که خزنده گوگل فضولترین ربات دنیا باشد و قصد دارد سر از کار تمام سایتها و URLها در بیاورد. اما نه، خزنده گوگل کنجکاوی پیش فعالانه و هدفمند دارد.
روش ایندکس صفحات سایت در گوگل
پس از کنجکاوی هدفمند رباتهای خزنده گوگل، مرحلهی ایندکس وارد فرآیند کاری گوگل میشود. خزندهها پس از جمعآوری تمامی اطلاعات موجود در یک URL با ارسال اطلاعات رندر شده به گوگل، URL جدید با محتوای جدید را وارد پایگاه دادههای عظیم گوگل میکند. به این مرحله که موجب ثبت و ذخیره صفحات سایت در گوگل میشود، ایندکس میگویند. گوگل پس از ایندکس با توجه به الگوریتمهایش، اقدام به طبقهبندی و دستهبندی URLها بر اساس معیار و فاکتورهای مختلف میکند. یکی از این طبقهبندیها بر اساس محتواهای مرتبط است. شاید این گفته جالبتر و قابل فهمتر باشد که با ایندکس شدن یک صفحه، آن صفحه به عنوان یک کتاب در کتابخانهی عظیم، گسترده و بی پایان گوگل قرار میگیرد. کتابی که در جستجوهای کاربران و با توجه به نیاز آنان، توسط گوگل معرفی میشود. اما گوگل چرا بین صفحات مختلف تمایز قائل میشود؟ چرا به یک محتوا مانند فرزند نور چشمی و ته تغاری نگاه میکند و به محتوای دیگر به عنوان فرزند اول و بزرگ؟ اینجاست که باید به مرحلهی سوم گوگل وارد شویم. مرحلهی که نشان میدهد گوگل واقعا بین فرزندانش (صفحات مختلف سایتهای گوناگون) تفاوتی قائل نمیشود.
چگونگی رتبهبندی صفحات سایت در نتایج گوگل
پاسخ این تیتر تنها یک چیز است: الگوریتمهای پیشرفته و پیچیده که توسط هوش مصنوعی ( البته شاید هم طبیعی) گوگل انجام میشود. پس از مرحله کنجکاوی خزنده گوگل و ایندکس صفحات در پایگاه دادهی گوگل، گوگل با تست، آنالیز پیشرفته، مقایسه دقیق و اعمال چندین فاکتور موثر برای شناسایی مرتبطترین، نزدیکترین و بهترین صفحات برای پاسخ مخاطبان اقدام میکند. هرچه یک صفحه و محتوای آن برای پاسخ یک جستجو یا کوئری (Query) کاملتر و دقیقتر باشد، رتبهی بهتری نزد گوگل خواهد گرفت. البته گوگل در این میان تنها به انتخاب اولیهی هوش مصنوعی و خزندههای خود اکتفا نمیکند. اینجاست که مشخص میشود گوگل بین صفحات مختلف تفاوت قائل نمیشود. گوگل با تست صفحات تازه و جدید وبسایتهای مختلف به ویژه وبسایتهای نوپای دنیای وب، رفتار مخاطبان و کاربران را نسبت به آنها میسنجد. در این میان هر صفحه و محتوایی که رضایت خاطر بیشتر مخاطبان را جلب کند، نزد گوگل جایگاه رفیعتر و رتبه بالاتری را میگیرد. اما هنوز نکات مهم دیگری در مورد خزش خزنده گوگل، ایندکس و رتبهبندی صفحات سایت وجود دارد. نکاتی که هر سئوکار باید اطلاعات کافی در مورد آنها داشته باشد. در مبحث SERP گوگل و رتبهدهی گوگل سوالات بسیاری وجود دارد که توضیح آن خارج از مقولهی این مقاله است. اما هر سوالی که شما در کامنتها در این زمینه بپرسید، در سریعترین زمان به آن پاسخ داده خواهد شد.
بررسی صفحات ایندکس شده در گوگل
اولین سوال و شاید جدیترین سوال این است که آیا صفحات سایت شما در گوگل ایندکس شدهاند یا خیر؟
برای پاسخ به این سوال کافیست دست به دامن گوگل شوید. عبارت زیر را با جایگذاری دامنهی اصلی سایت خود در گوگل سرچ کنید:
site:yourdomain
طبق تصویر گوگل تعداد URLهای ایندکس شده مربوط به دامنهی شما را نمایش میدهد. البته اگر تازه محتوایی تولید و منتشر کردهاید توقع نداشته باشید که سریعا صفحهی جدید شما در گوگل ایندکس شود. به ویژه اگر محتوانویسی سایت تازه تاسیس را شروع کرده باشید. برای تشخیص آنکه خزنده گوگل در صفحات سایت خزیده و آنها را ایندکس کرده یا نه، میتوان از گوگل سرچ کنسول نیز استفاده کرد.
چرا صفحات سایت در جستجوهای گوگل نمایش داده نمیشود؟
یکی دیگر از مهمترین سوالات در مورد خزنده گوگل و ایندکس صفحات سایت، چرایی عدم نمایش صفحات قدیمی و حتی جدید در نتایج گوگل است. دلیل این امر ممکن است یکی از موارد زیر باشد:
- اگر سایت شما تازه آغاز به فعالیت کرده است، احتمالا هنوز توسط خزندهها شناسایی نشده است یا در جعبه شنی (Sand Box) گوگل مورد آزمایش قرار گرفته است.
- محتوای شما تازه منتشر شده و هنوز ایندکس نشده است. در مواردی ممکن است به دلیل محدودیت بودجه خزش، مقالات سایت شما دیرتر ایندکس شوند.
- هیچ لینکی به صفحه مورد نظر داده نشده و آدرس URL آن نیز در سایت مپ وجود ندارد.(صفحه یتیم یا Orphan Page)
- راه خزش بر روی رباتهای خزنده گوگل بسته است. (از طریق متا تگ robots)
- وجود فرمهای لاگین و عضویت برای مشاهده محتوای سایت
- تنظیم نبودن وردپرس برای خواندن مطالب سایت توسط خزنده گوگل
- خزش توسط خزندهها در سایت شما به دلایل مختلف دشوار و ناممکن است. (برای مثال محتوا از طریق فایل جاوااسکریپی غیراستاندارد بارگذاری می شود)
- استفاده از فریمورک های جاوا اسکریپت و رندر سمت کلاینت (CSR)، فرآیند خزش خزنده گوگل را کُند (پردازش دو مرحله ای) و گاها مختل میکند.
- برخی صفحات یا کل سایت شما توسط گوگل پنالتی شده است.
هرکدام از موارد بالا راهحلهای مخصوص به خود دارد. گاهی برطرف کردن این ایرادها راحت و به آسانی صورت میگیرد و گاهی بسیار دشوار میشود. به عنوان مثال اگر راه خزش بر روی خزنده گوگل بسته شده باشد به راحتی میتوان با تگ و کدنویسی ساده این راه را فراهم ساخت. اما در صورت پنالتی شدن سایت، بازگشتن به جستجوهای گوگل بسیار دشوار و گاهی ناممکن است. گوگل سرچ کنسول در زمینههای بسیاری به خزش و ایندکس صفحات کمک میکند. یکی از این موارد ساخت سایت مپ برای سایت است. سایت مپ کمک شایانی به خزندهها جهت خزش در سرتاسر سایت میکنند. پس هرگز از ساخت سایت مپ غافل نشوید. همچنین در گوگل سرچ کنسول میتوانید به راحتی صفحات ایندکس شده را مشاهده کنید. و هم اینکه بصورت دستی صفحات مدنظر خود را سریعتر ایندکس کنید.
ایندکس دستی (Indexing) صفحات سایت
راههای متعددی جهت تسریع فرآیند ایندکس صفحات سایت وجود دارد. اما متداولترین آن ایندکس دستی به کمک گوگل سرچ کنسول است. در این روش از گوگل بصورت مستقیم درخواست میکنید که خزنده گوگل را به URL مدنظر شما بفرستد و اقدام به خزش و ایندکس صفحه کند. برای انجام ایندکس دستی مراحل زیر را دنبال کنید:
- ثبت نام در گوگل سرچ کنسول
- ثبت سایت در گوگل سرچ کنسول
- URL صفحه مدنظر خودتان را کپی کنید.
- وارد گوگل سرچ کنسول شده و وارد بخش URL Inspection شوید
- در کادر بالای صفحه URL کپی شده را عینا قرار دهید
- در صفحه جدید در بخش URL is not on Google سمت چپ بر روی Request Indexing کلیک کنید.
- چند ثانیه صبر کنید تا پیغام تایید Indexing requested مواجه شوید.
پس از ثبت درخواست ایندکس دستیT گوگل با بررسی URL در مدت زمان کوتاهی و در صورت نبود ایرادات و اشکالات، صفحه مد نظر شما را ایندکس میکند.
آموزش نو ایندکس (Noindex) کردن محتوای سایت
یکی از مواردی که موجب عدم ایندکس صفحات جدید سایت میشود، نو ایندکس کردن محتوای جدید است. ربات خزنده گوگل با مشاهدهی نو ایندکسT محتوای همان صفحه را در جستجوهای گوگل ایندکس نمیکند. پس در صورتی که با مشکل ایندکس نشدن صفحات روبرو هستید بهتر است به سراغ این موضوع بروید که آیا صفحات نو ایندکس هستند یا خیر.
روشهای مختلفی برای نو ایندکس کردن محتوای سایت وجود دارد که عبارتند از:
- استفاده از فایل txt
- استفاده از کد دستوری meta robots tag
- استفاده از تنظیمات وردپرس و برداشتن تیک قابلیت مشاهده موتور جستجو
- استفاده از افزونه Yoast
با استفاده از هرکدام از موارد بالا و استفاده از عبارت noindex به راحتی میتوانید URLهای مد نظر خود را از چشم خزنده گوگل بپوشانید. اما هرکدام از موارد بالا مزایا و معایبی دارد. به عنوان مثال در صورت ایندکس شدن یک صفحه و سپس استفاده از فایل Robots.txt و نو ایندکس کردن، آن صفحه همچنان در نتایج گوگل نشان داده میشود.
نو ایندکس کردن صفحات با Robots.txt
برای دسترسی به فایل Robots.txt در سایت (البته در صورت وجود آن) کافیست مسیر زیر را در مرورگرتان وارد کنید:
Yourdomin/robots.txt
و در داخل فایل خط مربوط به User-agent را بصورت زیر تنظیم کنید:
User-agent:*
Disallow:/your-page/
کافیست در عوض عبارت your page لینک صفحه مدنظر خود را وارد کنید.
نو ایندکس کردن محتوا توسط افزونه یوست Yoast
برای انجام اینکار و جلوگیری از خزش خزنده گوگل به تنظیمات افزونه Yoast بروید. به بخش پیشرفته از تنظیمات افزونه وارد شوید. در باکس مربوط به “به موتورهای جستجو اجازه نمایش این نوشته را میدهید؟” گزینه خیر را کلیک کنید. با اینکار از ایندکس محتوای خود جلوگیری میکنید.
نو ایندکس با متا تگ Noindex
این روش را در صورتی که با کدنویسی آشنایی دارید دنبال کنید. در غیر اینصورت پیشنهاد میکنیم هرگز سراغ این روش برای جلوگیری از خزش خزنده گوگل نروید. برای اعمال تگ نو ایندکس برای یک صفحه و جلوگیری از ایندکس شدن آن کافیست کد زیر را در کد HTML صفحه مذکور وارد کنید:
<meta name=”robots” content=”noindex,nofollow”/>
چرا خزنده گوگل مهم است؟
همانطور که در ابتدا تا اینجای کار گفته شد، نقش خزنده گوگل برای ایندکس شدن صفحات سایت بسیار پررنگ است. هرچه لینکسازی شما بهینهتر و سئوپسندتر (seo friendly) باشد، خزش خزنده گوگل راحتتر و سریعتر اتفاق خواهد افتاد. البته در لینکسازی باید عمق سایت و مسیر خزش را هم در نظر گرفت. در صورتی که محتوای شما در عمق پایینی از سایت قرار گرفته باشد و با توجه به کراول باجت سایت (crawl budget)، ممکن است که خزنده گوگل قادر به شناسایی و خزش در آن صفحه نباشد. بنابراین مسیر لینکسازی تاثیر مهمی بر ایندکس شدن صفحات دارد. همچنین وجود سایت مپ به ربات خزنده کمک میکند تا از آپدیت، انتشار یا حتی حذف صفحات سایت شما بهتر و سریعتر باخبر شود. ذکر این نکته نیز در پایان خالی از لطف نکنید که معمولا مدت زمان ایندکس صفحات سایت از یک روز تا ۴ هفته است. پس تا ۴ هفته شما باید صبر کنید و به خزندهها فرصت شناسایی سایت را بدهید. اما در صورتی که پس از ۴ هفته محتوای شما در گوگل ایندکس نشد بهتر است به سراغ موارد بالا که در مورد چرایی ایندکس نشدن محتوا گفته شد بروید و درصدد برطرف کردن عیبها و مشکلات موجود برآیید.