جهت طراحی وب سایت خود در این زمینه با ما تماس بگیرید
طراحی سایت وسئو

فایل robots.txt چیست و چه کاربردی دارد؟ بخش دو

فایل robots.txt چیست و چه کاربردی دارد؟ بخش دو

 154    0

در این مقاله در مورد دستورات مهم در فایل robots.txt و انواع ربات های گوگل از جمله ربات Adsense و ربات Googlebot Images و رباتGooglebot News و ...

 

قبل از مطالعه ی این مقاله حتما فایل robots.txt چیست و چه کاربردی دارد؟ بخش یک را مطالعه بفرمایید:

 

دستورات مهمی که می توان در فایل robots.txt نوشت:

 

همانطور که بیان شد با نوشتن دستورات در فایل robots.txt از ربات ها خواسته می‌شود که به ایندکس کردن یا نکردن صفحات وب سایت بپردازند. چند دستور مهمی که در این فایل نوشته میشوند عبارتند از:

 

دستور User-agent

 

این دستور مشخص کننده نوع رباتی می باشد که باید دستورات نوشته شده در فایل robots.txt را به اجرا درآورد. در واقع این دستور پیش نیاز دستورات دیگری می باشد که در ادامه می خواهیم به معرفی آنها بپردازیم و به تنهایی این دستور هیچ کاربردی موثری نخواهد داشت، دستورات دیگر می باشد که این دستور را کامل و مورد استفاده قرار می دهند.


ربات های متنوعی در گوگل موجود می باشد که هر یک جهت کاری ایجاد شده اند که حتماً به بررسی آن ها هم خواهیم پرداخت کرد. بنابراین اگر این دستور در بین دستورات نوشته شده در فایل robots.txt وجود نداشته باشد ،ربات های گوگل از کجا بفهمند که این دستور برای کدام یک از آنها ایجاد شده است. بنابراین با این دستور نام ربات که قرار است دستور فایل robots.txt انجام دهد، نوشته میشود. در برخی اوقات به جای اینکه قرار باشد فقط یک ربات دستورات نوشته شده را انجام دهد، از همه ربات ها خواسته می‌شود که به انجام دادن دستورات مشغول شوند. در این زمان به جای نوشتن نام تک تک ربات ها از علامت ستاره (*)در مقابل دستور User-agentاستفاده می شود.

 

 

User-agent

 

 

دستور disallow

 

همانطور که قبلاً نیز در مورد دستور disallow توضیح داده شد، این دستور به ربات های گوگل می گوید که اصلا اجازه ورود و خزیدن در صفحات مشخص شده را ندارد. اگر یادتان باشد در دستور noindex بیان شد که ربات ها می توانند به صفحه ورود کنند و در آن بخزند ولی نباید آنها را ایندکس کنند. ولی این دستور کلاً اجازه ورود و خیزش به صفحات را از رباتها می گیرد.


برای اینکه این دستور برای صفحات مورد نظر نوشته شود، باید بعد از این دستور، صفحاتی که نباید در آن ها خیزش شود را معرفی کرد ولی به این نکته توجه شود که نباید روت دامین در این قسمت آورده شود و آوردن بعد از اسلش برای معرفی صفحه مورد نظر کفایت میکند.


همچنین در این دستور برای اینکه چندین صفحه را برای disallow شدن مشخص نمود، لازم است که برای هریک از صفحات به صورت جداگانه دستور disallow نوشته شود و امکان این وجود ندارد که با یک دستور، چندین صفحه را disallow نمود. همانطور که در دستور قبلی بیان شد قبل از نوشتن دستور disallow باید دستور User-agent برای مشخص نمودن رباتی که باید این دستور را انجام دهد، نوشته شود.

 

 

دستور allow

 

یکی از دستوراتی می باشد که نوشتن آن ضرورت خاصی ندارد. چرا که در این دستور به ربات ها گفته می شود که چه صفحاتی را باید به بخزند ولی همانطور که قبلاً نیز بیان شد کار ربات های گوگل ذاتا این است که در بین صفحات و بخزند و به بررسی و ایندکس کردن آنها اقدام نمایند، پس دستور allow می تواند یک دستور غیر ضروری برای ربات های گوگل محسوب شود ولی برخی بر این عقیده هستند که با نوشتن این دستور و معرفی صفحات خاص و مهم برای ربات ها جهت خزیدن باعث می شوند که ربات ها گوگل به این صفحات توجه خاصی داشته باشند.


این دستور را نیز اگر برای چندین صفحه میخواهید داشته باشید، باید به صورت جداگانه برای هر یک از صفحات دستور جداگانه allow را بنویسید. قبل از نوشتن دستور allow نیز باید از دستور User-agent استفاده کنید و آن را قبل از این دستور بیاورید. نحوه نوشتن و استفاده از این دستور همانند دستور disallow می باشد.

 

 

دستور Crawl-deley 

 

همانطور که میدانید سرعت لود می‌تواند به دلیل تعداد خزنده های زیاد کاهش پیدا کند. بنابراین اگر می خواهید که سرعت لود صفحات سایتتان کاهش نیابد، می توانید دستور Crawl-deley را در فایل robots.txt سایت تان داشته باشید. در این دستور به ربات های موتور های جستجو می توان دستور توقف چندین ثانیه ای را قبل از خزیدن در صفحات را داد. برای این کار باید در جلوی این دستور عدد ثانیه ای را که باید قبل از خزیدن در صفحات باید صبر کنند را بنویسید.


باید قبل از نوشتن این دستور نیز دستور user-agent را بنویسیم.

 

 

دستور Sitemap

 

در بین ۴ دستوری که بیان شد، این تنها دستوری می باشد که نیازی به نوشتن دستور user-agent قبل از نوشتن این دستور ندارد. همانطور که از نام این دستور می توان دریافت این دستور مربوط به نقشه سایت می باشد و باید در مقابل این دستور آدرس نقشه سایت آورده شود تا این آدرس را برای ربات های موتورهای جستجو نشان داد.


البته می‌توانید به جای اینکه این دستور را از این طریق به ربات های گوگل برسانید، از ابزار سرچ کنسول استفاده کرده و نقشه سایت خود را به گوگل ارائه دهید. گفتنی است که استفاده از روش دوم یعنی گوگل سرچ کنسول از روش اول بهتر می باشد.

 

 

انواع ربات های گوگل

 

 

انواع ربات در گوگل

 

گوگل ربات هایی را دارد که می‌توانند وظیفه خزش و بررسی فایل ها و صفحات را انجام دهند. این ربات‌ها می‌توانند درون سایت ها جهت پیدا کردن انواع صفحات موجود در آن سایت ها، از لینک ها استفاده کنند و صفحه های موجود درون سایت را به وسیله این لینک ها پیمایش کنند.

 


در ادامه می خواهیم مهمترین رباتهای این موتور جستجو را برایتان معرفی نماییم.

 

 

ربات Adsense:


 این ربات صفحه ها را بررسی می‌کند تا تبلیغات مرتبط با آن را نمایش دهد.

 

 

ربات Googlebot desktop:


یکی از ربات های گوگل می باشد که به بررسی و ایندکس حالت های دسکتاپی می پردازد.

 

 

ربات Googlebot mobile:


این ربات نیز می‌تواند حالت موبایل صفحه را بررسی و ایندکس نماید.

 

 

ربات Googlebot Video:


این ربات نیز درون یک صفحه ویدیو های صفحه را پیدا کرده و بررسی می‌کند.

 

 

ربات Googlebot Images:


رباتی دیگر از گوگل که تصاویر صفحه را مورد بررسی قرار می دهد.

 

 

رباتGooglebot News:


این ربات نیز در سایت‌هایی که خبری میباشد، خزش می‌کنند و این سایت‌ها را بررسی و ایندکس می کنند.

 

ربات های نامبرده شده وظیفه بررسی صفحات وب سایت ها را دارند و مداوم به این وظیفه خود عمل می‌کنند و شما برای اینکه بتوانید آنها را کنترل نمایید، می توانید دستورات خود را در فایل robots.txt بنویسید.

 

 

محدودیت هایی که باید برای فایل robots.txt در نظر بگیریم:

 

 

* همانطور که قبلاً نیز بیان شد با اینکه شما با دستوراتی اجازه بررسی و ایندکس کردن صفحات را از ربات های موتورهای جستجو می گیرید، ولی موتورهای جستجو ممکن است این دستورات را نادیده بگیرند و از آنها پیروی نکنند و حتی ممکن است صفحاتی را که شما نمی خواستید آن صفحات در صفحه نتایج موتورهای جستجو دیده شوند، را نیز در بین نتایج به کاربران نمایش دهند.

 

* ربات ها درک متفاوتی از دستورات دارند. در برخی مواقع دیده می شود دو ربات از یک سرویس دهنده واحد هر کدام درک متفاوتی از یک دستور واحد فایل دارند، بنابراین شاید یکی از این ربات ها به این دستور عمل کنند ولی ربات دیگر آن را نادیده بگیرد.

 

* موتورهای جستجو هر کدام برای خود ربات های متفاوتی دارند که هر کدام به روش خود دستورات را می‌خوانند و تصمیم میگیرند که به آنها عمل کنند یا نه. بنابراین وقتی دستوری را در فایل robots.txt مینویسید ممکن است، رباتهای موتور جستجویی از آن دستور پیروی کند، ولی رباتهای موتور جستجوی دیگری تصمیم به پیروی نکردن از آن دستورات بگیرد.

 

 

روش درست بارگذاری فایل robots.txt در انواع سایت ها

 

 

فرقی نمی‌کند که برای کدام سایت با چه محتوایی و با چه سروری (اختصاصی، اشتراکی، مجازی) می‌خواهید فایل را بارگذاری نمایید. نکته‌ای که باید به آن توجه کنید این است که این فایل حتما باید در ریشه (root) قرار بگیرد نه جای دیگر. در واقع پوشه اصلی میزبان سایت، محل قرارگیری این فایل می باشد و اگر به اشتباه به جای پوشه اصلی میزبان سایت، هر پوشه یا دایرکتوری دیگر را برای بارگذاری این فایل انتخاب نمایید، باعث خواهد شد که این فایل از دسترس ربات های موتور های جستجو خارج شود.

 

 

برای اطمینان از انجام دستورات فایل robots.txt توسط ربات ها چه میشود کرد؟

 

گوگل ابزار کاربردی دیگری به نام ابزار تست کننده در سرچ کنسول گوگل دارد که با استفاده از این ابزار می توانید مطمئن شوید که صفحه یا فایل مورد نظرتان توسط فایل Robots از بررسی و ایندکس شدن توسط ربات ها مسدود شده است یا نه. و حتی با این ابزار می توانید بفهمید که خود این فایل در دسترس میباشد یا نه.


 با استفاده از ابزار Robot Taster می توانید از اشتباهاتی که ممکن است در ایجاد فایل robots.txt انجام داده باشید، مطلع شوید و به رفع آنها بپردازید.

 

 

چگونه می توان دستورات صفحات را سریعتر به ربات های گوگل رساند؟

 

برای اینکه بتوانید ربات های گوگل را سریعتر به دستورات وارد شده تان برسانید باید آن را در کنسول گوگل قرار دهید. با این کار شما به این ربات های زحمتکش کمک خواهید کرد که با سرعت خیلی بالاتری به صفحات شما با دستورات allow, disallow دسترسی پیدا کنند و طبق دستورات شما در آن صفحات بخزند.

 

 

در صورت عدم ایجاد صحیح فایل robots.txt چه اتفاقی می‌افتد؟

 

ربات های گوگل فقط زمانی می توانند به دستورات نوشته شده در این فایل عمل نماید که این فایل و دستورات نوشته شده در آن به صورت صحیح و اصولی ایجاد شده باشد وگرنه این ربات ها قادر به شناسایی این فایل و یا دستورات نوشته شده در آن نخواهند بود و دقیقاً مانند اینکه اصلا این فایل در سایت ایجاد نشده باشد، آزادانه و بدون محدودیت خاصی به فعالیت خود (بررسی و خواندن اطلاعات و ایندکس کردن صفحات) ادامه خواهند داد.

 

بعد از مطالعه ی این مقاله حتما فایل robots.txt چیست و چه کاربردی دارد؟ بخش سه را مطالعه بفرمایید:


به نقل از:
جهت طراحی وب سایت خود در این زمینه با ما تماس بگیرید                        

با رزومه بسیار بالا در سطح کشور

                                 

طراحی سایت فروشگاهی آگهی ساخت بازی آنلاین


نظر خود را با ما درمیان بگذارید: