همانطور که میدانید وظیفه رباتهای موتورهای جستجو این است که به بررسی صفحات سایت ها بپردازند و آنها را ایندکس نمایند. یعنی هر صفحه ای که در یک وب سایت ایجاد میشود، ربات ها سریع برای خزیدن، وارد این صفحات میشوند و با خزیدن خود در این صفحات به بررسی و مطالعه اطلاعات این صفحات میپردازند و آنها را ایندکس میکنند و جهت استفاده کاربران،آن صفحات را در صفحه نتایج موتورهای جستجو به نمایش میگذارند و هر کاربری که اراده کند، می تواند با کلیک کردن وارد آن صفحه شده و آنرا مطالعه کند.
وبمستران هم وقتی صفحات سایت ها را ایجاد می نمایند، اکثرا میخواهند صفحاتشان ایندکس شده و برای کاربران به نمایش گذاشته شود تا بدین وسیله برای صفحات خود ترافیک سایتی جمعآوری نمایند ولی در برخی مواقع صفحاتی هستند که مدیر سایت دوست ندارد این صفحات برای کاربران به نمایش گذاشته شود.در مورد این صفات و دلایل درخواست عدم نمایش آنها برای کاربران در مقاله با نام noindex توضیح کافی داده شده است، اگر نیاز دارید راجع به این صفحات بیشتر بدانید می توانید به آن مقاله مراجعه کنید.
بنابراین برای اینکه بتوانیم عملکرد این رباتها را کنترل نماییم میتوانیم از فایل robots.txt استفاده نماییم. در این فایل می توان دستوراتی را برای این رباتها نوشت و عملکرد این روبات ها را تحت کنترل درآورد. در واقع با دستوراتی که وبمستران در این فایل ها می نویسند، به این ربات ها می گویند که کدام یک از صفحات سایتشان را خزش کنند و به بررسی و ایندکس کردن آن اقدام نماید و کدام یک را نباید خزش کرال نمایند. گفتنی است که این فایل ها توسط وبمستران تهیه و ایجاد میشود.
ربات های موتور های جستجو قبل از اینکه صفحه های سایت را بررسی نمایند، اول به فایل robots.txt مراجعه میکنند و دستوراتی که در این فایل برای آنها نوشته شده است را می خواند و سپس به کار خود جهت خزش و بررسی و ایندکس کردن صفحات اقدام می نماید. بنابراین میتوانیم این فایل را مانند مجوزهای ورود به بخش های مختلف یک ساختمان فرض کنیم. همانطور که در این مجوزها افراد را راهنمایی میکنند که به کدام بخش اجازه ورود دارند و به کدام بخش ها نه، این فایل نیز ربات های موتورهای جستجو را در زمینه اجازه خزش در بین صفحات سایت راهنمایی می کند.
فایل robots.txt حتماً باید در دایرکتوری ریشه وبسایتتان قرار بگیرد تا بتواند به وظیفه خود عمل نماید.
البته لازم به ذکر است که وجود این فایل هیچ ضرورتی ندارد و ممکن است در سایتی فایل robots.txt وجود نداشته باشد که در این صورت رباتهای موتورهای جستجو میتوانند آزادانه و بدون هیچ محدودیتی تمامی صفحات سایت را خزش نمایند و به بررسی و ایندکس کردن آن صفحات بپردازند. در واقع این فایل یک فایل بهینه می باشد که بنا به نیاز می توان از آن در سایت ها استفاده نمود.
تا چند مدت قبل این امکان وجود داشت که وقتی نیاز بود که صفحه در صفحه نتایج موتورهای جستجو وجود نداشته باشد، از فایل robots.txt استفاده کرد و به نتیجه رسید ولی الان که کمی شرایط فرق کرده است و باید به این نکته توجه کرد که با این فایل فقط می توان به ربات های موتورهای جستجو پیشنهاداتی را جهت خزیدن یا نخزیدن آنها در صفحات وب سایت داد حال تصمیم با خود این ربات ها می باشد که می خواهند به این پیشنهادات عمل نمایند یا نه.
۱) تضمینی برای ایندکس شدن صفحات هنگام ارائه دستور ایندکس نشدن صفحه در فایل robots.txt وجود ندارد. بنابراین نمیتوان گفت که حتماً خزیدن این روباتها را با ایجاد این فایل در ریشه وب سایت مسدود کردیم.
۲) نمی توان صفحات را با فایل robots.txt محافظت نمود.
همانطور که بیان شد دستورات درج شده در این فایل در حد پیشنهاد می باشد نه دستور. بنابراین اگر برای محافظت از صفحات حساس خود می خواهید از این فایل استفاده نمایید تا رباتها اجازه خزیدن و بررسی آن را نداشته باشند باید بدانید که این کار کاملا اشتباه میباشد و باید از راههای ایمن تر دیگری مثل استفاده از رمز عبور، از صفحات خود محافظت نمایید. چرا که فقط ربات های موتورهای جستجو نیستند که عمل خزیدن در صفحات را انجام می دهند بلکه ربات های مخرب نیز وجود دارند که معمولاً توجهی به فایل robots.txt نمیکنند و آزادانه به هر صفحه ای که بخواهند ورود کرده و در آن خزش می کنند.
اکثرا ربات های موتور های جستجو به دستورات موجود در فایل robots.txt پایبند می باشد مگر در مواقع خاص.
با استفاده از این فایل میتوان به صرفه جویی در هزینه بودجه خزش وب سایتها اقدام نمود. بنابراین اکثرا از این فایل در وب سایت های بزرگ استفاده می کنند تا بتوانند با مسدود کردن خیزش رباتها در صفحات کم اهمیت و بی ارزش بودجه خزیدن خود را کاهش دهند و از آن بودجه به صورت بهینه و برای صفحات با اهمیت استفاده نمایند. از آنجایی که محدودیت منابع برای ربات های جستجو وجود دارد بنابراین باید به صورت بهینه شده از این روبات ها جهت خزیدن استفاده نمایید، چرا که با اجازه دادن به خزیدن آنها در صفحات کم اهمیت ممکن است دیگر رباتها صفحات با ارزش را خزش نکند.
مزیت دیگری که این فایل برای شما فراهم می کند این است که به وسیله این فایل امکان این وجود دارد که مکان Sitmap را تهیه کنید و با قرار دادن آدرس Sitmap در فایل robots.txt، ربات های موتورهای جستجو را جهت یافتن این نقشه و استفاده از آن جهت یافتن آدرس هایی از سایت که قرار است توسط موتورهای جستجو ایندکس شوند،یاری نمایید. همانطور که می دانید نقشه سایت ها دارای فهرستی از آدرس صفحاتی می باشند که موتورهای جستجو جهت ایندکس شدن باید به آن آدرس ها مراجعه نمایند.
با استفاده از دستوراتی که در فایل robots.txt قرار می دهیم و آنها را از خزیدن در برخی از صفحات کم ارزش سایت منع میکنیم، میتوانیم زمان مورد نیاز برای خریدن این رباتها در وبسایت خودمان را کاهش دهیم. هر چقدر این زمان طولانی باشد تاثیر منفی روی سئوی سایتمان خواهد داشت.
۱) نتیجه اول زمانی است که سایت دارای فایل robots.txt باشد. در این صورت محتویات این فایل که مربوط به سایت مورد نظر می باشد را خواهیم دید.
۲) نتیجه دوم نیز مربوط به زمانی است که سایت مورد نظر دارای فایل robots.txt نباشد. در این صورت صفحه ای که پیش رو خواهیم داشت خطای ۴۰۴ را نمایش خواهد داد.
برای اینکه بتوانیم این فایل را در سایت خود ایجاد نماییم، باید وارد پوشه بنام public-html شویم. برای اینکه این پوشه را پیدا کنیم ابتدا باید در سی پنل یا دایرکت ادمین به صفحه اصلی هاست سایتمان مراجعه کنیم و سپس file manager را انتخاب کنیم، و از آن قسمت وارد این پوشش شویم. بعد از ورود به این پوشه نوبت ایجاد این فایل فراخواهد رسید و به ایجاد فایل جدیدی با نام robots.txt اقدام خواهیم کرد. حتماً باید نام این فایل را با حروف کوچک تایپ نماییم، سپس با دابل کلیک روی این فایل اقدام به ذخیره سازی آن فایل در کامپیوتر خودمان کنیم و برای نوشتن دستورات در این فایل نیز باید این فایل را با برنامه notepad باز کنیم و به نوشتن دستوراتی را که نیاز داریم در داخل این فایل داشته باشیم ، اقدام می نماییم. در این قسمت نیز به وارد کردن نام فایل ها دقت نمایید و آنها را همانطور که قبلاً ذخیره کرده اید تایپ نمایید، چرا که این فایل به شدت رو کوچک و بزرگ بودن حروف تایپ شده حساس می باشد و اگر فایلی با حروف کوچک ذخیره شده باشد و در موقع نوشتن دستورات لازم در مورد آن فایل درون فایل robots.txt، از حروف بزرگ استفاده شود، این فایل قادر به شناسایی فایل مربوطه نخواهد بود.
بعد از رعایت نکات گفته شده می توانید فایل را ذخیره نمایید و فایل ذخیره شده را دوباره در هاست خود و به جای فایل قبلی جایگزین نمایید.
با رزومه بسیار بالا در سطح کشور
طراحی سایت فروشگاهی آگهی ساخت بازی آنلاین