
بروزرسانی: 19 تیر 1404
فایل Robots txt چیست؟ اهمیت و آموزش ساخت فایل ربات سایت
برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید. فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستم های دیگر خوانده می شود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف ربات ها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی بوجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو بدان پایبند هستند. اگر یک نفر بخواهد به صفحاتی از وبسایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کرده اید یقینا برای شناسایی این صفحات می تواند به راحتی از فایل ربات استفاده کند.
- این فایل متنی برای سئو و بهینه سازی سایت استفاده می شود و حاوی دستوراتی برای ربات های نمایه ساز موتورهای جستجو است که صفحاتی را مشخص می کند که هم امکان ایندکس شدن دارند و هم ندارند.
- هدف نهایی بهینه سازی فایل robot.txt این است که فایل هایی که به صورت عمومی در دسترس نیست را ایندکس نکند.
- پروتکل نقشه سایت کمک می کند تا مطمئن شوید که ربات های عنکبوتی وب در هنگام خزیدن یک وب سایت چیزی را از دست نمی دهند، اما ربات ها همچنان روند خزیدن معمول خود را دنبال می کنند.
- اما فایل Robots.txt چیست؟ این فایل چه کاربردی دارد؟ در ادامه به صورت کامل در این باره صحبت کرده ایم و آموزش ساخت فایل robots txt در وردپرس را نیز قرار داده ایم.
- به همین دلیل در فایل robots.txt، ذکر میکنیم که این صفحات ایندکس نشوند.
زمانی که یک موتور جستجو سایتی را بررسی می کند، اول فایل robots.txt را در سطح ریشه پیدا کرده و بعد از شناسایی آن، خزنده، فایل را خوانده و در آخر فایل ها و دایرکتوری هایی را که ممکن است مسدود شده باشند، پیدا می کند. به بیانی ساده فایل robots.txt اجازه بررسی سایت و صفحات را به ربات های موتورهای جستجو می دهد. با تایپ دستوراتی در این فایل متنی از دسترسی همه یا تعدادی از ربات های موتورهای جستجو برای بازدید و ایندکس سایت جلوگیری می گردد و یا با مشخص نمودن بخش های غیرضروری سایت، از لیست ایندکس توسط ربات ها خارج می شوند. فایل Robots.txt یک فایل متنیست که وبمسترها با ایجاد آن می توانند ربات های موتورهای جستجو را در هنگام پایش وب سایت راهنمایی کنند. فایل robots.txt جزیی از پروتکلی با نام REP است که به استانداردسازی نحوه پایش وب توسط رباتها و چگونگی دسترسی و ایندکس محتوا و ارائه آن به کاربران می پردازد.
تمام دستورات و روش های دستور در فایل ربات robots.txt
خزیدن، اولویت اصلی این ربات است پس طوری طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد. این بهینه سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود می کند. برخلاف ربات های موتور جستجو گوگل، برخی از موتورهای جستجو دستورات موجود در فایل robots.txt را نادیده می گیرند. با اینکار خزنده های موتور جستجو گوگل حتی اگر فایل robots.txt سایت شما را هم نادیده بگیرند چون در داخل صفحه صراحتا از ربات ها خواسته شده که این صفحه را ایندکس نکنند، به این درخواست احترام می گذارند.
دستور Disallow
طبق این دستور، ربات ها اجازه دسترسی به صفحه admin-ajax.php را دارند؛ اگر می خواهید دسترسی به این صفحه را غیر فعال کنید، باید به تنظیمات وردپرس رفته و گزینه Search Engine Visibility را فعال کنید. بدیهی ست که رفت و آمد این حجم از ربات ها می تواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. اطمینان حاصل کنید بخش هایی که تمایل دارید در فهرست موتورهای جستجو ظاهر شوند مسدود نکرده باشید. به بیان دیگر Googlebot می تواند سهم یا بودجه خزیدن خود را برای صفحات بسیار مهم صرف کند. اگر فاصله مراجعه ربات ها خیلی زیاد هست یعنی سایت یا سرور مشکلی داره که باید حل بشه. برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از را های دیگری مثل افزونه ها برای نوایندکس کردن استفاده کنید.
این کار کمک می کند تا مطمئن شوید که یک ربات خزنده هیچ صفحه مهمی را از دست نخواهد داد. فایل robots.txt به مدیریت فعالیت های این خزنده های وب کمک می کند تا بر سرور وب میزبان وب سایت، یا فهرست بندی صفحاتی که برای نمایش عمومی نیستند، هزینه بار اضافه نکنند. اما گاهی در همین فرایند جستجو و کاوش کردن مطالب مشکلات و معضلاتی پیش می آید که لازمه آن داشتن اطلاعات پایه ای و اساسی از سئوی سایت است. (کاوش شدن شاید عبارت بهتری باشد) مطالب سایت توسط ربات های گوگل اثرگذار است، یک فایل متنی است موسوم به فایل Robots.txt. دستورات فایل ربات به دو صورت Allow و Disallow تعریف می شوند، برای مجوز دادن به ربات موتور جستجو از دستور Allow استفاده می شود و برای محروم کردن یا محافظت کردن از آدرس یا قسمتی از سایت هم از Disallow استفاده می شود.