فایل Robots.txt چیست و چه کارایی دارد؟به همراه تگ ربات های جدید گوگل 2022زمان افزایش دانش شما: 13 دقیقه

آخرین بروز رسانی در 25/10/1401
یکی دیگر از کارهای سئو فنی مربوط به فایل روبوتس است.فایل Robots.txt یکی از فایلهای مهم در سایتها است. با استفاده از آن میتوان به موتورهای جستوجو اعلام کرد که چه محتوا و صفحاتی را برای ایندکس شدن بررسی نکنند. با این فایل شما میتوانید محتواهایی که نمیخواهید توسط موتورهای جستجو بررسی و در نتایج جستجوها نشان داده نشود را مشخص کنید.
فایل Robots.txt چیست؟
فایل Robots.txt یک فایل متنی است که مدیران وبسایتها برای آموزش به رباتهای موتورهای جستجو ایجاد میکنند. این فایل حاوی لیست صفحات و محتواهایی است که موتورهای جستجو نیازی نیست آنها را بررسی کرده و دسته بندی کنند.
فایل Robots.txt چیست و چه کارایی دارد؟
قالب اصلی فایل Robots.txt به چه صورت است؟
برای این کار باید کد زیر را در یک فایل با فرمت txt قرار دهید.
User-agent: [user-agent name]Disallow: [URL string not to be crawled]
این کد در فایل Robots.txt به عنوان اصلیترین کد شناخته میشوند. البته این فایل میتواند حاوی دستورات دیگری هم باشد که هرکدام از آنها فرایندی را اجرا میکنند. در کل Robots.txt مجموعهای از دستورالعملهای مدیر سایت برای رباتهای موتورهای جستوجو است که مشخص میکند رباتها چه رفتاری در سایت داشته باشند؛ مانند تصویر زیر:
فایل Robots.txt چیست و چه کارایی دارد؟
در یک فایل Robots.txt با چندین دستورالعمل، میتوان قوانین مجاز به دسترسی و عدم مجاز به دسترسی را ایجاد کرد. همانطور که در تصویر زیر مشاهده میکنید یک Robots.txt مشخص شده است که در آن قواعد مختلف برای رباتها توسط یک کاربر ایجاد شده است. رباتها و خزندهها فقط به مواردی که به آنها دسترسی یا همان کد follow داده شده است میتوانند مراجعه کنند.
فایل Robots.txt چیست و چه کارایی دارد؟
نمونه یک فایل Robots.txt:
در اینجا برای شما چند نمونه از فایل Robots.txt که برای سایت مثال www.example.com آورده شده است قرار دادهایم:
آدرس این فایل به صورت زیر قابل مشاهده است:
Robots.txt: www.example.com/robots.txt
استفاده از کد مسدود کردن برای همه رباتها و خزندهها:
User-agent: * Disallow: /
با استفاده از این کد شما به همه رباتها اعلام میکنید که فعلاً نیازی نیست هیچ صفحهای از سایت را بررسی کنند.
استفاده از کد مجاز برای بررسی:
User-agent: * Disallow:
با استفاده از این کد شما به رباتها اعلام میکنید که همه صفحات و محتوای سایت را مجاز به بررسی هستند.
مسدود کردن یک پوشه برای رباتها و خزندههای موتورهای جستجو:
User-agent: Googlebot Disallow: /example-subfolder/
این کد در فایل Robots.txt به این معنی است که رباتها به هیچ محتوایی که در پوشه ذکرشده قرار دارد، دسترسی ندارند.
مسدود کرده رباتها و خزندهها از دسترسی به یک فایل خاص:
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html
با استفاده از این کد شما به رباتها اعلام میکنید که اجازه دسترسی به این فایل و بررسی آن را ندارند.
فایل Robots.txt به چه صورت کار میکند؟
موتورهای جستجو با دو روش کار میکنند.
- استفاده از رباتها و خزیدن در بین وبسایتها برای کشف محتواها
- ایندکس کردن محتوای سایتها به طوری که بتوان آنها را دسته بندی کرده و در نتایج جستوجوها نشان داد.
فایل Robots.txt چیست و چه کارایی دارد؟
برای خزیدن در بین وبسایتها موتورهای جستجو از لینکهای قرار داده شده در سایتها استفاده میکنند. درنتیجه در داخل یک سایت چرخیده و از یک سایت به سایت دیگر لینک میشوند. درنهایت خزندهها بین میلیاردها لینک و وبسایت میخزند و اطلاعات را جمعآوری میکنند. این خزیدن رباتها شبیه به حرکت عنکبوت در تارهای خود است.
اطلاعات و نکاتی که باید در خصوص فایل Robots.txt بدانید:
- فایل txt در پوشه اصلی هاست قرار میگیرد.
- فایل txt به حروف بزرگ و کوچک حساس است. درنتیجه نام آن باید دست به صورت نام Robots.txt باشد. ساختارهای نوشتاری Robots.txt و robots.TXT صحیح نیستند.
- برخی از بدافزارها مانند رباتهای مخرب txt را نادیده میگیرند. این بدافزار به شدت به دنبال ایمیلهای سایت شما هستند تا ارسال تعدادی زیادی هرزنامه و اسپم را آغاز کنند.
- فایل txt به صورت عمومی در دسترس است. فقط کافی است در انتهای آدرس یک سایت کلمه Robots.txt را قرار دهید تا این فایل را برای شما نشان دهد.
- فایل txt برای مخفی کردن اطلاعات خصوصی مناسب نیست و فقط باید دستورالعملهای رباتها را در آن قرار داد.
- در هر دامنه و زیر دامنه باید یک فایل txt جداگانه قرار بگیرد.
فایل Robots.txt در حالت کلی شبیه به تصویر زیر است:
فایل Robots.txt چیست و چه کارایی دارد؟
بررسی فنی فایل Robots.txt و اصطلاحات رایج آن
در فایل Robots.txt اصطلاح فنی زیادی رایج است. با این حال 5 مورد است که شما باید به خوبی با آنها آشنا شوید. این اصطلاحات عبارتاند از:
- کد User-agent: کد دستوری اصلی که با آن به خزندهها دستور میدهید.
- کد Disallow: کد دستوری که به خزندهها اعلام میکند که اجازه بررسی فایل و یا پوشه در آدرس مشخص URL مشخص شده را ندارند.
- کد Allow: کد دستوری که فقط برای رباتهای موتور جستجوی گوگل کاربرد دارد و به آنها اعلام میکند که مجاز هستند چه فایلها و پوشههایی را بررسی کنند.
- کد Crawl-delay: این کد به ربات خزنده اعلام میکند که چند ثانیه باید برای خزیدن در فایل بعدی صبر کند تا فایل بعدی به خوبی برای ربات بارگذاری شود. این کد توسط رباتهای گول یا همان Googlebot مورد تائید نیست به آن توجهی نمیکنند.
- کد Sitemap: این کد نشان میدهد که نقشه سایت در چه آدرس URL قرارداد. این کد توسط موتورهای جستوجو شامل گوگل و یاهو، بینگ، Ask پشتیبانی میشود.
تطبیق الگو در فایل Robots.txt
وقتی صحبت از URL های واقعی در فایل Robots.txt میشود، آدرسها و دستورهای کاملاً پیچیدهای در این فایل استفاده میشوند. با این حال امکان تطبیق الگو برای طیف وسیعی از URL ها وجود دارد. موتور جستوجوهای گوگل و بینگ هردو از یک الگوی منظم برای بررسی URL ها در این فایل استفاده میکنند.
فایل Robots.txt چیست و چه کارایی دارد؟
این الگوها با کاراکترهای * و دلار $ مشخص میشوند:
- الگوی ستاره * یک کاراکتر عمومی است که دنباله آدرس را مشخص میکند یعنی بررسی این آدرس با هر دنبالهای مجاز یا غیرمجاز است.
- الگویی $ به انتهای آدرس URL اشاره دارد. به معنی پایان آدرس یک URL است.
فایل Robots.txt در کجای سایت قرار میگیرد؟
همانطور که قبلاً هم گفته شد Robots.txt در پوشه اصلی سایت قرار میگیرد. این محلی پیشفرض است که رباتها و خزندهها آن را بررسی میکنند تا به دنبال این فایل باشند. درنتیجه اگر این فایل در آنجا نباشد برای رباتها به این معنی است که این سایت فایل Robots.txt ندارد.
به همین دلیل حتی اگر این فایل در آدرسی شبیه زیر باشد توسط رباتها مورد قبول نیست:
www.example.com/homepage/robots.txt
چرا به فایل Robots.txt نیاز دارید؟
فایل Robots.txt دسترسی خزندهها به بخشهای مختلف سایت شما را کنترل میکنند. درنتیجه اگر شما به صورت تصادفی Googlebot را از خزیدن در سایت خود منع کنید ممکن است برای سئو و رتبه بندی سایت شما خیلی خطرناک باشد.
برخی از موارد استفاده رایج از فایل Robots.txt
- جلوگیری از ظاهر شدن محتوای تکراری در SERP
- مخفی نگه داشتن بخشهای کامل یک وبسایت از دید رباتهای خزنده
- جلوگیری از نمایش صفحات نتایج جستجوی داخلی سایتها در نتایج SERP عمومی
- مشخص کردن آدرس نقشه سایت
- جلوگیری از ایندکس کردن فایلهای خاص در وبسایت شما (تصاویر، PDF و غیره) توسط موتورهای جستجو
- تعیین تأخیر در خزیدن رباتها بهمنظور جلوگیری از بارگیری بیش از حد سرورهای شما (هنگام بارگیری همزمان چند قطعه محتوا توسط خزندهها، سرعت سایت شما کاهش پیدا میکند)
فایل Robots.txt چیست و چه کارایی دارد؟
بررسی داشتن فایل Robots.txt درسایت
اگر مطمئن نیستید که Robots.txt را دارید یا نه میتوانید به سادگی در انتهای آدرس سایت خود یک Robots.txt را تایپ کنید تا مشخص شود که سایت شما دارای این فایل است یا خیر.
به عنوان مثال آدرس زیر فایل ربات سایت moz را نشان میدهد که همه افراد میتوانند آن را مشاهده کنند:
moz.com/robots.txt.
اگر این صفحه نمایش داده نشد سایت شما فاقد فایل Robots.txt است
نحوه ایجاد فایل Robots.txt در سایتها
اگر میخواهید یک فایل Robots.txt ایجاد کنید بهترین راهنما برای شما دستورالعمل گوگل است. این دستورالعمل یک فرایند چند خطی است که به شما در کوتاهترین زمان ممکن آموزش میدهد چه دستوراتی را در فایل خود قرار دهید تا رباتهای گوگل بتوانند به خوبی در سایت شما جستجو کنند.
فایل Robots.txt چیست و چه کارایی دارد؟
استفاده از فایل Robots.txt برای بهبود سئو
برای اینکه بتوانید سئوی سایت خود را بهبود ببخشید باید از فایل Robots.txt استفاده کنید. در گام نخست باید بررسی کنید که هیچ محتوایی در این فایل برای بررسی و خزیدن رباتها مسدود نشده باشد. به این نکته توجه داشته باشید که اگر آدرسی در این فایل برای رباتها مسدود شود هیچ وقت سئو و ایندکس نمیشود. درنتیجه ارزشی برای سایت شما نخواهد داشت.
اگر صفحاتی را میخواهید مشخص کنید که موتورهای جستجو به آنها وارد نشده و از دیدن آنها پنهان بمانند، میتوانید در Robots.txt دسترسی به آنها را محدود کنید. به این نکته توجه داشته باشید که این صفحات توسط گوگل و دیگر موتورهای جستجو بررسی نمیشوند. درنتیجه تأثیری در بهبود سئوی سایت شما نخواهند داشت.
از فایل Robots.txt برای جلوگیری از نمایش اطلاعات حساس مانند اطلاعات خصوصی کاربر در نتایج جستجو یا همان SERP ها استفاده نکنید. چرا که این اطلاعات با دیگر صفحات پیوند داشته و درنتیجه ممکن است همچنان ایندکس شده و یا اینکه ایندکس دیگر صفحات را هم با مشکل روبرو کنند.
برخی موتورهای جستجو از چند نوع ربات برای بررسی سایتها استفاده میکنند؛ مثلاً گوگل دارای ربات Googlebot برای جستجوی ارگانیک در بین سایتها است. همچنین گوگل دارای ربات Googlebot-Image برای جست جوی تصاویر نیز است. اکثر موتورهای جستجو از قوانین یکسان استفاده میکنند، بنابراین نیازی نیست برای هر موتور جستجو یک دستورالعمل مجزا نوشته شود.
موتورهای جستجو معمولاً اطلاعات قرار داده شده در Robots.txt را برای چند روز در حافظه خود نگه میدارند. در صورتی که این فایل را بروزرسانی کردهاید بهتر است آدرس آن را برای بررسی در گوگل سرچ کنسول ارسال کنید تا سریعتر بروز رسانی شود.
فایل Robots.txt چیست و چه کارایی دارد؟
بررسی و کنترل محتوای به وسیله تگ ربات های جدید گوگل
گوگل اعلام کرده است یک تگ روبات جدید در آینده پیش روی شما قرار خواهد گرفت که این تگ یرچسب indexifembedded نام دارد. این موضوع این امکان را در اختیار شما قرار خواهد داد که به کنترل تگ های خود بپردازید. در این بخش متوجه خواهید شد آیا گوگل قصد دارد صفحه ای را با محتوای جاسازی شده فهرست کند یا خیر. از طرفی این موضوع به گوگل اجازه خواهد دهد تا محتوای یک صفحه را در صورتی که در صفحه دیگری از طریق iframe یا تگ های HTML مشابه بارگزاری شده باشد را علیرغم دستور noindex، فهرست بندی کند.
indexifembedded تنها در صورتی اثرگذاری خواهد داشت که با تگ noindex همراه باشد. گری ایلیس و ویزی وانگ از گوگل این گونه نوشته اند که “ما در حال معرفی یک تگ ربات جدید به نام indexifembedded هستیم که کنترل بیشتری بر روی زمانی که محتوای شما ایندکس می شود داشته باشید. بدین ترتیب با تگ indexifembedded، می توانید به مرورگر گوگل بگویید که همچنان دوست دارید محتوای شما در مرورگر ایندکس شود. بدین ترتیب از طریق iframes، تگ های HTML مشابه در صفحات دیگر جاسازی می شوند. این موضوع حتی زمانی اتفاق می افتد که صفحه محتوا دارای تگ noindex باشد.”
به طور خلاصه، فرض کنید که یک قطعه از محتوا را با استفاده از iframe جاسازی کرده ایم. آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت. اما وقتی کدهای مربوطه را در صفحات خود جاسازی می کنید، ممکن است گوگل پیشنهاد دهد که به دلیل اینکه محتوای جایگذاری شده بدون فهرست است، این کار را انجام ندهید. صفحه ای را که ما به عنوان مثال در آن کدهای مربوطه را جایگذاری می کنیم به طور حتم ایندکس خواهند شد. در این بخش، گوگل به شما کنترل بیشتری می دهد تا بگویید، صفحه ای را که در آن کدهای مربوطه جایگذاری شده اند را چگونه فهرست کنید. این موضوع را به عنوان هشداری در گوگل در مورد جایگذاری شبکه های اجتماعی از جمله اینستاگرام یا سایر تصاویر و مشکلات سئو که می توانید ایجاد کنید موثر خواهد بود.
گوگل در این باره می گوید که تگ indexifembedded “به یک مشکل رایج می پردازد. این مشکل به طور کلی ناشران رسانه ها را نیز تحت تاثیر قرار خواهد داد. در حالی که در برخی مواقع مشاهده خواهید کرد که متقاضیان بخواهند محتوای خود را در زمانی مشخص در صفحات شخص ثالث جایگذاری کنند تا گوگل به ایندکس صفحات بپردازد. از اینرو لزوما نیاز نخواهد بود که صفحات رسانه ای خود را به تنهایی مورد ایندکس گوگل قرار دهید. زیرا ممکن است این صفحات نخواهند که از دید گوگل ایندکس شوند. از اینرو اگر میخواهید صفحات مربوط به رسانه سایت شما ایندکس شوند، در چنین حالتی از یک تگ noindex در صفحات استفاده می شود. با این حال، تگ noindex از نشان دادن محتوا در صفحات دیگر نیز جلوگیری میکند.
تگ ربات جدید، indexifembedded دارای ویژگی های دیگری است که گوگل در این باره می گوید: تگ ربات جدید در ترکیب با تگ noindex تنها زمانی کار می کند که صفحه شما دارای تگ noindex باشد. بدین ترتیب از طریق یک iframe یا تگ HTML مشابه، در صفحه دیگری جایگذاری خواهد شد.
مثالی که گوگل در این خصوص ارائه داده بود به وسیله یک پادکست بوده است، از اینرو اگر podcast.host.example/playpage?podcast=12345 دارای هر 2 تگ noindex و indexifembedded باشد، این موضوع بدین معنی خواهد بود که گوگل می تواند محتوای میزبانی شده در آن صفحه را در recipe.site.example/my-recipes جایگذاری کند. بنابراین اگر اینستاگرام فرمت indexifembedded را در پلتفرم خود پیاده سازی کند، ممکن است این مشکل حل شود.
در اینجا نمونه های کد به صورت متا ربات و ربات x آمده است:
سؤالات متداول
آیا استفاده از فایل txt لازم است؟
در حالت معمولی خیر استفاده از این فایل الزامی نیست. Robots.txt تنها برای خزیدن بهتر رباتهای گوگل و دریافت نتایج بهینهتر استفاده شده و تأثیر آن در بهبود سئوی سایت است. این فایل جزو فایلهای الزامی سایتها نیست.
تفاوت متا رباتها و رباتهای X با فایل txt در چیست؟
فایل Robots.txt یک فایل متنی واقعی است. در حالی که متا ربات و ربات X از نوع متا هستند. همچنین عملکرد این سه ربات به کل با یکدیگر متفاوت است. Robots.txt نحوه خزیدن در صفحات مختلف وبسایت را به رباتها اعلام میکند در حالی که متا ربات و ربات X رفتارهای یک صفحه یا محتویات یک صفحه را به رباتهای خزنده اعلام میکنند.
تأثیر فایل txt در سئو چقدر است؟
در واقع فایل Robots.txt یک قرارداد بین سایت شما و رباتهای خزنده است که به آنها اعلام میکند چه محتوایی قابل بررسی و چه محتوایی غیرقابل بررسی است. با این کار رباتهای موتورهای جستجو زمان کافی و اختیارات لازم برای بررسی محتوای وبسایت شما را داشته و بهتر سایت شما را بررسی میکنند. درنتیجه سئوی سایت شما بهبود پیدا میکند.
آیا گوگل از دستورات ایجاد شده در فایل txt پیروی میکند؟
گوگل به صورت رسمی اعلام کرده است که برخی از دستورات قرار داده شده در Robots.txt از تاریخ 1 سپتامبر 2019 به بعد کارایی ندارند و باید از دستورات جایگزین برای آنها استفاده کرد. گوگل به صورت رسمی همچنان فایل Robots.txt مورد پشتیبانی قرار میدهد، اما برخی از دستورات این فایل را دیگر پشتیبانی نکرده و آنها را نادیده میگیرد. یکی از این دستورات دستور کلی noindex directive است.
آیا تمامی رباتهای موجود در اینترنت از فایل txt پیروی میکنند؟
خیر رباتهای بدافزارها به دنبال اطلاعات کلی از سایتها مانند ایمیلهای بخش Info هستند درنتیجه به صورت کامل Robots.txt را نادیده میگیرند و از دستورات آن پیروی نمیکنند. هدف این رباتهای مخرب پیدا کردن ایمیلهای شرکتی است تا هرزنامه و اسپمها را به صورت انبوه برای این ایمیلها ارسال کنند.
لینک مراجع:
https://www.seroundtable.com/googles-robots-tag-indexifembedded-32802.html
دیدگاهتان را بنویسید