ایندکس نشدن مطالب سایت یکی از مهمترین قسمت های هر سایتی است که باید هر چه زودتر بررسی و رفع مشکل گردد.
آموزش سایت| این قسمت: بررسی ایندکس نشدن مطالب سایت
ایندکس نشدن یعنی نشان ندادن مطالب سایت شما در فهرست جستجوهای گوگل:
از مهم ترین دلایل ایندکس نشدن یک وبسایت می توان به موارد زیر اشاره نمود:
۱- وبسایت به تازگی راه اندازی شده و گوگل هنوز آن را پیدا نکرده است
۲- بررسی صفحات سایت با تگ noindex برای موتور های جستجوگر مسدود شده است
۳- دسترسی خزنده های موتور جستجوگر به صفحات وب سایت، توسط تنظیمات فایل robots.txt مسدود شده است
۴- وبسایت به اندازه کافی backlink معتبر ندارد
۵- وبسایت یا صفحه مدنظر از لحاظ بهینه سازی و سئو با معیار های گوگل سازگار نیست
۶- وبسایت با مقادیر جستجو شده توسط کاربران مطابقت ندارد
۷- وبسایت توسط تیم گوگل پنالتی شده است
۸- شما تولید محتوای تکراری دارید که این محتوا در وبمستر در بخش Excluded ← coverage نشان داده می شود.
حال شما می خواهید بدانید که آیا مطالب سایت من ایندکس می شود یا نه؟
استفاده از آدرس گوگل:
ابتدا کلمه site را در گوگل تایپ کنید بعد از آن آدرس سایت یا آدرس صفحه خود را تایپ کنید اگر همان خبر در صفحات نمایش گوگل ظاهر شد یعنی صفحه مطلب شما ایندکس شده است:
مشاهده ایندکس شدن صفحه سایت:
site:savalankhabar.ir
مشاهده ایندکس شدن مطلب سایت:
site:savalankhabar.ir/۲۲۱۲۴۲/%d9%be%db%8c%d8%b4-%d8%a8%db%8c%d9%86%db%8c-%d9%88%d8%b6%d8%b9%db%8c%d8%aa-%d8%ac%d9%88%db%8c-%d8%a7%d8%b3%d8%aa%d8%a7%d9%86-%d8%a7%d8%b1%d8%af%d8%a8%db%8c%d9%84-%d8%af%d8%b1-%d8%b1%d9%88%d8%b2%d9%87/
استفاده از ابزار URL Inspection
همانطور که میدانید ابزار URL inspection در سرچ کنسول گوگل قرار دارد که به بررسی ایندکس نشدن و یا ایندکس نشدن سایت میپردازد.
URL Inspection از سه قسمت تشکیل شده است:
۱ – درخواست ایندکس شدن دستی یک مطب
۲-Coverage : بررسی ایندکس شدن سایت
۳- Enhancements: بررسی مطالب سایت در موبایل
توضیح:
در بخش URL Inspection و در بالای صفحه جا خالی بنام inspet any URL … به “معنی URL را وارد کنید” قرار دارد.
در جای خالی آدرس صحفه مورد نظر خود را در آنجا قرار دهید و بعد اینتر را بزنید.
اگر فرایند ایندکس صفحات در گوگل به درستی انجام شده باشد، شما عبارت “URL is on Google” را خواهید دید.
در مقابل اگر آدرس مورد نظر ایندکس نشده باشد، عبارت “URL is not on Google” نمایش داده میشود.
در همین بخش گوگل امکان ایندکس کردن مطالب را بصورت دستی فراهم کرده است.
در سمت چپ همان کادر عبارت Request Indexing را مشاهده میکنید.
با استفاده از این گزینه و با کلیک کردن روی آن میتوانید درخواست کنید ایندکس صفحات در گوگل مجددا انجام شود.
در پایین همین صفحه بخش Coverage اطلاعات مفصلتری در مورد پروسه ایندکس شدن یا نشدن صفحات توسط گوگل را مشاهده میکنید و خواهید دید که آیا گوگل در این پروسه موفق عمل کرده است یا خیر.
در این قسمت Coverage
URL is unknown to Google یعنی URL به معنی برای گوگل ناشناخته است.
None detected | هیچ کدام شناسایی نشد
URL might be known from other sources that are currently not به معنی URL ممکن است از منابع دیگری که در حال حاضر گزارش نشده اند شناخته شده باشد.
در پایین همین صفحه نیز Enhancements وجود دارد که که نشان میدهد آیا صفحات سایت در دستگاههای موبایل به خوبی بارگذاری میشوند.
Only indexed URLs can have enhancement به معنی فقط URL های فهرست شده می توانند پیشرفت داشته باشند.
بخش TEST LIVE URL
حال اگر میخواهید گزارش ایندکس به روز باشد، میتوانید از گزینه TEST LIVE URL گه در بالای صفحه و در داخل کادر در سمت راست صفحه قرار دارد استفاده کنید.
اگر مطلبی که ایندکس نشده باشد پیام زیر مشاهده می شود.
URL is available to Google, but has issues
If it gets indexed and selected as canonical, it could appear in Google Search results. However, some issues prevent it from being eligible for all enhancements. Learn more
به معنی
URL در دسترس Google است، اما مشکلاتی دارد.
اگر ایندکس شود و به عنوان متعارف انتخاب شود، می تواند در نتایج جستجوی Google ظاهر شود. با این حال، برخی از مسائل مانع از واجد شرایط بودن آن برای همه پیشرفتها میشود. بیشتر بدانید.
در ضمن شما می توانید خطای ایندکس نشدن سایت را هایی که در گزارش coverage مشاهده نمایید
حال اگر شما تمامی مراحل ثبت سایت در گوگل را انجام داده اید ولی باز با مشکل ایندکس مواجه هستید، ممکن است بدلیل خطای زیر باشد.
ایندکس نشدن سایت به دلیل زیر اتفاق می افتد
اگر وبسایت شما قبلاً در گوگل ایندکس شده اما پس از گذشت مدتی از فعالیت سایتتان ناگهان تمامی ایندکسها حذف شده و ورودی سایت شما از گوگل بهشدت کاهش یافته است، احتمالاً با بحرانی به نام پنالتی گوگل (پنالایز) مواجه شدهاید که می توانید از سرچ کنسول بخش Security issues از این مورد اطمینان حاصل کنید.
اما اگر مدتی از راهاندازی وبسایت شما گذشته و هنوز هیچکدام از صفحات وبسایتتان ایندکس نشده است، باید دلایل زیر را به ترتیب بررسی کنید:
غیرفعال کردن گوگل در بخش تنظیمات وردپرس
به مدیریت وردپرس و به بخش تنظیمات سایت بروید. قسمت خواندن را کلیک کنید در پایین همان صفحه عنوانی به این شکل نمایش داده می شود.
از موتورهای جستجو درخواست کن تا محتوای سایت را بررسی نکنند
اگر این گزینه را فعال کرده باشید، غیرفعال کنید.
به دلیل وجود مطالب تکراری
برخی مواقع سایت شما ایندکس می شود ولی برخی مطالب نه
دلیل این موضوع استفاده از مطالب تکراری و با تیتر یکسان در سایت است.
در این مواقع گوگل هیچ علاقه ای به ایندکس ندارد چون مطالب تکراری فضای او را پر می کند. در این شرایط ربات ها و خزنده های گوگل مطلبی را که استاندارد و پربازدید باشد فهرست میکند.
اگر شما صاحب سایت خبری هستید و مجبور هستید از عناوین تکراری مثل بررسی هواشناسی، روزنامه های امروز، قیمت سکه و …. استفاده کنید از تگ canonical استفاده کنید.
کشف شده – در حال حاضر نمایه نشده است
برخی مواقع حتی با اینکه دستی ایندکس کرده باشید باز مطلب شما ایندکس نشده است، وقتی بررسی می کنید پیام” کنسوگل گوگل صفحات شما را یافته اما هنوز آن ها را بررسی نکرده است” را مشاهده می کنید.
معمولا صفحات این بخش به مرور زمان توسط گوگل ایندکس خواهند شد، به هر حال گوگل آن ها را به دلایلی مانند نداشتن محتویات ارزشمند با تاخیر ایندکس می کند. یکی از راه حل های سریع تر ایندکس شدن این صفحات ایجاد بک لینک خارجی برای آن ها است، برای مثال می توانید آن ها را در شبکه های اجتماعی به اشتراک بگذارید.
خطای DNS
ارورهای DNS برای مدیریت یک وب سایت از اهمیت بسیار زیادی برخوردارند و می توانند روی ایندکس نشدن سایت در گوگل نقش مهمی را ایفا کند.
DNS مخفف عبارت Domain Name System به معنای سیستم نام دامنه است.
داشتن مشکل dns به این معنا است که ربات گوگل به دلیل dns timeout یا مشکل dns lookup نمی تواند به دامنه شما متصل شود.
اگر با چنین مشکلی مواجه شدید، باید سریعا برای رفع آن اقدام کنید. چرا که در واقع اولین مرحله دسترسی ربات های گوگل به وب سایتتان همین مرحله است.
رفع خطای dns
به منظور رفع خطای dns که نتیجه آن ایندکس نشدن سایت است، باید به تریتب زیر پیش بروید:
در گام اول بهتر است از ابزار URL inspection سرچ کنسول گوگل استفاده نمایید تا متوجه شوید ربات گوگل به چه شکلی صفحه مربوط به URL مورد نظر را crawl می کند.
اگر گوگل نمی تواند صفحه مورد نظر را به درستی fetch کند، نیاز است که اقدامات بیشتری را داشت باشید. در این حالت می توانید به تنظیمات dns خود مراجعه کرده و مشکل را مورد بررسی قرار دهید.
بررسی کنید که آیا که سرور میزبانتان ارور ۴۰۴ یا ۵۰۰ را نمایش می دهد یا خیر. در این حالت سرورتان به جای نمایش failed connection باید ارور ۴۰۴ (not found) یا ارور ۵۰۰ (server error) را نشان دهد. این ارورها در مقایسه با خطای dns دقیق تر است.
خطاهای سرور (server errors)
یکی دیگر از دلایل ایندکس نشدن سایت خطای سرور است. این خطا اغلب به این معنا است که زمان پاسخگویی سرور بیش از اندازه طولانی می شود.
ربات های گوگل در هنگام خزیدن در وب سایت می توانند تنها یک بازه زمانی مشخص را برای بارگذاری سایت صبر کنند. اگر زمان بارگذاری بیش از اندازه طولانی شود، ربات گوگل دست از تلاش برای crawl کردن وب سایتتان برمی دارد.
خطاهای سرور با خطاهای dns تفاوت دارد. خطای dns به این معنا است که ربات های گوگل به دلیل مشکلات موجود حتی امکان پیدا کردن URL شما را نیز ندارد. در حالی که در خطاهای سرور، ربات های گوگل می توانند به یک وب سایت متصل شوند اما به دلیل وجود مشکلات نمی توانند صفحه را بارگذاری کنند.
یکی از دلایل بروز خطای سرور ورود ترافیک بیش از اندازه به وب سایتتان است. برای جلوگیری از وقوع چنین اتفاقی باید اطمینان حاصل کنید که سرویس ارائه دهنده میزبانی وب شما می تواند در هنگام ورود ترافیک بالا، آنها را مدیریت نماید.
از سوی دیگر وقتی رباتهای گوگل نتوانند محتوایی را ببینند، امکان ایندکس کردن آن را هم ندارند. اگر هاست شما به صورت مداوم قطع میشود، ممکن است رباتهای گوگل نتوانند در سایت شما crawl کنند. در این مواقع توصیه میشود هاستتان را عوض کرده و از هاست باکیفیتتری استفاده کنید.
ممکن است در ظاهر هم هاست شما مشکلی نداشته باشد، اما طبق تجربهای که بر روی چندین سایت بزرگ و کوچک بدست آوردیم، با تغییر هاست، صفحات سایت ایندکس شدند.
Server error
بخش coverage سرچ کنسول خود بروید و روی تبError کلیک کنید. اگر در زمان بررسی آدرس مورد نظر یکی از خطاهای دسته ۵xx رخ داده است، جهت بررسی ابتدا آدرس مربوطه را در یک تب جداگانه باز نموده و از دسترس بودن آن اطمینان حاصل نمایید. چنانچه صفحه مربوطه بدون مشکل بارگذاری شد مشخص می گردد مشکل موقت بوده و در حال حاضر برطرف شده است. این مورد می تواند به دلیل قطعی موقت سرور میزبان سایت یا خطاهای اسکریپتی مانند ۵۰۳ و ۵۰۴ و حتی خطاهای مربوط به cdn مانند ۵۲۴ نیز رخ دهد لذا پیشنهاد می گردد ابتدا از پایداری سرور میزبان سایت خود اطمینان حاصل نموده و سپس مصرف منابع هاست و خطاهای اسکریپت که معمولا در فایل error_log ذخیره می شوند را بررسی و رفع نمایید تا مجدد با این مشکل روبرو نشوید.
رفع خطای سرور
در هنگام بروز چنین اتفاقی در وب سایت خود باید از ابزار URL inspection استفاد کنید تا متوجه شوید که ربات های گوگل می توانند وب سایتتان را crawl کنند یا نه. اگر گوگل سرچ کنسول توانست بدون هیچ مشکلی صفحه اصلی وب سایت را پیدا کند، می توانید اطمینان پیدا کنید که گوگل امکان دسترسی به سایتتان را دارد. در غیر این صورت علت ایندکس شدن سایت خطای سرور است.
خرابی robots
شاید برایتان جالب باشد که بدانید تنها زمانی استفاده از فایل robots.txt ضرورت پیدا می کند که قصد داشته باشید دسترسی گوگل به برخی از صفحات خود را محدود کنید.
اگر قصد دارید موتورهای جستجو تمامی اطلاعات موجود در وب سایتتان را ایندکس کند، نیازی به فایل robots.txt ندارید.
فایل robots.txt در ریشۀ وبسایت قرار دارد و از طریق آدرس yoursite.com/robots.txt میتوانید محتویات آن را مشاهده کنید.
یکی از دلایل ایندکس نشدن صفحات سایت، استفادۀ نادرست از دستور Disallow است.
هرگاه در این فایل دستور Disallow وجود داشت، دقت کنید که برای چه مسیری از آن استفاده شده است زیرا این دستور باعث جلوگیری از دسترسی رباتهای گوگل به آن مسیر میشود.
بهتر است wp-admin را به شکل زیر disallow کنید:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
بجز کد بالا، بهتر است بخشهای دیگری از وردپرس را Allow یا Disallow نکنید مگر در موارد خاص.
فایل robots اغلب در پوشه public_html قرار دارد. در نظر داشته باشید چنانچه این محدودیت برای مدت طولانی پابرجا باشد گوگل اقدام به حذف این صفحات از نتایج جستجوی خود می کند.
توجه نمایید چنانچه برای مثال قطعه کد /disallow:/blog در فایل robots.txt قرار داده شده باشد، کلیه مطالب بلاگ شما ایندکس نمی شوند.
یکی از مهمترین دلایل ایندکس نشدن صفحات در گوگل، وجود قطعه کد زیر در هدر سایت است:
<meta name=”robots” content=”noindex,follow”/>
برای اینکه بدانید این کد در هدر سایت شما وجود دارد یا خیر، با مرورگر کروم یا فایرفاکس وارد وبسایت خود شده و پس از کلیک راست بر روی صفحه، بر روی گزینۀ View page source کلیک کنید (از کلید ترکیبی ctrl+u استفاده کنید).
در صفحۀ جدید کدهای وبسایت خود را مشاهده میکنید که میتوانید با جستجوی عبارت robots در این صفحه، مقادیر این متا تگ را بررسی کنید و درصورتیکه عبارت noindex در این صفحه وجود داشت، باید آن را از طریق ویرایش فایلهای وبسایت خود و یا ویرایش تنظیمات افزونۀ سئو اصلاح کنید.
تنظیمات اشتباه یا مسدود شدن htaccess
فایل htaccess یک فایل پیکربندی سرور است. این فایل میتواند برای ایجاد ریدایرکتها، بازنویسی URLهای کثیف به نسخههای تمیزتر و حتی مسدود کردن صفحات برای اینکه رباتهای گوگل نتوانند در آنها crawl کنند، استفاده شود.
اگر سایت یا صفحه شما در robots.txt یا از طریق دستورالعملهای روی صفحه مانند تگ noindex مسدود نشده اما همچنان امکان crawl کردن برای آن وجود ندارد، ممکن است از طریق htaccess مسدود شده باشد.
به عبارتی ممکن است دستوراتی در فایل htaccess وبسایت شما قرار داشته باشد که مانع از ایندکس شدن صفحات سایت در گوگل شود.
برای مشاهدۀ محتویات فایل htaccess میتوانید از کنترل پنل هاست خود اقدام کنید.
با توجه به پیچیدگی دستورات htaccess توصیه میکنم از یک متخصص کمک بگیرید زیرا ممکن است با ویرایش این فایل، اشکالاتی در وبسایت شما ایجاد شود.
URL ارسال شده با علامت noindex
در این حالت صفحات لیست شده، به درخواست شما با تگ noindex حذف شده اند. برای رفع آن نیاز است به source (کد منبع) آن صفحه مراجعه نموده و با جستجو در کدهای آن، تگ noindex را حذف نمایید تا خطا رفع گردد. این خطا در سایت های وردپرسی اغلب به دلیل استفاده از افزونههای yoast seo و rank math نیز رخ می دهد.
ایندکس نشدن سایت به دلیل خطاهای URL
خطای ۴۰۴
این ارور در واقع یکی از گیج کننده ترین خطاهایی است که در بحث crawl و ایندکس نشدن سایت وجود دارد.
زمانی که ربات های گوگل تلاش می کنند تا صفحه ای که آدرس آن دیگر معتبر نیست را crawl کنند، با ارور ۴۰۴ مواجه می شوند.
حال با توجه به اینکه یک عامل نرم افزاری سبب این اتفاق شده است یا اینکه صفحه مورد نظر دیگر وجود ندارد، می توان این ارور را به دو دسته soft و hard تقسیم کرد.
خطای ۴۰۴ hard
این خطا یکی از پیچیده ترین و در عین حال ساده ترین اروری است که می توان با آن رو به رو شد.
خطای ۴۰۴ زمانی خود را نشان می دهد که صفحه مورد نظر دیگر وجود خارجی نداشته باشد. در نتیجه زمانی که کاربر یا ربات های گوگل وارد آن صفحه می شوند با این ارور مواجه می شوند.
به منظور رفع این خطا در ساده ترین حالت باید گفت که اگر صفحه مرده است، باید دوباره آن را زنده کنید. اگر هم نمی خواهید جان دوباره ای به آن صفحه بدهید، پس لازم است که آن را روی یک صفحه مناسب دیگر redirect کنید.
خطای soft 404 زمانی رخ می دهد که اعتبار آدرس یک صفحه به خاطر عاملی نرم افزاری اعتبار خود را از دست بدهد. این عامل می تواند رول هایی که در htaccess تعریف شده اند، افزونه ها یا هر مورد مشابه دیگر باشد.
برای رفع خطای soft 404 صفحات قدیمی را با استفاده از ریدایرکت ۳۰۱ به صفحات مرتبط در سایت خود redirect کنید.
نتیجهگیری
باید بررسی کنید ربات گوگل بهچهدلیلی نمیتواند سایت شما را بهطور کامل مشاهده کند؛ مثلاً ممکن است ناخواسته دسترسی رباتهای گوگل را به قایلهای CSS مسدود کرده باشید که در این صورت باید مشکل را رفع کرده و مجدد فچ و رندر کنید.
بهجز عوامل بالا، عامل دیگری وجود ندارد که به قطعیت باعث جلوگیری از ایندکس صفحات سایت شود اما عواملی مانند وجود نقشه سایت، بهینهسازی ساختار پیوند یکتا، ثبت سایت در سرچ کنسول (Search Console) و… میتوانند در سریعتر شدن ایندکس صفحات وبسایتتان در گوگل مؤثر باشند.
در این مقاله از سایت میزبان فا، راستانا و….استفاده کرده ایم.