Kalau kita cek semua URL yang diindeks, meski diblokir oleh robots.txt ini adalah semua halaman Search yaitu untuk halaman Search Label dan untuk halaman navigasi postingan lama.
Seperti yang ditunjukan bahwa halaman-halaman tersebut diindeks, meski diblokir oleh robots.txt. Itu karena blogger menggunakan robots.txt seperti berikut:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.domainanda.com/sitemap.xml
Pada robots.txt di atas menunjukan bahwa semua halaman Search tidak diizinkan untuk dicrawl bot.Namun karena halaman-halaman search tersebut ditautkan di blog seperti pada breadcrumb, menu, atau widget label atau pada navigasi next prev, maka halaman-halaman tersebut tetap dirayapi bot.
Untuk mengatasi masalah ini, sebaiknya halaman-halaman tersebut diperbolehkan untuk dirayapi bot dan ditampilkan di hasil pencarian.
Silahkan ganti robots.txt dengan kode berikut ini jika Anda menggunakan robots.txt seperti di atas.
User-agent: *
Disallow:
Sitemap: https://www.domainanda.com/sitemap.xml
Sitemap: https://www.domainanda.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.domainanda.com/feeds/posts/default
Sitemap: https://www.domainanda.com/sitemap-pages.xml
Silahkan ganti kode yang ditandai dengan domain blog Anda.Untuk kode berikut, buat baris baru jika postingan blog Anda sudah di atas 500.
Sitemap: https://www.domainanda.com/atom.xml?redirect=false&start-index=501&max-results=500
Begitu seterusnya, jika postingan sudah di atas 1000, maka buat baris baru lagi seperti berikut:Sitemap: https://www.domainanda.com/atom.xml?redirect=false&start-index=1001&max-results=500
Kemudian silahkan simpan kode meta tag noindex berikut di bagian <head>
blog untuk memblokir bot pada halaman arsip, search, label dan tidak menampilkannya di halaman hasil percarian Google.
<b:if cond='data:view.isArchive'>
<meta content='noindex,noarchive' name='robots'/>
</b:if>
<b:if cond='data:blog.searchQuery'>
<meta content='noindex,noarchive' name='robots'/>
</b:if>
<b:if cond='data:blog.searchLabel'>
<meta content='noindex,noarchive' name='robots'/>
</b:if>
Dan pastikan Anda tidak menggunakan widget arsip blogger.Setelah semua hal di atas di lakukan, silahkan submit robots.txt baru Anda di robots.txt testing tool agar Google cepat mengenali robots.txt baru Anda.
Kemudian masuk ke Console dan lakukan validasi pada warning Diindeks, meski diblokir oleh robots.txt dan silahkan pantau terus Search Console.