Crawling vs. Indexing untuk SEO: Sinyal Mana yang Harus Digunakan dan Kapan?
11 August 2023
Sinyal-sinyal yang mengendalikan crawling, indexing, dan bagaimana memanfaatkannya untuk menjaga performa SEO teknis Anda.
Gambar: Lumar.io
Mengoptimalkan crawlability dan indexability situs Anda adalah hal yang mendasar bagi setiap technical seo. Jika mesin pencari atau search engine sulit merayapi/crawling dan mengindeks situs Anda, akan lebih sulit bagi konten Anda untuk mendapatkan peringkat yang baik di halaman hasil pencarian (SERP) dan sulit bagi calon pelanggan untuk menemukan bisnis Anda.
Sebagai praktisi SEO dan pemasar digital, kita perlu memilih metode sinyal yang tepat untuk mengendalikan crawling dan indexing guna membangun dasar yang kuat untuk situs web kita.
Namun, sinyal-sinyal ini tidak selalu mudah dipahami. Misalnya, meskipun memblokir URL agar tidak dicrawl membuat kemungkinan URL tersebut diindeks menjadi lebih kecil, sebenarnya itu tidak mengendalikan indexing. Begitu juga, membatasi halaman agar tidak diindeks tidak selalu mencegah halaman tersebut dicrawl.
Memiliki pemahaman yang jelas tentang sinyal-sinyal yang mengendalikan crawling, yang mengendalikan indexing, dan bagaimana memanfaatkannya dalam situasi yang berbeda akan membantu memastikan dasar teknis yang kuat untuk mengembangkan situs Anda. Dalam artikel ini, kami akan menunjukkan kepada Anda bagaimana melakukannya.
Kendali Crawling:
Robots.txt
Disallow URL atau sekelompok URL dalam file robots.txt adalah salah satu cara paling efektif untuk mencegah Google mengcrawl URL tersebut, karena Google menganggapnya sebagai perintah bukan hanya sebagai petunjuk. Namun, tidak semua mesin pencari memperlakukan ini sebagai perintah; untuk crawler dari mesin pencari selain Google, perlu diingat bahwa aturan robots.txt dapat diabaikan.
Juga perlu diingat: aturan yang lebih spesifik (baik untuk user agent maupun jalur folder) akan menggantikan aturan yang lebih umum yang Anda tetapkan di sini, jadi jika Anda melarang semua user agent untuk melakukan crawling terhadap sekelompok URL, tetapi kemudian secara khusus mengizinkan Googlebot, atau Bingbot (atau user agent tertentu lainnya) untuk melakukan crawling terhadap sekelompok URL yang sama, aturan yang lebih spesifik akan diikuti oleh masing-masing mesin pencari yang ditentukan dan user agent tersebut akan melakukan crawling pada URL tersebut.
Nofollow
Menggunakan nofollow adalah metode lain untuk memiliki kontrol terhadap halaman mana yang sebaiknya dan tidak sebaiknya dicrawl oleh mesin pencari.
Namun, nofollow bukanlah "perintah", sehingga mesin pencari akan menggunakannya sebagai "petunjuk" bukan perintah. Oleh karena itu, mungkin berguna untuk menerapkan blokir robots.txt pada halaman yang pasti tidak ingin dicrawl.
Penting juga untuk membedakan antara nofollow tingkat halaman dan nofollow tingkat tautan.
Nofollow tingkat halaman dimasukkan dalam meta robots dan menjadi petunjuk bagi mesin pencari bahwa tidak ada tautan di halaman tersebut yang harus dicrawl (tetapi ini tidak mencegah halaman itu sendiri dari dicrawl).
Nofollow tingkat tautan diterapkan pada tautan individual dan menjadi petunjuk bagi mesin pencari untuk tidak mencrawl halaman yang ditautkan (melalui tautan tertentu tersebut).
JavaScript
Tergantung pada metode implementasinya, beberapa kode JavaScript tidak dapat dicrawl, bahkan saat di-render, jika tidak menggunakan elemen <a> dengan atribut href sebagai link dalam HTML maupun pada Domain Object Model/DOM yang di-render.
Meskipun ketidakmampuan beberapa kode JavaScript untuk dicrawl sering dibahas sebagai sesuatu yang negatif dalam hal SEO (karena halaman yang dirujuk tidak dapat dicrawl atau ditemukan), jika kode tersebut mengarahkan ke halaman yang tidak ingin dicrawl (misalnya, URL navigasi yang tidak dioptimalkan), ini adalah opsi untuk memanfaatkan ketidakaksesibilitas JavaScript.
Kendali Indexing:
Noindex
Menerapkan noindex melalui tag meta robots atau respons HTTP adalah salah satu sinyal yang paling jelas bagi mesin pencari untuk tidak menyertakan halaman tersebut dalam indeks mereka atau menghapusnya dari indeks.
Kedua metode ini masih memerlukan pencrawlan halaman untuk mengenali noindex, jadi pastikan halaman tersebut dapat dicrawl jika Anda ingin memastikan halaman tersebut tetap keluar dari indeks (meskipun agak kontra-intuitif!).
Mesin pencari masih akan mencrawl halaman yang memiliki noindex. Telah dikatakan bahwa pada akhirnya, Google akan mulai mengenali URL dengan noindex sebagai nofollow dalam jangka panjang. Oleh karena itu, meskipun noindex bukan kendali crawling, pada akhirnya bisa memiliki efek tersebut. (Hal ini penting untuk dicatat terutama dalam halaman, di mana Anda mungkin tidak ingin rangkaian halaman yang terpaginasi diindeks, tetapi ingin mereka dicrawl agar semua produk Anda tersedia bagi mesin pencari.)
Canonical
Canonical digunakan untuk mengidentifikasi versi utama suatu halaman ketika ada serangkaian halaman serupa. Beberapa mesin pencari, seperti Google, akan menetapkan versi canonical suatu halaman jika tidak secara khusus ditetapkan - dan bahkan bisa mengesampingkan canonical ketika sudah ditetapkan.
Versi canonical suatu halaman adalah versi yang akan diindeks, sedangkan versi non-canonical tidak akan diindeks (karena tidak dianggap sebagai versi utama halaman tersebut).
Meskipun canonical dapat digunakan untuk membantu mengendalikan indexing, canonical tidak memiliki dampak pada crawling, sehingga mesin pencari masih akan mencrawl URL yang dicapai melalui canonical.
URL yang Dilindungi dengan Kata Sandi
Menggunakan perlindungan kata sandi dapat mencegah indeks halaman-halaman yang tersembunyi di balik login. Ini dapat sangat berguna dalam situasi seperti migrasi, di mana situs pengujian masih dalam proses pengembangan dan pengujian, tetapi belum diluncurkan.
Meskipun dalam teori mesin pencari dapat mencrawl URL tersebut, mereka tidak akan dapat mencrawl konten apa pun yang tersembunyi di balik login, oleh karena itu, melindungi URL dengan kata sandi juga dapat mencegah pencrawlan.
Namun, jika suatu halaman sebelumnya tidak dilindungi dengan kata sandi, dan kemudian kata sandi diterapkan kemudian, halaman tersebut mungkin tetap muncul dalam indeks karena mesin pencari sudah mencrawl dan mengindeks halaman tersebut sebelumnya.
Mengombinasikan Kendali:
Penting untuk memiliki pemahaman yang jelas tentang apa yang ingin Anda capai ketika mengombinasikan crawling dan indexing, karena kadang-kadang mengombinasikan sinyal-sinyal yang berbeda untuk mengendalikan crawling dan indexing dapat menghasilkan hasil yang tidak diinginkan.
Mengombinasikan canonical dan noindex
Mengikutsertakan halaman dengan kedua canonical dan noindex dapat mengirimkan pesan yang saling bertentangan kepada mesin pencari.
Ini terjadi karena sinyal canonical pada dasarnya menggabungkan sinyal-sinyal dari halaman-halaman yang dicanonicalkan - oleh karena itu, dengan menyertakan noindex pada halaman yang dicanonicalkan, pada teorinya dapat meneruskan noindex ke halaman utama yang sebenarnya ingin diindeks. Hal ini telah dijelaskan oleh John Mueller.
Meskipun tidak ada jaminan bahwa noindex akan diterapkan pada halaman canonical, penting untuk memantau halaman-halaman ini untuk memastikan Anda tidak mengirimkan sinyal yang membingungkan atau bertentangan kepada mesin pencari.
Mengombinasikan noindex dan larangan robots.txt
Sama halnya, menyertakan noindex dan larangan robots.txt pada URL kadang-kadang dapat menyebabkan masalah, karena jika ada larangan robots.txt, mesin pencari tidak dapat mencrawl URL tersebut untuk melihat noindex.
Oleh karena itu, jika suatu halaman sebelumnya telah diindeks, mungkin tetap ada dalam indeks meskipun telah diterapkan noindex.
Bahkan jika URL belum diindeks, jika situs eksternal menautkannya, URL tersebut mungkin tetap diindeks meskipun ada noindex karena mesin pencari tidak akan mencrawl URL tersebut untuk melihat noindex (baik dalam meta robots atau header HTTP).
Ingin belajar digital marketing dan SEO? Kunjungi laman kumpulan artikel digital marketing Lokalogy sekarang!