Cara Setting Robots.txt yang Benar di Blogger
Robot.txt adalah file khusus yang berguna untuk memberi tahu crawler mesin pencari untuk memilah halaman mana yang perlu untuk ditelusuri dan tidak. Untuk pengguna Blogger, kamu bisa mengaktifkan fitur Robot.txt ini dengan mudah melalui laman Pengaturan.
Yang sering jadi masalah dan pertanyaan adalah bagaimana file robot.txt ini harus diisi?
Betul, kan?
Format versi umum
Kalau kamu search di Google dengan kata kunci "Cara setting robot.txt Blogger" maka kamu akan menemukan format yang kebanyakan adalah seperti ini:
User-agent: Mediapartners-Google
Disallow: /search
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://blog.asibuka.com/sitemap.xml
Jika kamu menggunakan format robot.txt di atas, maka itu tidak masalah selama kamu paham cara crawler membaca format tersebut. Kalau dijabarkan seperti ini:
- Untuk crawler Mediapartners-Google tidak perlu menjelajahi halaman yang mengandung format url /search di dalamnya.
- Untuk crawler lainnya juga tidak perlu menjelajahi halaman yang mengandung format url /search di dalamnya. Tapi halaman lain yang format urlnya di belakang / boleh dijejahi.
- Ini URL sitemap saya jika diperlukan: https://blog.asibuka.com/sitemap.xml
Dan banyak yang meng-klaim bahwa format Robot.txt seperti itu adalah format yang paling SEO Friendly. Menurut saya tidak! Ada beberapa hal yang sebenarnya janggal dan menurut saya bisa diminimalisir. Beberapa hal yang janggal antara lain:
- Kenapa Mediapartners-Google harus dibedakan dengan user-agent yang lain padahal fungsinya sama?
- Kenapa perlu ada baris allow: / padahal itu sudah logis dan tanpa perlu dimasukkan pun tak apa. Logikanya, kalau kamu sudah menggunakan perintah Disallow, maka secara tidak langsung kamu juga memberi perintah pada user-agent bahwa halaman selain yang di-disallow boleh dikunjungi.
Format versi ASIBUKA
Dari keresahan saya tersebut, maka saya ingin merekomendasikan satu format robots.txt yang menurut saya lebih simpel dan efektif untuk dipasang di blog Blogger. Formatnya adalah seperti ini:
User-agent: *
Disallow: /search
Sitemap: https://blog.asibuka.com/sitemap.xml
Dengan format tersebut, bisa kita jabarkan secara sederhana seperti ini:
- Untuk semua crawler tidak perlu menjelajahi halaman yang mengandung format url /search di dalamnya. Halaman lainnya boleh dijejahi.
- Ini URL sitemap saya jika diperlukan: https://blog.asibuka.com/sitemap.xml
Jika di kemudian hari kamu punya beberapa halaman khusus yang ingin agar crawler tidak menyentuh apalagi mengindeks-nya, kamu bisa tambahkan perintah disallow baru di bawahnya seperti ini:
User-agent: *
Disallow: /search
Disallow: /p/error.html
Sitemap: https://blog.asibuka.com/sitemap.xml
Satu pesan yang ingin saya sampaikan dan mungkin perlu dibiasakan tentang web developing adalah tidak semua hal yang tambah banyak dan tambah kompleks itu bagus. Kadang yang simpel itu lebih bagus, kok.
Penutup
Mungkin itu saja yang bisa saya sampaikan mengenai cara setting robots.txt yang benar di Blogger. Jika ada yang kurang setuju dengan pendapat saya, boleh kita diskusikan melalui kolom komentar di bawah. Semoga tulisan saya ini bermanfaat dan sampai jumpa di tulisan saya lainnya.
Posting Komentar
Harap berikan komentar yang relevan dengan topik tulisan.
Jangan menyertakan link yang tidak berhubungan dengan konten tulisan. Apabila komentar mengandung link (apalagi yang tidak relevan), maka komentar akan dihapus.
Budayakan sopan santun, hindari penggunaan bahasa yang provokatif, SARA, pornografi.
Kritik dan saran yang membangun untuk konten ataupun untuk blog sangat berarti bagi kemajuan blog ini.