SEO

SEO İçin Robots.txt Rehberi

Robots.txt dosyası, Googlebot ve diğer arama motoru botları için hangi sayfayı tarayıp, hangi sayfayı taramayacağını bildirmeye yarayan talimat içermektedir. Bu dosyada yer alan talimatlar ile web site tarayıcıları hangi dizine erişip erişmeyeceği konusunda bilgi almaktadır.

Robots.txt dosyasında taramasına izin verilmeyen URL’ler, kesinlikle dizine eklenmeyecek diye bir durum söz konusu değildir. Bir web sayfasının dizine eklenmesini istemiyorsanız, <meta name=”robots” content=”noindex”/> etiketi kullanmanız gerekmektedir.

Robots Exclusion Protocol (REP), Türkçesi robot dışlama protokolü olarak adlandırılmaktadır. REP ile robotların web sayfalarının nasıl taranması gerektiğini, dizine eklemesi ve içeriğin insanlara nasıl ulaştığını belirleyen bir web standardıdır.

Bu içerikte robots.txt dosyası kullanımı ve hakkında detaylı bilgilere sahip olacaksınız.

Robots.txt dosyası nedir?

Robot engelleme standartı olarak bilinen, web tarayıcılarına yani arama motoru botlarına web sitesinin hangi sayfalarını tarayacağı konusunda talimatları veren txt dökümanına robots.txt dosyası denir.

Robots.txt dosyaları, web tarama yazılımları (Googlebot, AhrefsBot ve diğer web sitelerini tarayan botlara) web sitesinde hangi bölümlere erişip tarayacağını veya tarayamayacağını belirtmeye yarar. Aslında botlara bir dizi talimatlar iletilmektedir. Robots.txt, teknik SEO kapsamına girmektedir.

Her web sitesine özgü oluşturulan robots.txt dosyası, ana kök dizin klasörü (public_html, httpdocs) içinde yer almaktadır.

Botların gezinme talimatları, her bota özel olarak yapılandırılabilmektedir. Botlara genellikle iki davranış sunulmakta “Allow:” veya “Disallow:” komutları verilir. Wordpress robots.txt dosyası örneği:

# örnek robots.txt dosyası
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.muhittinbilgin.com/sitemap_index.xml

Örnek robots.txt dosyası ile tüm botlara izin verilmiş, wp-admin dizinini taramaması gerektiği, fakat wp-admin dizini altında yer alan bir dosyaya erişebilecekleri belirtilmiştir. Sitemap dosyası belirtilerek botlara dizine eklemesini istediğimiz URL’ler bildirilmiştir.

Her “user-agent” için ona özel izin verme veya izin vermeme kuralları oluşturabilirsiniz. Aşağıda ki kod satırında her bir “user-agent” için farklı kurallar oluşturulmuştur. Shopify Robots.txt dosya örneği:

User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /*preview_theme_id*
Disallow: /*preview_script_id*
Disallow: /policies/
Disallow: /*/*?*ls=*&ls=*
Disallow: /*/*?*ls%3D*%3Fls%3D*
Disallow: /*/*?*ls%3d*%3fls%3d*
Disallow: /search
Disallow: /apple-app-site-association

# Google adsbot ignores robots.txt unless specifically named!
User-agent: adsbot-google
Disallow: /checkout
Disallow: /carts
Disallow: /orders

User-agent: Nutch
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 10
Disallow: /admin
Disallow: /cart
Disallow: /blogs/*%2b*
Disallow: /*/blogs/*+*
Disallow: /*/blogs/*%2B*
Disallow: /*/blogs/*%2b*
Disallow: /*?*oseid=*

User-agent: AhrefsSiteAudit
Crawl-delay: 10
Disallow: /admin
Disallow: /cart

User-agent: MJ12bot
Crawl-Delay: 10

User-agent: Pinterest
Crawl-delay: 1

Botlara iletilen bu talimatları aslında günlük hayatımız da “Davranış Kuralları” olarak tasvir edebiliriz. Bir sinema salonu, kütüphane veya toplu taşıma için bazı kurallar bulunmakta, ama bu kuralların yaptırıcı gücü bulunmamaktadır. Bu kurallara uymak isteyen iyi kişiler uyuyor, uymayacak kişiler zaten kuralı okumuyorlar.

Bir web sitesindeki muhtemelen en basit dosyalardan biri robots.txt dosyasıdır. Fakat karıştırılması ve yanlış yapılması en kolay dosyalardan biridir. Yanlış bir kullanım, eksik bir karakter, SEO çalışmalarınıza zarar verecek ve arama motoru botlarının web sayfasına erişmesini dahi yanlışlıkla engelleyebilirsiniz.

Bu sebeple robots.txt dosyası oluştururken veya güncellerken yanlış yapılandırma olup olmadığını tekrar tekrar kontrol etmenizde faydalı olacaktır.

GoogleBot, kesinlikle robots.txt dosyasında yer alan talimatlara harfi harfiyen uyacaktır.

SEO Açısından Robots.txt Dosyasının Önemi

Robots.txt dosyası, sitemizi tarama gelen botlara web sitemizde yer alan hangi sayfalara erişeceğini veya erişmeyeceğini söylemeye yarar. Aslında arama motoru botlarını yönlendirmek için kullandığımız bir yapıdır. Örneğin, sitemizde herhangi bir dönüşüm sonrasında kullanıcıları yönlendirdiğimiz teşekkür sayfası varsa bu sayfanın arama motoru sonuç sayfalarında yer almasını istemiyorsak ve botların keşfetmesini engellemek istiyorsanız robots.txt tam sizin işinize yarayacaktır.

Erişimi kontrol ederken, önemli sayfalara botların keşfetmesini asla engellemeyin. Robots.txt dosyasına komut girmek hiç zor değil ama dikkatli yapmanız gerekir. Hızlı aksiyon almayınız en ince ayrıntısına kadar düşünün ve sorunu çözün. Eğer ki bir URL’in dizine eklenmesini istemiyordunuz, fakat dizine eklendiğini fark ettiniz hemen bu URL’i engellemeyin öncesinde URL size trafik sağlıyor mu onu kontrol edin.

Tarama bütçesinin yönetimi ve sayfaların dizine eklenmesi konusunda bir numaralı yardımcımız robots.txt dosyasıdır.

Bir web sitesinin robots.txt dosyasına ihtiyacı var mı? diye sorarsanız, yanıtım hayır olacaktır. Eğer ki web sitenizin robots.txt dosyası bulunmuyorsa, Google o web sitesini herhangi bir talimat olmadığından dolayı normal tarayacaktır. Robots.txt dosyasının rolü, Googlebot ve diğer arama motoru botlarına izin vermesi ve tarayıcıların o kurala uymasıdır.

Robots.txt Yönergeleri Nelerdir?

Robots.txt teknik yönergeleri, bu dosya biçiminin “dili” olarak sayılabilir. SEO uzmanı, genellikle botlar için olan bu dosyada beş yaygın terim ile karşılaşır. Robots.txt terimleri:

User-Agent (Kullanıcı Aracısı): Kullanıcı aracısı olarak çevrilen user-agent, yazılan kuralların hangi tarama botu için geçerli olacağını belirtmektedir. Tüm user-agent listesine erişebilirsiniz.

Disallow (İzin Verme): User-agent kısmında belirtilen tarama botuna, hangi dizine, dosyaya veya URL erişip erişmeyeceğini belirtmektedir. Her bir dosya veya sayfa ayrı ayrı her satıra yazılmalıdır.

Allow (İzin Ver): Allow komutu ile bir sayfanın üst dizinine ve alt dizinine tarama izni verilmese bile bu sayede istediğiniz sayfayı veya klasörü taramasına izin verebilirsiniz.

Crawl Delay (Tarama Gecikmesi): Google tarafında onaylanmayan bir komut, kabul eden bir botun herhangi bir sayfayı taramaya başlamadan önce kaç saniye beklemesi gerektiğini bildirmektedir.

Sitemap (Site Haritası): Site harita ya da haritalarının mutlaka robots.txt dosyasında olup olmadığını teyidini almalı ve kontrol etmelisiniz. Her subdomain ya da dil için ayrı ayrı site haritası olmalı ve eklemelidir.

Robots.txt dosyası ne için kullanılır?

Arama motoru botlarının, sitenizin belirli dizinleri erişimleri kontrol altına almak adına robots.txt kullanılmalıdır.. Robots.txt dosyaları, sitenizin belirli alanlarına tarayıcı erişimini kontrol eder. Googlebot’un web sitesine erişimi engellenmediği sürece, oldukça rahat ve kullanışlı olmaktadır.

Neden robots.txt dosyasına ihtiyacınız var?:

  • Arama motoru sonuç sayfalarında listelenecek olan yinelenen içeriklerin keşfedilmesini önlemek amacıyla kullanılmıştır. Dizine eklenmesini istemediğiniz sayfalar için noindex etiketini kullanmanız gerektiğini unutmayın.
  • Bir web sitesinde belirli ya da belirlediğiniz tüm bölümlerini gizli tutmak amacıyla kontrol edilebilmektedir.
  • Sitenizde yer alan arama kısmı parametresi ve URL’lerin dizine eklenmesini engellemek amacıyla kullanılır.
  • Web sitenizde yer alan tüm domainler için site haritalarını yerinin belirtilmesidir.
  • Arama motoru botlarının, sitenizde yer alan dosyalara uzantılarına erişebilecek şekilde yapılandırma yapılabilir.
  • Aynı anda botlar tarafından sunucuya sunucularınızın aşırı yüklenmesini önlemek için bir tarama gecikmesi belirtilmektedir.
  • Tarama bütçesi optimizasyonu açısından, robots.txt dosyalarının önemi oldukça fazladır. Ayrıca canonical URL ve etiket problemi engellenmiş olacaktır.

Web sitenizde az sayıda sayda olduğunu varsayarsak ve sitenizde taramama komutu verilmeyecekse, robots.txt dosyası oluşturmanıza belki gerek kalmayacaktır.

Robots.txt Kullanımı Hakkında Bilmeniz Gerekenler

  • Googlebot, web sitesinde eğer ki robots.txt dosyası bulamazsa, robots meta etiketleri veya x-Robots-Tag HTTP üst bilgileri kontrol edecektir.
  • UTF-8 kodlamasına uygun yapıda, Türkçe karakter içermeyecek şekilde hazırlanmış olması gerekir.
  • Robots.txt dosyasında disallow edilen sayfaları dizine eklemesini engellemez, sadece taramasını engeller. Bir sayfanın dizine eklenmesini istemiyorsanız noindex etiketine sahip olmalıdır.
  • Robots.txt dosyasında CSS ve JS dosyaların taranmasını engellemeyin, aksi taktirde web siteniz için gerekli olan dosyaları bot getiremeyecek ve bot tarafından web siteniz mobil uyumsuz olarak işaretlenecektir.
  • Robots.txt dosyasında büyük ya da küçük harf kullanımına mutlaka dikkat etmeniz gerekir.
  • Web sitesinde yer alan her bir subdomain için ayrı ayrı site haritası oluşturulmalı ve yine aynı şekilde robots.txt dosyasının alt kısmında belirtilmelidir.
  • Arama motoru botları tarafından kolaylıkla erişebilmesi için, robots.txt dosyasının web dizininde üst düzeyde yer alması gerekmektedir.
  • Google, robots.txt dosyaları için 500 KiB (kibibatylık) maksimum dosya boyutunu kabul etmektedir. Maksimum dosya boyutundan sonraki yer alan içerikler yok sayılır. 500 KiB=512 KB (kilobytes) eşittir.
  • Herhangi bir web sitesinin robots.txt yapılandırma dosyasına erişebilmek için domainadi.com/robots.txt sayesinde erişebilirsiniz. Herkesin erişim yetkisi olmalı ve özel kullanıcı bilgileri gizlemek amacıyla asla kullanmayın.
  • Kötü amaçlı yazılım robotları veya e-posta adresi kazıyıcıları, robots.txt dosyasını görmezden gelecektir.
  • Her alt etki alanı içinde, ayrı bir robots.txt dosyasına sahip olması gerekmektedir. blog.domainadi.com/robots.txt ve domainadi.com/robots.txt birbirinden ayrı iki dosyadır.
  • Bu alanla ilişkili site haritalarının konumunu robots.txt dosyasının altında belirtmek genellikle en iyi uygulamadır.
  • Robots.txt yorum söz dizimi için satır başına “#” koymalısınız.

Robots.txt Örneği

Kendi web siteniz ya da başka bir web sitesi için mutlaka bu kuralları veya eylemleri uygularken dikkatli olmanız gerekmektedir. İşe yarayacak robots.txt örnekleri:

Tüm tarayıcılara izin verme:

User-Agent: *
Allow: /

Sitemap: https://www.domainadi.com/sitemap.xml

# Tüm botları kabul eder ve tüm dizinleri taramasını söyler.

Tüm botları engelleme:

User-Agent: *
Disallow: /

Sitemap: https://www.domainadi.com/sitemap.xml

# Tüm botları dizini taramamasını söyler.

Botların site içeriğine erişmesine izin vermenin başka bir yöntemi:

User-Agent: *
Disallow: 

Sitemap: https://www.domainadi.com/sitemap.xml

# Tüm botları kabul eder ve tüm içeriklere erişmesini söyler.

Belirli bir klasörden belirli bir web tarayıcısını engelleme:

User-agent: Googlebot 
Disallow: /admin-subfolder/

Sitemap: https://www.domainadi.com/sitemap.xml

# GoogleBot'a tüm içeriğe erişmesini sadece admin-subfolder klasörünü taramamasını söyler.

Belirli bir web sayfasından belirli bir botu engelleme:

User-agent: Bingbot 
Disallow: /example-subfolder/blocked-page.html

Sitemap: https://www.domainadi.com/sitemap.xml

# BingBot'a tüm içeriğe erişmesini sadece admin-subfolder dizini altında yer alan blocked-page.html web sayfasını taramamasını söyler.

Bir robots.txt dosyası nasıl çalışır?

Genel olarak Google ve diğer arama motorlarının iki ana temel görevi vardır:

  • İnsanların bir konu için içeriği ve sayfaları keşfedebilmesini adına web’de gezinme sağlamak;
  • Arama yapan kullanıcılara bu içeriği gösterebilmesi için dizine eklemesi.

Bot adını verdiğimiz tarayıcılar, sitelerin içeriğini tararken, bir siteden başka bir siteye gitmek için bağlantı linklerini takip etmektedir. Bu tarama ağında örümcekler (botlar) milyarlarca bağlantı ve web sitesi taraması gerçekleştirmektedir.

Örümcekler bir web sitesini ziyaret ettiğinde, taramaya başlamadan önce, bir robots.txt dosyası bulmaya çalışacaktır. Dosyayı bulduğu zaman, taramaya başlamadan önce komutları okuyacaktır. Bu dosyada, botların web sitesini nasıl tarama gerektiğini bildiren bilgiler içerdiğinden, taramaya yön vermektedir.

Eğer ki, bir sitede robots.txt dosyası yok ya da botların taramasını engelleyen bir komut yok ise, web sitesi dizininde ki tüm sayfaları ve dosyaları tarayacak ve dizine eklenmesi için işleme alacaktır.

Tabi ki sitemap dosyasının yerini belirtmeniz, botlara zaman kaybı yaşatmayacak ve tarama bütçesine fayda sağladığından, daha fazla sayfayı tarayacaktır.

Robots.txt Dosyası Nasıl Kontrol Edilir?

Web sitenizde yer alan robots.txt dosyasının varlığının güvenirliliğini ve herhangi bir yerinde yazım hatası yapıldığını kontrol etmek için Google robots.txt test aracı size oldukça yardımcı olacaktır.

Google Robots.txt Test Aracı
Google Robots.txt Test Aracı

Ahrefsbot Nedir?

Ahrefsbot, Ahrefs firması tarafından geliştirilen Googlebot ile aynı şekilde hareket eden web siteni düzenli olarak tarayan bir useragent olarak adlandırılmaktadır. Web siteleri için Ahrefsbot sorun değil, fakat bazı olumsuz durumlarda sunucuya aşırı yük bindirirse ve sitenizi yavaşlatıyorsa bu problem olacaktır.

Ahrefsbot, sürekli mümkün olduğunca çok web sitesi taramaktadır. Şimdiye kadar 12 trilyondan fazla bağlantıyı veritabanına kaydetmiştir. Ahrefs bu sayede kullanıcılarına SEO ve pazarlama için oldukça detaylı ve işe yarar bilgiler aktarmaktadır.

Çevrimiçi en yaygın kullanılan botlar ve türleri şunlardır:

  • Arama motoru botları ( Googlebot , Bingbot , Yahoobot)
  • Ticari botlar (Ahrefsbot, Semrushbot , Alexa)
  • Feed Alıcıları (Facebook mobil, Twitter, Feedburner)
  • Botları İzleme (WordPress, Uptimer)

Sonuç

Robots.txt dosyası, web siteleriniz için oldukça önemli bir dosyadır. Burada yapılacak en ufak bir hata dosyalarınızın dizine eklenmemesine ve dizinden kaldırılmasına kadar yol açmaktadır. Robots.txt dosyası ile tarama bütçesini optimize edebilir ve daha fazla site sayfalarınızın görünürlüğünü ve dizine ekleyecek URL’leri hangisi olduğunu belirtebilir ve düzenleyebilirsiniz.

SEO Açısından Robots.txt Dosyası Kullanımı ve Genel Bilgiler
Web Site SEO Analizi Talep Et

İlgili Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu