Webrobotları Nedir - Türkiye'nin En Ortam Bilgi Paylaşım Platformu

fableturk · 29-10-2009, 11:08

Web`in dinamik yapılı içeriğini otomatik olarak dolaşan ve veritabanlarında tutan programlardır.

İşte sebepler;

* Kimi robotlar ziyaret ettikleri serverlar üzerinde aşırı yüklemeler yapmaktadırlar. Bu site sahiplerinin hiç hoşuna gitmemektedir. Fakat bu tür olaylar genellikle robot yazılımları geliştiren acemi yazılımcıların neden oldukları bir durumdur.

* Robot yazılımcılarının yazılımı kullanacak olanlara karşı dikkatli olması ve hata yapabileceklerini düşünmesi gerekmektedir. Robot`ları kullanacak olanların hatası zaman zaman tehlikeli olabilmektedir.

* Indexleme işleminde ölçeklenemeycek kadar büyük merkezi veritabanları oluşturulması.

Fakat robotlar kötü veya çok zeki değillerdir. Sadece kullanımı dikkat gerektirmektedir. İyi tasarlanmış ve profesyonel yönetilen robotlar probleme yol açmazlar. Aksine web dünyasının daha verimli kullanılmasını sağlarlar.

BİR ROBOT NEREYİ ZİYARET EDECEĞİNE NASIL KARAR VERİR?

Her robotun farklı bir stratejisi vardır. Genellikle tarihsel URL listelerinden başlanır. Özellikle çok ziyaret edilen ve yeni sayfaların yayınlandığı server-lists`ler kontrol edilir.

Kendiniz URL adresinizi göndererek de sitenize bir robot çağarmanız mümkün.

Robotlar ziyaret ettiği sitelerin içerik ve kaynaklarını parse ederken rastladığı adresleri de ziyaret edeceklerdir.

INDEXLEME YAPAN ROBOTLAR NELERİ INDEXLERLER?

Bazıları HTML titles`ları indexlerken bazıları ilk bir kaç paragrafı veritabanlarına aktarırlar. Tüm kelimeleri parse edip veritabanlarına alan robotlar da mevcuttur. Bazıları sadece META taglarla veya gizli bazı özel taglarla ilgilenirler.

KENDİ SAYFAMI BİR ROBOTA NASIL KAYDETTİREBİLİRİM?

Bahsedildiği gibi robotlar genellikle kendileri tüm sitelere ulaşmaktadırlar. Fakat robotları kendiniz de sitenize davet edebilirsiniz. Her robotun bir submit formu vardır. Buraya adresinizi girerek robotun sitenize uğramasını sağlayabilirsiniz.

Google için Add your URL to Google adresini kullanabilirsiniz. Diğer robotların adresleri için yukarıda verilen linki kullanarak addurl sayfalarını öğrenebilirsiniz.

Ayrıca googlebot çok yoğun ve erişilmesi güç siteler haricinde tüm sitelere bir kaç saniye`de
bir erişmektedir.

BİR ROBOT TARAFINDAN ZİYARET EDİLDİĞİMİ NASIL BİLECEĞİM?

Server loglarından görebilirisiniz. Ayrıca serverınız User-agent `e izin veriyor ise alışılmadık user-agent loginleri için header değerlerini kontrol edebilirsiniz.

ROBOTLARDAN NASIL KORUNABİLİRİM?

Sitenize /robot.txt oluşturup içerisine

User-agent: *
Disallow: /

yazmanız yeterlidir. Bu tüm robotların dikkate alması gereken bir dosya olduğunu ve hiçbir içeriğin robotlar tarafından incelenmemesini göstermektedir.

# /robots.txt file for WebCrawler Web Search
# mail [email protected] for constructive criticism

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs

İkinci örneğin ilk 2 satırı yorum ve bilgi amaçlıdır. İlk agent olan webcrawler robotuna hiç bir engelleme olmadığını görüyoruz. Robot tüm içeriği işleme koyabilir.

Lycra`nın hiç bir içeriğe ulaşmaması gerektiğini görüyoruz. Biliyorsunuz / karakteri tüm folderların başlangıcını temsil ediyor.

Son uyarı ise tüm agent`ları ilgilendiriyor. Tüm agentlar tmp ve logs folderlarından uzak durmalıdırlar. Standartlar hakkında daha fazla bilgiyi aşağıdaki adresden bulabilirsiniz.

The Web Robots Pages

EĞER ROBOT.TXT OLUŞTURAMIYORSANIZ NE YAPMALISINIZ?

Meta tagları kullanabilirsiniz.

<META NAME="ROBOTS" CONTENT="NOINDEX">
Bu satırları içeren HTML dökümanı indexlenmeyecektir.

<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Bu satırları içeren HTML indexlenecek fakat bir robot tarafından parse edilmeyecektir.

<META NAME="robots" CONTENT="noarchive">
Bir çok site indexlendiği son hali ile arama motorlarından erişilebilinmektedirler. Hatta siteler kapandıkları halde son indexlendiği hali ile arama motorları üzerinde yayınlanmaktadırlar. İşte bunu engellemek için yani arşivlemeyi engellemek için yukarıdaki satırları dökümana eklemeniz yeterlidir.

29-10-2009, 11:08	#1
fableturk Üyelik tarihi: 01-10-2009 Mesajlar: 310 Konuları: 309 WEB Sitesi: İlgi Alanı: Aldığı Teşekkür: Ettiği Teşekkür: WF Ticaret Sayısı: (0) WF Ticaret Yüzdesi:(%) WF Puanı: 15	Webrobotları Nedir Web`in dinamik yapılı içeriğini otomatik olarak dolaşan ve veritabanlarında tutan programlardır. İşte sebepler; * Kimi robotlar ziyaret ettikleri serverlar üzerinde aşırı yüklemeler yapmaktadırlar. Bu site sahiplerinin hiç hoşuna gitmemektedir. Fakat bu tür olaylar genellikle robot yazılımları geliştiren acemi yazılımcıların neden oldukları bir durumdur. * Robot yazılımcılarının yazılımı kullanacak olanlara karşı dikkatli olması ve hata yapabileceklerini düşünmesi gerekmektedir. Robot`ları kullanacak olanların hatası zaman zaman tehlikeli olabilmektedir. * Indexleme işleminde ölçeklenemeycek kadar büyük merkezi veritabanları oluşturulması. Fakat robotlar kötü veya çok zeki değillerdir. Sadece kullanımı dikkat gerektirmektedir. İyi tasarlanmış ve profesyonel yönetilen robotlar probleme yol açmazlar. Aksine web dünyasının daha verimli kullanılmasını sağlarlar. BİR ROBOT NEREYİ ZİYARET EDECEĞİNE NASIL KARAR VERİR? Her robotun farklı bir stratejisi vardır. Genellikle tarihsel URL listelerinden başlanır. Özellikle çok ziyaret edilen ve yeni sayfaların yayınlandığı server-lists`ler kontrol edilir. Kendiniz URL adresinizi göndererek de sitenize bir robot çağarmanız mümkün. Robotlar ziyaret ettiği sitelerin içerik ve kaynaklarını parse ederken rastladığı adresleri de ziyaret edeceklerdir. INDEXLEME YAPAN ROBOTLAR NELERİ INDEXLERLER? Bazıları HTML titles`ları indexlerken bazıları ilk bir kaç paragrafı veritabanlarına aktarırlar. Tüm kelimeleri parse edip veritabanlarına alan robotlar da mevcuttur. Bazıları sadece META taglarla veya gizli bazı özel taglarla ilgilenirler. KENDİ SAYFAMI BİR ROBOTA NASIL KAYDETTİREBİLİRİM? Bahsedildiği gibi robotlar genellikle kendileri tüm sitelere ulaşmaktadırlar. Fakat robotları kendiniz de sitenize davet edebilirsiniz. Her robotun bir submit formu vardır. Buraya adresinizi girerek robotun sitenize uğramasını sağlayabilirsiniz. Google için Add your URL to Google adresini kullanabilirsiniz. Diğer robotların adresleri için yukarıda verilen linki kullanarak addurl sayfalarını öğrenebilirsiniz. Ayrıca googlebot çok yoğun ve erişilmesi güç siteler haricinde tüm sitelere bir kaç saniye`de bir erişmektedir. BİR ROBOT TARAFINDAN ZİYARET EDİLDİĞİMİ NASIL BİLECEĞİM? Server loglarından görebilirisiniz. Ayrıca serverınız User-agent `e izin veriyor ise alışılmadık user-agent loginleri için header değerlerini kontrol edebilirsiniz. ROBOTLARDAN NASIL KORUNABİLİRİM? Sitenize /robot.txt oluşturup içerisine User-agent: * Disallow: / yazmanız yeterlidir. Bu tüm robotların dikkate alması gereken bir dosya olduğunu ve hiçbir içeriğin robotlar tarafından incelenmemesini göstermektedir. # /robots.txt file for WebCrawler Web Search # mail [email protected] for constructive criticism User-agent: webcrawler Disallow: User-agent: lycra Disallow: / User-agent: * Disallow: /tmp Disallow: /logs İkinci örneğin ilk 2 satırı yorum ve bilgi amaçlıdır. İlk agent olan webcrawler robotuna hiç bir engelleme olmadığını görüyoruz. Robot tüm içeriği işleme koyabilir. Lycra`nın hiç bir içeriğe ulaşmaması gerektiğini görüyoruz. Biliyorsunuz / karakteri tüm folderların başlangıcını temsil ediyor. Son uyarı ise tüm agent`ları ilgilendiriyor. Tüm agentlar tmp ve logs folderlarından uzak durmalıdırlar. Standartlar hakkında daha fazla bilgiyi aşağıdaki adresden bulabilirsiniz. The Web Robots Pages EĞER ROBOT.TXT OLUŞTURAMIYORSANIZ NE YAPMALISINIZ? Meta tagları kullanabilirsiniz. <META NAME="ROBOTS" CONTENT="NOINDEX"> Bu satırları içeren HTML dökümanı indexlenmeyecektir. <META NAME="ROBOTS" CONTENT="NOFOLLOW"> Bu satırları içeren HTML indexlenecek fakat bir robot tarafından parse edilmeyecektir. <META NAME="robots" CONTENT="noarchive"> Bir çok site indexlendiği son hali ile arama motorlarından erişilebilinmektedirler. Hatta siteler kapandıkları halde son indexlendiği hali ile arama motorları üzerinde yayınlanmaktadırlar. İşte bunu engellemek için yani arşivlemeyi engellemek için yukarıdaki satırları dökümana eklemeniz yeterlidir.
	Alıntı

Konuyu Toplam 1 Üye okuyor. (0 Kayıtlı üye ve 1 Misafir)