Web Sitesi İçeriği Sıyırıcılarıyla Nasıl Mücadele Edilir?
Yayınlanan: 2022-02-21İçeriğin benzersiz, iyi yazılmış ve kullanışlı olmasını sağlamak için zaman harcayan herhangi bir web yöneticisi, içeriğinin kazındığını ve başka bir web sitesinde görüntülendiğini gördüğünde acı hisseder. Kazıyıcılar, web üzerinde iş yapmanın yalnızca bir parçasıdır ve bir web yöneticisinin bunu durdurmak için yapabileceği pek bir şey yoktur. Bununla birlikte, bununla savaşmak ve sitenizin arama motorlarındaki benzersiz değerini korumak için bazı akıllı adımlar atabilirsiniz.
Meydan okuma
Sıyırıcıları engellemenin birkaç yolu vardır, ancak bazıları yasal arama motoru tarayıcılarını da engeller. Web yöneticileri için zorluk, siteleri sıyırıcı dostu olmaktan çıkarmak, ancak yine de arama motoru dostu olmaya devam etmektir. Bu kolay bir iş değil, çünkü sıyırıcıları engelleyen şey genellikle arama motorlarını da engeller.
Örneğin, kazıyıcıları tamamen engellemenin bir yolu, içeriğinizi resimlere dönüştürmektir. Bu, kazıyıcılarla savaşmak için harika olsa da, sitenizi tamamen SEO dostu olmaktan çıkarır. Arama motorları içeriğinizi ayrıştırıp okuyamaz, bu nedenle sıralamanız muhtemelen düşecektir. Arama motorları hala metin tabanlıdır, bu nedenle görüntüleri doğru bir şekilde anlayamaz ve okuyamaz.
Kazıyıcılar ve botlar benzer şekilde çalıştığından, SEO'nuza ve sıralamanıza zarar vermeden kazıyıcıları engellemek için bir yöntem oluşturmak zordur. Bir yöntem seçtiğinizde, akıllıca seçin. Bir yöntemi test etmek bile arama motoru botlarını etkiliyorsa olumsuz etkileri olabilir. Yasal botları engellemeyeceklerini bilmiyorsanız, büyük yapısal değişiklikler yapmayın.
İşte içerik kazıyıcılarla savaşmanın, ancak site arama motoru tarayıcınızı dostu tutmanın üç yolu.
Sayfalarınızda Bir Kanonik Ayarlayın
Bir kurallı, yinelenen içeriği dizine eklerken Google algoritmalarına güçlü bir öneri verir. Bir kurallı temelde "Bu yinelenen içeriktir. Bunun yerine bu URL'yi dizine ekleyin." "Bu URL", sitenizdeki bir sayfadır.
Bir kazıyıcı içeriğinizi çaldığında, bağlantı etiketleri de dahil olmak üzere HTML etiketlerindeki tüm içeriği alır. Sonuç, kanonikinizin kazıyıcının sayfalarında ayarlanmasıdır. Google, sıyırıcı sitesini taradığında, kurallı olanı okur ve sıyırıcı sayfasının dizinini kaldırır ve kendi sayfanızı korur. Geçerli sayfaya işaret eden bir kurallı bağlantıya sahip olmak Google dizin durumunuzu etkilemez, bu nedenle yerel sayfalarınızda sorunlara neden olacağı konusunda endişelenmenize gerek yoktur.
Bu teknik genellikle iyi çalışır, ancak bununla ilgili birkaç sorun vardır. İlk olarak, kazıyıcının sahibi bir kurallının dahil olduğunu anladığında, kurallıyı çıkarabilir. İkincisi, standart bir Google için bir öneridir. Arama motoru algoritması genellikle kurallı olanı kabul edip indeksleme için kullansa da, bu bir garanti değildir. Google, kazıyıcı sayfalara işaret eden güçlü sinyaller görürse, onları dizine eklenmiş halde tutabilir. Ancak, bu nadirdir. Güçlü sinyaller arasında bağlantılar, yüksek hacimli trafik ve sayfanın popülerliği yer alır.
Aşağıdaki bir kurallı bağlantı kodudur.
<link rel=”canonical” “https://yoursite.com/yourpage.html” />
Mutlak URL'ye ihtiyacınız olduğuna dikkat edin; bu, protokolü (HTTP), alan adını (siteniz.com) ve sayfa adını eklediğiniz anlamına gelir. Bu kodu içerik sayfalarınızın her birine ekleyin.
Bağlantılarınızda Mutlak URL'ler Kullanın
İki tür bağlantı URL'si vardır: mutlak ve göreli. Mutlak, önceki bölümdeki bağlantıya benziyor. Protokolü, etki alanını ve sayfa adını içerir.
Göreli bir bağlantı yalnızca dizini ve sayfa adını kullanır. İşte bir örnek:
- Mutlak URL

<link rel=”canonical” “https://yoursite.com/yourpage.html” />
- göreli URL
<link rel="canonical" "/sayfanız.html" />
Bir kazıyıcı içeriğinizi çaldığında, tüm içeriği ve site yapısını sıyırır. Göreli URL'leri kullandığınızda, kazıyıcı sitenin bağlantısı çalışacaktır. Mutlak URL'ler kullandığınızda, bu bağlantılar kendi etki alanınıza işaret eder. Sıyırıcı, alan adınızı tüm bağlantılardan çıkarmalıdır veya hepsi sitenize işaret eder; bu, bağlantı grafiğiniz için gerçekten faydalı olabilir. Sıyırıcı sahibi kod yazamadıkça, komut dosyalarını düzenlemedikçe içeriğinizi kullanamaz.
Honeypot oluşturun
Honeypot'lar, şirketlerin bilgisayar korsanlarını çekmek için kullandıkları tuzaklardır. Gerçek bir sunucuyu veya sistemi taklit ederler ve bilgisayar korsanının güvenlik açıklarını bulmasına izin verirler. Bir bal küpünün avantajı, bilgisayar korsanı sisteme girerken olayları günlüğe kaydetmektir. Ayrıca bilgisayar korsanlarını kritik sistemlerden uzaklaştırırlar.
Web sunucunuzda benzer bir sistem oluşturabilirsiniz. Tek gereken bir dosya oluşturmak. Boş bir HTML dosyası oluşturun ve web sunucunuza yükleyin. Örneğin, “honey.html” dosyasını adlandırın ve web sunucunuza yerleştirin. Robotların dosyayı taramasını durdurmak için dosyayı robots.txt dosyanıza ekleyin. Tarayıcılar robots.txt yönergesine uyar, bu nedenle robots.txt dosyasında engellediyseniz sayfayı taramazlar.
Ardından, sitenizin etkin sayfalarından birine honey.html sayfasına gizli bir bağlantı yerleştirin. Bağlantıyı bir "display: none" CSS div ile gizleyebilirsiniz. Aşağıdaki kod bir örnektir:
<div style=”display: none;”><a href=”honey.html”>bağlantı adı</a></div>
Yukarıdaki kod, tarayıcılar ve sıyırıcılar tarafından görülebilir ancak normal ziyaretçiler tarafından görülmez.
Bu hilenin yaptığı, trafiği bir dosyaya yönlendirmek. Meşru bloklar robots.txt dosyasını dikkate aldığından, ancak sıyrıklar desteklemeyeceğinden, IP'lerin sayfayı taraydığını görebilirsiniz. Web sitenizdeki trafiği günlüğe kaydetmeniz gerekir, bu nedenle honey.html'yi tarayan IP adreslerini manuel olarak inceleyin. Google ve Bing gibi meşru botlar sayfayı taramaz, ancak kazıyıcılar yapar. Sıyırıcı IP'leri bulun ve bunları web sunucunuzda veya güvenlik duvarınızda engelleyin. Herhangi bir sorun oluşması ve meşru trafiğin sayfayı bulması ihtimaline karşı IP'yi engellemeden önce yine de doğrulamanız gerekir.
Kazıyıcılar Web Sitenizi Asla Geçmemeli
Sitelerin içeriğinizi almasını tamamen engelleyemezsiniz. Sonuçta, vicdansız bir site sahibi site içeriğinizi manuel olarak kopyalayabilir. Ancak, bir kazıyıcı site asla sizinkini geçmemelidir. Bir kazıyıcının kendi sitenizi geride bırakmasının en olası nedeni, kendi SEO'nuzla ilgili sorunlardır.
Google, web sitelerini sıralayan yüzlerce faktöre sahiptir, bu nedenle sitenizi hangi faktörün etkileyebileceğini bilmek zordur. İşte gözden geçirebileceklerinizin bir dökümü.
- İçeriğiniz benzersiz, kullanışlı ve kullanıcılar için yazılmış mı?
- Siz veya bir danışman herhangi bir bağlantı kurma işlemi yaptınız mı?
- İçeriğiniz yetkili mi?
- Düşük kaliteli sayfalar noindex olarak mı ayarlandı?
- Kullanıcıların içerik ve ürünleri bulması için navigasyonunuz kolay mı?
Bunlar gözden geçirebileceğiniz birkaç sorundur, ancak siteyi daha kapsamlı bir şekilde denetlemek için bir uzmana ihtiyacınız olabilir.
İyi haber şu ki, kazıyıcılar genellikle Google cezalarından ve kazıyıcı sitenin ana bilgisayarına yapılan şikayetlerden hızla ölür. Önünüzde bir kazıyıcı sıralaması görürseniz, onları durdurmak için bu adımları atın ve sitenizi kalite açısından gözden geçirmek için zaman ayırın.
