Duplicate content en het toegevoegde zoekresultaten probleem

Geschreven door : januari 8, 2007 6 reacties

Je vraagt je af waarom je site niet goed scoort in de zoekresultaten en je kijkt even hoeveel & welke pagina’s door google werden geïndexeerd. Op het eerste zicht zie je geen probleem en alle pagina’s blijken geïndexeerd te zijn…tot je de kleine lettertjes Toegevoegde zoekresultaten ziet staan naast je pagina. Houston we have a problem.

Defenitie van Duplicate content
Het is zoals het woord eigenlijk zegt..dubbele inhoud. Wanneer een pagina wordt beschouw als zijnde duplicate content is niet duidelijk. Er is geen magisch percentage die je kan verzekeren dat je pagina wel of niet duplicate content is. Maar als minder dan de helft van een pagina geen originele en unieke tekst heeft dan kan het wel eens warm worden.

Er zijn 2 types van duplicate content

  • Interne Pagina duplicatie (de slechtste vorm die je kan hebben)
  • Externe Pagina duplicatie

De interne pagina duplicatie komt voor wanneer je interne pagina’s (op dezelfde domeinnaam) als zijnde ‘hetzelfde’ worden aanzien door google en naar de SI worden verhuisd. Wanneer dat gebeurd worden je pagina’s uit de natuurlijke zoekresultaten gehaald en worden ze als minder relevant beschouwd voor de google zoekmachine gebruiker.

De externe pagina duplicatie kan bijvoorbeeld de oorzaak zijn wanneer je een press release schrijft en je artikel op tientallen of honderden andere sites terecht komt. Hetzelfde geld voor de RSS feed functie van een blog. Jouw artikel kan door ontelbaar veel andere blogs worden overgenomen.

In tegenstelling tot de interne duplicatie, waar het voor de google makkelijk is om duplicate content te vinden, ligt dat bij de externe duplicate content een stuk moeilijker omdat die bepaalde tekst op honderden zoniet duizenden verschillende sites staat en de hoeveelheid aan data werd verspreid over verschillende data centers.

Hoe kom je IN de SI terecht ?
Er zijn verschillende factoren die daar kunnen voor zorgen maar algemeen wordt aangenomen dat één of meerdere van deze factoren de oorzaak zijn :

  1. Duplicate content
  2. Pagina’s die te ‘diep’ in je site liggen en die enkel kunnen bereikt worden door diep te crawlen (door spiders) of pagina’s die helemaal niet bereikbaar zijn.
  3. Dynamische urls of url’s met teveel parameters erin . vb : http://www.amazon.com/Gamma-Bucket-of-Practice-Balls/dp/B000E7DRIG/sr=1-2/qid=1168214366/
    ref=sr_1_2/105-0866159-5916403?ie=UTF8&s=sporting-goods
  4. Slechte interne & externe link structuur. De slechte externe structuur kan mede veroorzaakt worden door teveel wederkerige links (met eventueel dezelfde ankerteksten), het linken naar ‘duiste

    re & spammy’ sites en het kopen-verkopen van links.

Hoe kom je UIT de SI ?
Als je met een duplicate content zit binnen je site volstaat het meestal om genoeg originele content op je pagina’s te plaatsen. Maar wat is nu genoeg ? Als je de body van je pagina wegneemt dan hou je waarschijnlijk site hier over :

    • Hoofd
    • Navigatie
    • Footer

En die kan je hoogstwaarschijnlijk op ALLE pagina’s van je site terug vinden. Je site template is dus hetzelfde op alle pagina’s.

Als je alle woorden van die template (navigatie, hoofd en footer) gaat optellen kom je aan een bepaald cijfer. Als je bijvoorbeeld aan 250 woorden komt, maak dan dat je body van je pagina minstens evenveel unieke woorden heeft bovenop de 250 van je template. Hoe meer unieke woorden je hebt hoe meer kans je maakt om uit de SI te blijven.

Eenmaal je dat hebt gedaan, zit niet te wachten tot google ooit weer eens langskomt ! Probeer nieuwe links te verkrijgen naar je herschreven pagina’s zodat je sneller uit de SI komt !

Zit je met Externe duplicate dan zal dat een stuk moeilijker worden om dat aan te pakken. In het geval van press releases zou ik zeggen, spin het artikel dat je hebt gemaakt, plaats het originele op je site en hou het gesponnen artikel voor de press release.

Verder kan je een sitemap op je home pagina plaasten zodat google ALLE pagina’s (ook diegene die diep in je site liggen) makkelijker kan vinden.

Laat je alles zoals het is en onderneem je geen actie dan zal je site langzaam “dood bloeden”.
Je vraagt je misschien af hoe slechte interne links kunnen leiden tot het ‘wegrotten’ van je site…
Je hebt een goed gestructureerde site met een hoop links naar interne pagina’s op je site.

Als al die pagina’s , waar je homepage naar linkt, in de SI staan….

En al die pagina’s linken op hun beurt terug naar je homepage…

Je snapt het al denk ik. Je homepage linkt naar pagina’s die volgens google nog weing waarde hebben en bijna als SPAM worden aanzien. En als je veel pagina’s in de SI hebt staan…

De links die naar je homepage linken krijgen van google zo goed als geen waarde aangezien die pagina’s in de SI voorkomen. Dus de PR die via die pagina’s word doorgegeven heeft bijlange niet de waarde als voorheen (toen die nog niet in de SI stonden).
Je homepage linkt naar pagina’s die door google in vraag worden gesteld en die pagina’s die in de SI staan en naar je homepage linken verliezen hun link kracht.. Je komt in een spiraal terecht die langzaam tot het einde van je site zal leiden.

Het is geen drama als pagina's in de SI terecht komen maar doe er iets aan om die eruit te krijgen…

zp8497586rq
6 reacties op : Duplicate content en het toegevoegde zoekresultaten probleem
Skipp de reacties en laat me mijn zegje doen...
[1]Toegevoegde Zoekresultaten , Google’s “vuilbak” ?1:57 am on februari 15, 2007

[…] Eerder hadden we het al over het duplicate content probleem en hoe je mogelijks in de SI (supplemental index) terecht kon komen. Vandaag gaan we iets verder ingaan op het fenomeen dat toch wel een probleem begint te vormen voor vele webmasters. Zelfs een compleet nieuwe site kan bijna volledig in de SI worden opgenomen, ook al heb je 100% unieke teksten en mooie cleane urls. […]

[2]Pagina’s uit de toegevoegde resultaten halen.8:26 pm on mei 19, 2007

[…] In een vorig artikel over de toegevoegde zoekresultaten (TZ) en duplicate content haalden we het onderwerp al aan. Het ging er vooral om hoe je er in terecht kwam en hoe je er opnieuw kon uit klauteren. In dit schrijfsel probeer ik iets dieper in te gaan op een specifieke situatie. […]

[3]Dirk3:05 am on juli 5, 2007

Beste,

Met veel interesse lees ik de pagina’s op je website. Het bouwen van een website met positieve resultaten in de zoekmachines is een tijdrovend werk. Dat heb ik ondetussen ervaren. Hopelijk vond ik, door dit onderwerp van je site te lezen, enig antwoord. Ik merk nl. (alhoewel ik niet mag klagen over de behaalde resultaten in de zoekmachines bij bepaalde zoektermen) dat bij bepaalde zoektermen, vooral termen bestaande uit 1 woord, ik toch niet al te hoog scoor terwijl concurenten met een veel lagere Page ranking en densiteit én prominentie wel hogerop geraken.
Ik dus maar zoeken naar mijn fouten.

Alhoewel ik probeer zo eerlijk mogelijk te zijn en de regels voor zoekmachines in acht probeer te houden, vermoed ik dat ik ergens misstappen maak.

Misschien is het inderdaad dit wel: ik vertrek van een template heb zo nu al een 70- tal html pagina’s… waarbij elke pagina terug verwijst naar de home pagina. Zo te lezen is dit niet aan te raden? Maar… wat dan? Zo’n een verwijzing naar de home pagina is toch een belangrijk iets om het verloren lopen tegen te gaan? Wanneer bezoekers op een pagina terechtkomen via een zoekmachine kan de home link die bezoeker terug brengen in de frameset bvb.

Dus ik weet eigenlijk niet hoe dit aan te pakken…

Of zitten de fouten ergens anders: teveel keywords, dubbele keywords,… ik weet het niet. Enfin ik neem volgende dagen nog de tijd om hier verder te snuisteren. Alvast interessante lectuur 🙂

Bedankt!!

[4]Dave7:54 am on juli 5, 2007

Hallo Dirk,

Google heeft slechts 49 pagina’s geïndexeerd waarvan er slechts 4 niet in de toegevoegde zoekresultaten zitten. Je hebt dus wel een klein probleempje.

De home knop mag er gerust staan maar dan plaats je er gewoon een rel=”nofollow” op

Ik zou zeggen drop me a mail op info@zoekmachine-optimalisatie-seo.be en we kunnen eens zien wat er aan te doen valt.

[5]SaSh12:28 pm on september 17, 2008

Helaas toont Google nu geen melding meer van toegevoegde resulaten naast je pagina. Weet iemand, of er nog een andere manier is om te achterhalen welke pagina’s zich in de toegevoegde resultaten bevinden? Ook zou het zeer handy zijn wanneer er een tool was om te achterhalen welke pagina’s Google als duplicate content binnen je eigen site ziet. Any ideas?

gr. SaSh

[6]Dave2:24 pm on september 17, 2008

Amai die pagina ziet er hier ook niet meer uit met al die vreemde tekens..moet daar precies een keer mijn werk van maken 😮 De enige manier om nog een beetje van een beeld te krijgen en te vermoeden wat G als duplicate zou kunnen zien is het site:mijnsite.com command in te geven.

Als er bijvoorbeeld bij gevonden resultaten 100 pagina’s staan en na 65 pagina’s stopt google en krijg je

In order to show you the most relevant results, we have omitted some entries very similar…blablabla,

Dan is dat alvast een goede indicatie zou ik zeggen.

[7]Wim12:40 pm on maart 10, 2011

Dag Dave

Heb onlangs een probleem gehad met duplicate content. Ik gebruik wordpress en blijkbaar is het een gekend probleem. Heb er zelf een artikel over geschreven omdat ik het zo bizar vond
Robots.txt vs noindex, follow meta tag

http://blog.linxiting.com/index.php/wordpress-and-drupal-duplicate-content.php

Groeten
Wim

Sorry, the comment form is closed at this time.