angemeldet bleiben?Passwort vergessen?
rss_logo facebook_logo
Unique Content

Was ist Unique Content?

Unter Unique Content versteht man Inhalte von Webseiten, die weder ganz noch teilweise an anderen Stellen im Web erscheinen. Unique Content ist das Gegenteil von Duplicate Content, der Webseiteninhalte bezeichnet, die durch Kopieren an verschiedenen Stellen im Internet auffindbar sind.

Warum ist Unique Content wichtig?

 Neben nicht zu unterschätzenden urheberechtlichen Aspekten, ist insbesondere die Auswirkung von Unique Content auf die Bewertung durch Suchmaschinen von Bedeutung. Suchmaschinen bewerten einen Text, der neu und unverbraucht ist besser als eine Text, der in diversen Kopien und leicht abgeänderten Varianten schon mehrfach im Netz auffindbar ist. Ein eigenständiger Text bietet dem Leser einen deutlichen Mehrwert, da er nicht einfach bekanntes wiederholt und durch neue Informationen Mehrwert gegenüber anderen Texten bietet. Außerdem spricht ein eigens erstellter Text dafür, dass in die Erstellung der Webseite mehr Aufwand und Sorgfalt investiert wurde als in eine Webseite, die Texte aus anderen Quellen zusammenkopiert.

Wo fängt  Unique Content an, wo hört er auf? 

Die große Frage, die oft zum Streitgegenstand zwischen Texter und Auftraggebern wird, ist: „Ab wann ist ein Text Unique Content und wo fängt  Duplicate Content an?“  

Technisch unterscheiden sich zwei identische Texte schon, wenn in einer der beiden Versionen ein Komma mehr oder weniger gesetzt wird.  Auch das Austauschen einzelner Wörter durch Synonyme, das Auffüllen des Textes durch Füllwörter, herauskürzen oder Verschieben von Textpassagen erzeugt nur auf den ersten Blick einen uniquen Text.

Es ist demnach wenig zielführend, einen kompletten Text zu vergleichen. Der Vergleich muss auf der Ebene von Textabschnitten und Satzfragmenten erfolgen um gleiche oder „annähernd gleiche“ Texte identifizieren, die beispielsweise durch Techniken wie das Article Spinning entstanden sind.

Daher ist die Erkennung von Textduplikaten eine Wissenschaft für sich. Suchmaschinen wenden verschiedene Techniken an, um Texte zu vergleichen. 

Shingling

Eine dieser Techniken ist die sogenannte Shingle Technik oder auch Shingling genannt. Dazu werden Texte in kurze Abschnitte, die Shingles, zerlegt. Der Satz

„Ein kopierter Text ist oft ein schlechter Text.“

würde in folgende Shingles zerlegt, wenn man Level-3-Shingles wählt :

  • Ein kopierter Text
  • kopierter Text ist
  • Text ist oft
  • ist oft ein
  • oft ein schlechter
  • ein schlechter Text.

Der Satz

„Ein schlechter Text ist oft ein kopierter Text.“

wird ebenso zerlegt:

  • Ein schlechter Text
  • schlechter Text ist
  • Text ist oft
  • ist oft ein
  • oft ein kopierter
  • ein kopierter Text

Die einzelnen Shingles werden nun durch ein Hash-Verfahren (meist wird hier Rabins Fingerprint verwendet) in nummerische Werte umgerechnet. Der Grad der Ähnlichkeit zweier Texte ermittelt sich aus der Verhältnis der Anzahl gleicher Shingles zur Gesamtanzahl aller Shingles beider Texte.

Über diesen Wert kann man die Ähnlichkeit zweier Texte sehr gut abbilden.  Je höher der Wert ist, desto größer sind die Überschneidungen.

In diesem Beispiel gibt es  vier gleiche Shingles von insgesamt acht Shingles. Die Ähnlichkeitsrate beträgt in diesem Beispiel demnach 50%.

Unvermeidbarer Duplicate Content

In einigen Fällen ist es unvermeidbar, Textfragmente auf seine Webseite zu übernehmen.

Typische Problemfälle beispielsweise bei Produktbeschreibungen sind lange Produkt- und Typenbezeichnungen, wie sie z. B.  bei Objektiven vorkommen (Tamron SP 70-300mm 4-5.6 Di VC USD), Inhaltstoffe von Medikamenten (45,0 g 2-Propanol, 10,0 g 1-Propanol, 0,20 g 2-Biphenylol, Wasserstoffperoxid-Lösung 30% Hilfsstoffe von Kodan Tinktur), oder Kompatibilitätslisten z.B. „Staubbeutel, passend für: S 400 - S 456 i, S 5210 - S 5980, S 600 - S 658, S 800 - S 858 Miele HyClean Typ G/N“.

Insbesondere um gesetzlichen Vorschriften zu genügen und um Abmahnungen von Mitbewerbern zu vermeiden, sollten Passagen wie Inhaltsstoffangaben weder gekürzt noch verändert werden.

Solche Duplikate sind im Kontext der Seite sicherlich unproblematisch, wenn der überwiegende Anteil des Dokumentes, bzw. der Webseite mit  Unique Content  gefüllt ist.

Unique Content schützen, Duplicate Content vermeiden 

Wer Unique Content für seine Webseite erstellt oder auch erstellen lässt, möchte auch, dass diese Investition Früchte trägt.

Hausgemachte Probleme 

Viele Webseitenbetreiber stellen sich schon selbst ein Bein, wenn ihre Inhalte unter verschiedenen Domains erreichbar sind. Dazu zählen nicht nur unterschiedliche Schreibweisen wie "mein-shop.de" oder "meinshop.de", sondern beispielsweise auch das Weglassen von "www", also http://www.mein-shop.de und http://mein-shop.de. Aber auch Archive oder mehrfache Kategoriezuordnungen können einen Text nach außen hin unter verschiedenen URLs verfügbar machen:

  • www.meinshop.de/winter/scheibenklar.html

  • www.meinshop.de/autopflege/scheibenklar.html

  • www.meinshop.de/herbstangebote/scheibenklar.html

Um diese Probleme im eigenen Haus zu umgehen, ist es wichtig Webserver korrekt mit 301 Redirects zu konfigurieren um auf eine einheitliche Domain umzuleiten. Canonical –Attribute und angepasste robots.txt Dateien verhindern, dass mehrfache URLs für ein Produkt oder einen Blogbeitrag, als Duplicate Content gewertet werden. Oftmals bieten CMS- und Shop-Systeme entsprechende Einstellungen an, die diese Angaben automatisch setzen.

Unique Content Diebstahl erkennen

Gute Texte sind begehrt. Gerade im Internet herrscht oft die Einstellung, dass alles was online Verfügbar ist auch „kostenlos und frei“ ist. Daher werden oftmals Bilder und Texte von Webseiten ohne groß nachzudenken oder auch skrupellos kopiert und auf anderen Seiten weiterverwendet.

Da es sich kaum ein Webseitenbetreiber leisten kann, regelmäßig das Web nach Kopien seiner eigenen Texte zu durchsuchen, gibt es Dienstleister wie copyscape.com, die Webseiten überwachen und auftretende Plagiate an den ursprünglichen Besitzer melden.


Copyright © 2012 content.de AG