Home - Publications - Articles - Meta Tags - Of Robots and Search Engines

After the Storm - Internet Technologies

Home
Publications
Articles
The Zen of Serving Web Pages
The Connection between Browser and Server
What Sound Does a Web Hit Make?
Nine Aspects of a Web Log Entry
The Philosophy of Hits, Views, and Visits
How to Recognize a Human Being
Words and Their Meaning
Meta Tags
Of Robots and Search Engines
Tips for Tags - The Basics
Tips for Tags - Advanced

Von Robots und Suchmaschinen

Von Christian Treber, Experte für Internet-Anwendungen

Zunächst einmal ist es interessant zu wissen, wie Suchmaschinen arbeiten. Dieser Abschnitt beschreibt die einzelnen Funktionen und die sich daraus ergebenden Implikationen.

Ein Teil der Suchmaschine, ein so genannter Robot, Crawler oder Spider, durchsucht das Intranet/Internet nach Webseiten. Der Robot verhält sich dabei wie ein Anwender, der mit einem Browser das Web durchsurft: Er ruft die Seite von Ihrem Webserver ganz normal ab. Der einzige Hinweis auf den Zugriff sind Einträge in der Logdatei.

Der Robot beginnt bei einer Startseite, die bei der Suchmaschine angemeldet worden ist (z. B. durch den Betreiber einer Website). Befinden sich auf dieser Webseite Links, werden diese weiterverfolgt, und der Prozess wiederholt sich, bis alle Seiten bearbeitet worden sind.

(1) Es können keine Seiten indiziert werden, die von keinen anderen Seiten referenziert (gelinkt) werden und bereits von einer Suchmaschine erfasst wurden. Ausnahme: Diese Seite wird bei der Suchmaschine direkt angemeldet.

Nicht jeder Betreiber einer Website möchte, dass der Server von Suchmaschinen erfasst wird. Um diesem Wunsch Rechnung zu tragen wurde ein Standard entwickelt, mit dem Robots ferngehalten werden können: Der "Robot Exclusion Standard" (http://info.webcrawler.com/mak/projects/robots/robots.html).

Das Verfahren soll hier nicht im Detail beschrieben werden. Sie finden aber hier ein Beispiel. Es basiert darauf, dass im Startverzeichnis eines Webservers eine Datei mit dem Namen "robots.txt" abgelegt wird, in der spezifiziert werden kann, wie sich Robots verhalten sollen. "Sollen" deshalb, weil die Beachtung dieses Standards vom (programmierten) guten Willen des jeweiligen Robots abhängig ist.

(2) Es werden keine Seiten indiziert, wenn Robots vom Durchsuchen des Webservers ausgeschlossen werden.

Der Robot übergibt die gefundenen Seiten dem Indexer, die daraus Wörter extrahiert und in einem Volltextindex ablegt. Hier ist für jedes Wort vermerkt, in welchem Dokument es enthalten ist.

Bei einer Suchanfrage wird der Volltextindex dazu verwendet, um nach passenden Dokumenten zu suchen.

(3) Befindet sich in einem Dokument kein Text (weil es z. B. nur aus HTML-Tags und Bildern ohne ALT-Attribut besteht ), gibt es auch nichts zu indexieren, und das Dokument wird nicht in den Volltextindex aufgenommen.

(4) Es kann nur nach Wörtern gesucht werden, die im Text enthalten sind. Wenn die Suchmaschine keine Synonyme unterstützt, dann wird, wenn im Text nur das Wort "Orange" vorkommt, eine Suche nach "Apfelsine" nicht fruchten :-).

Besondere Tags, die weiter unten beschrieben sind, werden speziell behandelt. So ist z. B. die Vergabe von Schlüsselwörtern möglich, die zwar im angezeigten Text nicht auftauchen, nach denen aber dennoch gesucht werden kann. Dies ist z. B. nützlich, um Synonyme zu definieren, die im sichtbaren Text nicht angezeigt werden.

Besonders bei der Darstellung des Suchergebnisses spielen Tags eine große Rolle. Der Titel des Dokuments wird meist als Überschrift für einen Treffer verwendet. Eine explizite Beschreibung oder - bei deren Fehlen- die ersten Zeilen des Dokuments werden für die Darstellung von Detailinformationen herangezogen.

(5) Ein fehlender Titel bedeutet Treffereinträge ohne Überschrift.

(6) Eine fehlende Beschreibung oder fehlender Text bedeutet Treffereinträge ohne (aussagefähige) Detailinformationen.

Die folgenden Beispiele verdeutlichen, was bei der Verwendung von HTML-Tags getan werden kann, um das Auffinden von Dokumenten durch Suchmaschinen zu optimieren.

Beispiel 1: Gute Lösung

Im ersten Beispiel sind der Titel des Dokuments und die Meta-Tags "keywords" (Schlüsselwörter) und "description" (Beschreibung) definiert. Text ist tatsächlich ASCII-Text und nicht etwa ein Bild mit textlicher Information.

Der Quelltext:

<html>

<head>
<title>Zapper's Delight</title>
<meta name="keywords" content="Zapper,Delight">
<meta name="description" content="Zapper's Delight, the home of
the ultimate remote control">
</head>

<body>
<h1>Zapper's Delight</h1>

<p>The ultimate remote control.

</body>

</html>

Die Seite kann einfach gefunden werden, da z. B. AltaVista im gesamten Text und sämtlichen HTML-Tags sucht (Beispiel für eine gute Suchanfrage +zapper +delight).

Anmerkungen dazu:

  • Das Dokument wird auch dann gefunden, wenn die Suchbegriffe nicht im Text, sondern nur in dem "keywords" Meta-Tag erscheinen. Das hat den Vorteil, dass z. B. synonyme Begriffe zur Erhöhung der Trefferwahrscheinlichkeit aufgenommen werden können. Ebenso ließen sich Seiten beschreiben, die sonst keinen Text enthalten.

Vielfältige Schlagwörter - hohe Trefferwahrscheinlichkeit

Aussagefähige Schlagwörter - gute Trefferqualität

  • Der Titel des Dokuments wird als Titel für den Treffereintrag und für den Eintrag als Bookmark/Favorit verwendet.

Aussagekräftiger Titel - aussagekräftige Sofort-Information im Suchergebnis, sprechender Eintrag in den Bookmarks/Favoriten

  • Die Beschreibung im Meta-Tag "description" wird zur Beschreibung des Treffers verwendet. Ist kein "description" Meta-Tag definiert, werden die ersten Zeilen des Textes herangezogen.

Markante Beschreibung - präzise Detailinformation über den Treffer

Beispiel 2: Suboptimale Lösung

Im diesem Beispiel sind weder Titel noch Meta-Tags definiert. Große (hier: sämtliche) Teile des Inhalts sind als Bilder realisiert, die darüber hinaus nicht einmal über ALT-Attribute verfügen, mit denen das Bild hätte textuell beschrieben werden können.

Der Quelltext:

<html>

<body>
<img src="pics/zapperLogo.gif">

<p><img src="icon/text1.gif">
<p><img src="icon/text2.gif">
</body>

</html>

Weil es für die Suchmaschine keinen Text zu indizieren gibt, werden keine Schlagworte in den Volltextindex aufgenommen. Daher findet die Suchmaschine bei einer Suchanfrage keine Übereinstimmung mit den Suchbegriffen, und es wird nichts gefunden.

Anmerkungen dazu:

  • Kein Text und keine Schlagwörter = keine Treffer und kein Erscheinen im Suchergebnis.
  • Da das Dokument keinen Titel hat, verwendet die Suchmaschine alternativ das URL des Dokuments als Titel für den Treffer, was über den Inhalt einer Webseite meist wenig aussagt.
  • Weil das Dokument weder das "description" Meta-Tag verwendet noch sonst (aussagekräftigen) Text enthält, kann kein Text zur weiteren Beschreibung des Treffers angezeigt werden.

Beispiel 3: Brauchbare Lösung

Für dieses Beispiel wurde die suboptimale Lösung mit Titel, Meta-Tags und ALT-Attributen für die Bilder versehen.

Der Quelltext:

<html>

<head>
<title>Zapper's Delight</title>
<meta name="keywords" content="Zapper,Delight">
<meta name="description" content="Zapper's Delight, the home of
the ultimate remote control">
</head>

<body>
<img src="icon/zapperLogo.gif" alt="Zapper's Delight">

<p><img src="icon/text1.gif" alt="Ultimate Remote Control">

<p><img src="icon/text2.gif" alt="Super Remote Control">
</body>
</html>

An der Darstellung der Seite musste nichts geändert werden. Das Dokument ist jetzt aber genauso gut auffindbar wie mit der optimalen Lösung, und auch die Darstellung in der Trefferliste ist wie gewünscht.


© 1998-2005 Christian Treber, ct@ctreber.com. All rights reserved. The author takes no responsability for linked external pages, the content of which by no means reflect his own opinion, convictions etc.