![]() |
After the Storm - Internet Technologies
|
Von Robots und SuchmaschinenVon Christian Treber, Experte für Internet-Anwendungen Zunächst einmal ist es interessant zu wissen, wie Suchmaschinen arbeiten. Dieser Abschnitt beschreibt die einzelnen Funktionen und die sich daraus ergebenden Implikationen. Ein Teil der Suchmaschine, ein so genannter Robot, Crawler oder Spider, durchsucht das Intranet/Internet nach Webseiten. Der Robot verhält sich dabei wie ein Anwender, der mit einem Browser das Web durchsurft: Er ruft die Seite von Ihrem Webserver ganz normal ab. Der einzige Hinweis auf den Zugriff sind Einträge in der Logdatei. Der Robot beginnt bei einer Startseite, die bei der Suchmaschine angemeldet worden ist (z. B. durch den Betreiber einer Website). Befinden sich auf dieser Webseite Links, werden diese weiterverfolgt, und der Prozess wiederholt sich, bis alle Seiten bearbeitet worden sind. (1) Es können keine Seiten indiziert werden, die von keinen anderen Seiten referenziert (gelinkt) werden und bereits von einer Suchmaschine erfasst wurden. Ausnahme: Diese Seite wird bei der Suchmaschine direkt angemeldet.
Nicht jeder Betreiber einer Website möchte, dass der Server von Suchmaschinen erfasst wird. Um diesem Wunsch Rechnung zu tragen wurde ein Standard entwickelt, mit dem Robots ferngehalten werden können: Der "Robot Exclusion Standard" (http://info.webcrawler.com/mak/projects/robots/robots.html Das Verfahren soll hier nicht im Detail beschrieben werden. Sie finden aber hier ein Beispiel. Es basiert darauf, dass im Startverzeichnis eines Webservers eine Datei mit dem Namen "robots.txt" abgelegt wird, in der spezifiziert werden kann, wie sich Robots verhalten sollen. "Sollen" deshalb, weil die Beachtung dieses Standards vom (programmierten) guten Willen des jeweiligen Robots abhängig ist. (2) Es werden keine Seiten indiziert, wenn Robots vom Durchsuchen des Webservers ausgeschlossen werden. Der Robot übergibt die gefundenen Seiten dem Indexer, die daraus Wörter extrahiert und in einem Volltextindex ablegt. Hier ist für jedes Wort vermerkt, in welchem Dokument es enthalten ist. Bei einer Suchanfrage wird der Volltextindex dazu verwendet, um nach passenden Dokumenten zu suchen. (3) Befindet sich in einem Dokument kein Text (weil es z. B. nur aus HTML-Tags und Bildern ohne ALT-Attribut besteht ), gibt es auch nichts zu indexieren, und das Dokument wird nicht in den Volltextindex aufgenommen. (4) Es kann nur nach Wörtern gesucht werden, die im Text enthalten sind. Wenn die Suchmaschine keine Synonyme unterstützt, dann wird, wenn im Text nur das Wort "Orange" vorkommt, eine Suche nach "Apfelsine" nicht fruchten :-). Besondere Tags, die weiter unten beschrieben sind, werden speziell behandelt. So ist z. B. die Vergabe von Schlüsselwörtern möglich, die zwar im angezeigten Text nicht auftauchen, nach denen aber dennoch gesucht werden kann. Dies ist z. B. nützlich, um Synonyme zu definieren, die im sichtbaren Text nicht angezeigt werden. Besonders bei der Darstellung des Suchergebnisses spielen Tags eine große Rolle. Der Titel des Dokuments wird meist als Überschrift für einen Treffer verwendet. Eine explizite Beschreibung oder - bei deren Fehlen- die ersten Zeilen des Dokuments werden für die Darstellung von Detailinformationen herangezogen. (5) Ein fehlender Titel bedeutet Treffereinträge ohne Überschrift. (6) Eine fehlende Beschreibung oder fehlender Text bedeutet Treffereinträge ohne (aussagefähige) Detailinformationen. Die folgenden Beispiele verdeutlichen, was bei der Verwendung von HTML-Tags getan werden kann, um das Auffinden von Dokumenten durch Suchmaschinen zu optimieren.
Beispiel 1: Gute LösungIm ersten Beispiel sind der Titel des Dokuments und die Meta-Tags "keywords" (Schlüsselwörter) und "description" (Beschreibung) definiert. Text ist tatsächlich ASCII-Text und nicht etwa ein Bild mit textlicher Information. Der Quelltext:
<html> <head> <title>Zapper's Delight</title> <meta name="keywords" content="Zapper,Delight"> <meta name="description" content="Zapper's Delight, the home of the ultimate remote control"> </head> <body> <h1>Zapper's Delight</h1> <p>The ultimate remote control. </body> </html> Die Seite kann einfach gefunden werden, da z. B. AltaVista im gesamten Text und sämtlichen HTML-Tags sucht (Beispiel für eine gute Suchanfrage +zapper +delight). Anmerkungen dazu:
Vielfältige Schlagwörter - hohe Trefferwahrscheinlichkeit Aussagefähige Schlagwörter - gute Trefferqualität
Aussagekräftiger Titel - aussagekräftige Sofort-Information im Suchergebnis, sprechender Eintrag in den Bookmarks/Favoriten
Markante Beschreibung - präzise Detailinformation über den Treffer
Beispiel 2: Suboptimale LösungIm diesem Beispiel sind weder Titel noch Meta-Tags definiert. Große (hier: sämtliche) Teile des Inhalts sind als Bilder realisiert, die darüber hinaus nicht einmal über ALT-Attribute verfügen, mit denen das Bild hätte textuell beschrieben werden können. Der Quelltext:
<html> <body> <img src="pics/zapperLogo.gif"> <p><img src="icon/text1.gif"> <p><img src="icon/text2.gif"> </body> </html> Weil es für die Suchmaschine keinen Text zu indizieren gibt, werden keine Schlagworte in den Volltextindex aufgenommen. Daher findet die Suchmaschine bei einer Suchanfrage keine Übereinstimmung mit den Suchbegriffen, und es wird nichts gefunden. Anmerkungen dazu:
Beispiel 3: Brauchbare LösungFür dieses Beispiel wurde die suboptimale Lösung mit Titel, Meta-Tags und ALT-Attributen für die Bilder versehen. Der Quelltext:
<html> <head> <title>Zapper's Delight</title> <meta name="keywords" content="Zapper,Delight"> <meta name="description" content="Zapper's Delight, the home of the ultimate remote control"> </head> <body> <img src="icon/zapperLogo.gif" alt="Zapper's Delight"> <p><img src="icon/text1.gif" alt="Ultimate Remote Control"> <p><img src="icon/text2.gif" alt="Super Remote Control"> </body> </html> An der Darstellung der Seite musste nichts geändert werden. Das Dokument ist jetzt aber genauso gut auffindbar wie mit der optimalen Lösung, und auch die Darstellung in der Trefferliste ist wie gewünscht. |
|
|
© 1998-2005 Christian Treber, ct@ctreber.com . All rights reserved. The author takes no responsability for linked external pages, the content of which by no means reflect his own opinion, convictions etc.
|
|