A.2.5 Suche im Internet – Warum Google wissen möchte, ob wir gerne Dallas schauen

Aus Wikimanagement

Version vom 13:11, 4. Mär. 2008 von Wikiadmin (Diskussion | Beiträge)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche
A.2.4 Soziale Netzwerke – Der Freund meines Freundes A.2.6 Social Bookmarking – Was finden die anderen gut?

Die Vorläufer des Internets liegen im Jahr 1969 im damaligen ARPANet (Advanced Research Projekt Agency Network). Die Technologie des ARPANet war darauf ausgerichtet, ein Netz zu entwickeln, welches auch dann noch funktionsfähig ist, wenn einzelne wichtige Verbindungsknoten (Verbindungsrechner) ausfallen,[1] wie es beispielsweise in einem militärischen Konflikt befürchtet wurde. Als Internet wurde das Netz und die zugrundeliegende Technologie zunehmend von Hochschulen genutzt. Allerdings blieb die Anzahl der eingebundenen Rechner und Inhalte zunächst eher überschaubar und auf eine enge Zielgruppe beschränkt. Erst als Tim Berners-Lee im Jahr 1989 am Europäischen Zentrum für Nuklearforschung (CERN – heute Organisation Européenne pour la Recherche Nucléaire, vormals Conseil Européen pour la Recherche Nucléaire) ein Programm entwickelte, das die Navigation im Internet über so genannte Hyperlinks dramatisch vereinfachte, nahm das Internet als World Wide Web seinen Aufschwung.[1] Die Anzahl der Seiten vervielfachte sich. Das Internet begann seinen Siegeszug zu der Bedeutung, die es heute auch für Privatpersonen und die Wirtschaft hat.

Mit der immens steigenden Anzahl von Webseiten ergab sich aus der ‚chaotischen‛ nicht hierarchischen Struktur des Internets ein Problem, welches mit zunehmenden Inhalten immer ausgeprägter wurde. Zwar wurde das im Internet gespeicherte Wissen immer umfangreicher, aber die Suche nach relevanten Seiten wurde zunehmend schwieriger. Von 1993 bis 1996 wuchs die Anzahl der Websites von 130 auf 600.000. Entsprechend wurde die Suche nach Inhalten ein immer wichtigeres Thema.[1]

Waren weder die Adresse (URL) einer Seite bekannt, noch eine Verlinkung durch eine andere Seite direkt vorhanden, so glich die Suche der sprichwörtlichen Suche nach der Stecknadel im Heuhaufen.

Eine erste Hilfe leisteten hier die so genannten Web-Kataloge. Web-Kataloge ordnen Web-Seiten bestimmten Kategorien zu. Diese Kategorien können hierarchisch aufgebaut sein, müssen es aber nicht. Auch kann die Kategorisierung durch manuelle Pflege oder maschinell erfolgen. David Filo und Jerry Yang entwickelten 1994 eine Navigationshilfe für das Internet. Zunächst als „Jerry’s Guide to the World Wide Web“, später als Yahoo! bezeichnet. (Yahoos sind Wesen mit animalischen Verhaltensweisen, die Jonathan Swift in Gullivers Reisen beschrieb.) Auf den Seiten von Yahoo! konnten Nutzer in einem laufend wachsenden Webkatalog nach den Seiten der jeweiligen Kategorie suchen und diese direkt über einen Link erreichen.

Die Navigationshilfe, die Yahoo! zur Verfügung stellte, bedeutete einen großen Fortschritt. Entsprechend gewann Yahoo! schnell an Popularität. Die Pflege des Katalogs erfolgte bei Yahoo! manuell, da dies die höchste Qualität der Katalogisierung versprach. Angesichts der hohen Dynamik des Internets bedeutete diese manuelle Pflege zugleich einen sehr hohen Aufwand, der sich in einem anhaltenden Wettlauf um die Aktualisierung und hohen Kosten niederschlug. Der Gedanke eines manuell gepflegten Internet-Verzeichnisses wird heute durch das Open Directory Project fortgeführt. Der Web-Katalog des Open Directory Projects, auch als Directory Mozilla bezeichnet (www.dmoz.org), basiert auf der kontinuierlichen Pflege durch eine Vielzahl von Freiwilligen. Auf dem Open Source-Ansatz beruhend, ist so inzwischen das größte und umfassendste manuell erstellte Verzeichnis von Webinhalten entstanden.[1]

Eine Alternative zur Katalog-basierten Suche stellen Suchmaschinen dar. Diese durchsuchen permanent das Web, indem sie den verschiedenen Links von Webseiten folgen, diese auslesen und so gefundene Stichworte in einem Index mit Bezug auf die Adresse der jeweiligen Webseite ablegen. Wird nun eine Suchanfrage mit einem bestimmten Suchbegriff durchgeführt, so müssen lediglich die in der Datenbank der Suchmaschine gespeicherten Ergebnisse der früheren Web-Suche durchforstet werden. Da die Suche auf einer lokalen Datenbank durchgeführt werden kann, können die Ergebnisse innerhalb kurzer Zeit zur Verfügung gestellt werden. Die Websuche mit Hilfe von Suchmaschinen führt aber auch zu spezifischen Schwächen. Angesichts der hohen Dynamik des Webs läuft der Nutzer permanent Gefahr, veraltete Suchergebnisse angezeigt zu bekommen, da die Angaben sich auf die Ergebnisse früherer Suchen beziehen. Zudem ist die Anzahl der durchsuchten Webseiten begrenzt. Für die jeweilige Suche relevante Seiten können also außen vor bleiben.

Die ersten Suchmaschinen wurden zu Beginn der 90er Jahre an verschiedenen Universitäten entwickelt. Nach ersten Vorläufern waren insbesondere Webcrawler seit 1994, Excite seit 1995 und vor allem AltaVista, welches im Dezember 1995 mit 16 Mio. indizierten Web-Dokumenten online ging, drei der ersten leistungsfähigen, allgemein verfügbaren Suchmaschinen.[1]

Zusammen mit den Angeboten von Yahoo! sorgten diese und andere Suchmaschinenanbieter dafür, dass die stetig wachsende Zahl von Informationen für die Nutzer überhaupt zugänglich wurde. Allerdings bestand auch bei immer leistungsfähigeren Suchmaschinen und Web- Verzeichnissen ein großes Problem fort. Selbst, wenn ein großer Teil der verfügbaren Web-Seiten über Suchbegriffe zugänglich wurde, so blieb die Suche innerhalb der Suchergebnisse beschwerlich. Gerade mit einer steigenden Zahl von Treffern wurden die Suchergebnisse immer unübersichtlicher. Zwar wurden eine Vielzahl von potenziell geeigneten Ergebnissen angezeigt, aber welche Seiten wirklich für den Nutzer relevant waren und welches die besten Treffer waren, konnten die verfügbaren Technologien nicht oder nur schlecht darstellen.

Hier brachte das PageRank-Verfahren von Google eine wichtige Verbesserung. Entwickelt von den Stanford-Studenten Larry Page und Sergey Brin verfügte Google über eine Methode, die die Relevanz der jeweilige Seiten bei der Anzeige durch das so genannte ‚PageRank‛-Verfahren mitberücksichtigt.[1]

Das PageRank-Verfahren basiert auf der Annahme, dass die Anzahl und Qualität der Links, die auf eine Seite verweisen, einen entscheidenden Hinweis auf die Relevanz der jeweiligen Seite geben. So wird eine Seite zunächst danach bewertet, wie viele erfasste Links auf sie verweisen.

Um eine weitere Steigerung der Qualität der Sortierung der Suchergebnisse zu ermöglichen, kann die Bewertung noch verfeinert werden. Die Qualität der jeweiligen Links wird unterschiedlich bewertet, je nachdem, wie viele Links wiederum auf diese Seite verweisen. Der PageRank wird also abhängig von den Bewertungen der verweisenden Seite dividiert durch die Anzahl der von den jeweiligen Seiten ausgehenden Links ermittelt.

Abbildung 11: Vereinfachte Darstellung der Funktionsweise des PageRank-Verfahrens
Abbildung 11: Vereinfachte Darstellung der Funktionsweise des PageRank-Verfahrens[1]

Mit der PageRank-Methode kann also jede erfasste Seite nicht nur den darin enthaltenen Begriffen zugeordnet, sondern auch mit einem PageRank-Wert versehen werden, der Hinweis auf die Relevanz der Seite gibt. Ebenso wie die klassische Suchmaschinen-Indizierung können Seiten permanent im Voraus durchsucht und bewertet werden. Dies hat den zentralen Vorteil, dass die Zuordnung und Bewertung nicht etwa erst im Moment der Suchanfrage gestartet wird. Vielmehr wird im Moment der Suchanfrage lediglich die bereits erstellte Datenbank der Suchmaschine durchsucht. Dies ermöglicht, die passenden Seiten nicht nur in kürzester Zeit zu identifizieren, sondern auch nach Relevanz zu sortieren.

Das PageRank-Verfahren, welches den Grundstock für den Erfolg Googles legte, basiert also darauf, dass es die Bewertungen in Form von Verlinkungen der Internet-Community transparent macht und als Basis für die Bewertung der Relevanz nutzt.

Im weitesten Sinne nutzt also auch der Suchalgorithmus von Google die Philosophie von Social Software. Schließlich erfüllt der Ansatz das zentrale Kennzeichen eines Social Software-Systems: es basiert auf User-Generated-Content, die Inhalte werden durch die Nutzer – hier durch die von Ihnen als Web-Site-Autoren vorgenommenen Verlinkungen – bewertet und geben so Aufschluss über die Relevanz.

Mit Verfahren wie PageRank konnte die Relevanz der Suchergebnisse signifikant gesteigert werden. Gleichwohl stehen heutige Suchverfahren nach Einschätzung von Google noch ganz am Anfang. Grund dafür ist die Kontextabhängigkeit dessen, was wir als gute Antwort auf eine Frage erwarten. Bei einer Befragung in den 80er Jahren in den USA ‚Who was shot in Dallas?‛ verteilten sich die Antworten in zwei Lager. Diejenigen, die die Ermordung Kennedys 1963 bewusst miterlebt hatten, kamen zu einem völlig anderen Ergebnis (‚Kennedy‛) als diejenigen, deren Aufmerksamkeit gerade durch die aktuellen Staffeln der Serie ‚Dallas‛ gefangen war (‚J.R. Ewing‛). Das Beispiel zeigt, welche zentrale Bedeutung der individuelle Kontext bei der Bewertung von Suchergebnissen hat.

Ob die Frage nach ‚Golf‛ sich auf den PKW oder die Sportart bezieht, ist im täglichen persönlichen Gespräch kaum ein Hindernis für eine erfolgreiche Kommunikation, da der Gesprächspartner dies zumeist aus dem Kontext schließen kann. Dieses Wissen fehlt aber bei der Bearbeitung der meisten Anfragen durch Suchmaschinen. Suchmaschinen wie Google sehen daher in der Sammlung personenbezogener Daten eine entscheidende Voraussetzung zur weiteren Steigerung der Qualität der individuellen Beantwortung von Suchanfragen.[1]

Gleichzeitig bringt die dafür notwendige Datensammlung und -verknüpfung weitreichende Gefahren mit sich. Diese sollen hier nicht weiter diskutiert werden. In dem Film EPIC 2015 (www.free-radio.de/epic) aus dem Jahre 2005 werden Potenziale und Risiken in visionärer Art behandelt.



Die zitierten Quellen sind im Literaturverzeichnis zu finden.


Persönliche Werkzeuge