Benachrichtigung aktivieren Dürfen wir Sie in Ihrem Browser über die wichtigsten Nachrichten des Handelsblatts informieren? Sie erhalten 2-5 Meldungen pro Tag.
Fast geschafft Erlauben Sie handelsblatt.com Ihnen Benachrichtigungen zu schicken. Dies können Sie in der Meldung Ihres Browsers bestätigen.
Benachrichtigungen erfolgreich aktiviert Wir halten Sie ab sofort über die wichtigsten Nachrichten des Handelsblatts auf dem Laufenden. Sie erhalten 2-5 Meldungen pro Tag.
Jetzt Aktivieren
Nein, danke

Deep Web Die dunkle Seite des Internets

Die Masse der Daten im Internet ist für einen einzelnen Menschen nicht fassbar. Dabei sehen normale Web-Nutzer über Google und andere Suchmaschinen gerade einmal die Oberfläche. Eine US-Firma will die dunkle Seite des Webs aber auch für Unternehmen und Forscher erschließen.
  • Stephan Dörner
Kommentieren
Vor Google verborgen: Große Teile des Webs sind für Suchmaschinen nicht indexierbar. Quelle: dpa

Vor Google verborgen: Große Teile des Webs sind für Suchmaschinen nicht indexierbar.

(Foto: dpa)

DÜSSELDORF. Bereits vor Jahren haben die Suchmaschinen aufgehört, die Zahl der indexierten Seiten auszuweisen. "Die Größe des Indexes scheint für die großen Suchmaschinenanbieter kein sehr wichtiges Qualitätskriterium mehr zu sein", sagt Philipp Mayr, Professor an der Hochschule Darmstadt im Fachbereich Media. Dennoch bleibt den Suchmaschinen der größte Teil des Webs nach wie vor verborgen. Schätzungen gehen davon aus, dass Google und andere Suchmaschinen nur ein Hundertstel der vorhandenen Datenmengen erfassen. Wie groß die Menge tatsächlich ist, weiß allerdings niemand.

"Es gibt meines Wissens keine seriösen aktuellen Schätzungen oder Studien über die Größe des Deep Webs", sagt Mayr. Die letzte umfangreiche empirische Studie stammt aus dem Jahre 2001 von Michael Bergman. Er vermutete, dass die Größe des Deep Webs um 400- bis 550-mal größer ist als das zugängliche von Suchmaschinen erfasste Web. Dabei handle es sich allerdings um eine sehr ungenaue und einfache Schätzung, so Mayr. Andere Fachleute wie Rüdiger Schneemann von der TU Berlin sprichen von Schätzungen, nach denen das Deep Web um den Faktor zehn bis 50 größer ist als die erfassten Inhalte. "Die Zahlen sind bestimmt angreifbar; sicher aber ist, dass trotz allem die überwiegende Menge an Informationen nicht im Web zu finden ist", so Schneemann.

Bei den Deep-Web-Inhalten handelt es sich um Daten, die entweder nicht kostenlos öffentlich sind oder aus technischen Gründen von Suchmaschinen nicht erfasst werden können. Nicht alle diese Daten sind für den normalen Nutzer überhaupt interessant. "Der größte Teil der Daten, der nicht von Suchmaschinen indexiert wird, sind sicher nach wie vor der Bereich Real-Time Daten, z.B. bei Aufzeichnungen des Wetters, oder in datenintensiven Experimenten z.B. in der Physik", so Mayr. "Es ist aber sehr fraglich ob diese Daten für den allgemeinen Webnutzer sinnvoll zu nutzen sind und in Suchmaschinen verfügbar sein müssen."

Ohne Links sind Suchmaschinen blind

Inhalte des Webs landen auf zwei Arten in den Datenbanken der Suchmaschinen. Entweder der Autor der Website meldet den Inhalt manuell bei der Suchmaschine an oder die Suchmaschine findet ihn mittels sogenannter Robots über Links, die auf andere Seiten verweisen. Dabei hangeln sich die Robots von Website zu Website und folgen den jeweiligen Links. Webseiten, die weder verlinkt noch manuell gemeldet werden, bleiben so unentdeckt.

Einen weitaus größeren Teil des Deep Webs stellen allerdings Inhalte dar, die nur angemeldeten Usern zugänglich sind. Ohne weiteres nicht erfasst werden können außerdem Inhalte aus öffentlich zugänglichen Datenbanken, bei denen aber erst ein Suchwort eingegeben werden muss. Googles Index selbst gehört damit im Grunde genommen selbst zum Deep Web - laut Bushee wahrscheinlich sogar die größte einzelne Quelle des Deep Webs.

Keinen Gefallen tun sich Webmaster, die mit ihrem Auftritt zwar gefunden werden wollen, dabei aber ausschließlich auf Flash-Inhalte setzen, die anders als HTML-Text von Suchmaschinen nicht ausgelesen werden können. Zwar kann die Website über den Titel gefunden werden, nicht aber über die Wörter im eigentlichen Inhalt.

Für Forscher interessant sind vor allem kostenpflichtige wissenschaftliche Datenbanken. In einigen Fällen können aber auch dynamische Daten aufschlussreich sein, die beispielsweise im sogenannten Web 2.0, also auf Seiten wie Facebook und Twitter, entstehen. Dynamische Webseiten wie Facebook generieren mit jedem Aufruf Inhalte, die so nur der Nutzer nach Anmeldung sehen kann - und von Suchmaschinen nicht erfasst werden. Bei dem Microblogging-Dienst beispielsweise sind zwar die meisten Nachrichten ungeschützt - die Zusammenstellung der Kurznachrichten für jeden einzelnen User bleibt Suchmaschinen aber verborgen. Sie ist abhängig davon, welche Nachrichten der Benutzer abboniert hat. In sozialen Online-Netzwerken wie Facebook und StudiVZ sind außerdem viele der Inhalte von den Benutzern als privat gekennzeichnet, sodass sie nur angemeldeten Freunden zugänglich sind.

Die Indizes der Suchmaschinen wachsen weiter

Allerdings haben seit der erstmaligen Thematisierung des Deep Webs im Jahr 2001 Suchmaschinen einiges unternommen, um auch diese Winkel des Webs auszuleuchten. "Suchmaschinen sind heute z.B. in der Lage simulierte Nutzeranfragen (Suchbegriffe) an Datenbanken zu stellen und die Ergebnisse anschließend zu indexieren", sagt Mayr. Und das durchsuchbare Wissen der Welt wird auch abseits davon immer größer: Google hat vor einiger Zeit begonnen, auch dem indexierten Web-Wissen auch Bücher hinzuzufügen. Mit Google Scholar macht der Suchmaschinen-Gigant außerdem wissenschaftliche Inhalte zunehmend für das Web durchsuchbar.

Es gibt allerdings auch den gegenteiligen Trend: So öffnete die New York Times ihr gesamtes Archiv für das Internet, machte die Entscheidung aber später wieder rückgängig. Auch verschiedene andere Nachrichtenseiten machten ihre Inhalte teilweise kostenpflichtig oder planen das Verschließen der Inhalte.

Universitäten und Unternehmen erschließen das Deep Web

Auch Inhalte, die nicht von Google gefunden werden, sind nicht in jedem Fall unzugänglich. An der Universitätsbibliothek der TU Berlin hilft Rüdiger Schneemann, Nutzern auf kostenpflichtige Datenbanken zuzugreifen. "Wir kaufen Lizenzen für den freien Zugriff aus dem Uni-Campus heraus, bieten kostenfreie Beratung und Schulungen über Zugriffe an", so Schneemann. "Wenn wir für andere recherchieren sollen, dann berechnen wir das."

In den USA hat sich die Firma Bright Planet auf Deep-Web-Inhalte spezialisiert. Die Software der Firma bombardiert beispielsweise Web-Datenbanken automatisiert mit Anfragen, um deren Inhalte abzufragen und zu indexieren. "Google und andere Suchmaschinen sind großartig darin, beliebte Inhalte zu indexieren. Forscher benötigen allerdings häufiger die weniger gängigen Inhalte, die über traditionelle Suchmaschinen nur schwer zu finden sind", so William Bushee, Vizepräsident der Entwicklungsabteilung des Unternehmens.

Vor allem US-Geheimdienste haben den Service in den vergangenen Jahren in Anspruch genommen. Zunehmend sind allerdings auch Informationsdienste aus Unternehmen und dem juristischen Bereich an Deep-Web-Daten interessiert, sagt Bushee. Um noch mehr kommerzielle Kunden zu finden, will Bright Planet noch in diesem Jahr ein neues Überwachungs-Tool für Deep-Web-Inhalte veröffentlichen.

Ob sich solche Angebote lohnen, ist allerdings fraglich. "Die Grenzen zwischen Deep Web und indexierbarem Web verschwimmen in dem Maße wie Datenbanken den Sinn und Nutzen einer Öffnung ihrer Inhalte erkennen", sagt beispielsweise Phillip Mayr. Vollständigkeit könne man in Zeiten des Web 2.0 ohnehin sehr schwer erreichen.

Startseite

Mehr zu: Deep Web - Die dunkle Seite des Internets

0 Kommentare zu "Deep Web: Die dunkle Seite des Internets"

Das Kommentieren dieses Artikels wurde deaktiviert.

Serviceangebote