Was ist Deep Web oder Deep Web?

Was ist Deep Web oder Deep Web?

Das Deep Web oder mit anderen Worten das unsichtbare oder versteckte Web sind Teile des World Wide Web, deren Inhalt nicht von regulären Suchmaschinen indiziert wird.

Das Gegenteil von Deep Web ist ein Level-Web, auf das jeder zugreifen kann, der das Internet nutzt. Der Informatiker Michael Bergman prägte die Phrase erstmals im dritten Jahr als Suchmaschinen-Indexphrase.

Hinter HTTP-Formularen verbergen sich umfangreiche Webinhalte, die gängige Anwendungen wie E-Mail-Dienste, Internet-Banking und Dienste abdecken, für deren Nutzung Benutzer bezahlen müssen. Diese Dienste sind durch Zahlungswände geschützt. Beispiele für diese Dienste sind bevorzugte Video-Wiedergabeseiten oder einige Online-Magazine oder -Zeitungen.

Deep Web-Inhalte können über eine direkte URL oder eine IP-Adresse gefunden werden. Für den vollständigen Zugriff auf diese Art von Inhalten nach dem Zugriff auf die öffentliche Website sind möglicherweise Kennwörter oder andere Zugriffsarten erforderlich.

Deep Web Glossary

Die erste Kombination der beiden Deep Web-Phrasen und Dark Web (Dark Web) im Jahr 2 und die Terminologie der Deep Web-Suche wurden zusammen mit illegalen Aktivitäten im Freien Web und im Dunklen Web erörtert. Es ist passiert.

Seitdem und nach der Einführung des Seidenstraßen-Internetmarkts in den Medien haben viele Menschen und Medien den Begriff Deep Web als Äquivalent zu Dark Web oder Dark Web verwendet. Einige Leute finden jedoch, dass diese äquivalente Verwendung von Wörtern ungenau ist und dies zu einer Hauptverwirrungsquelle geworden ist. Wired Magazine-Korrespondenten Kim Zeter und Andy Greenberg haben empfohlen, jeden dieser Begriffe separat zu verwenden. Während das Deep Web jede Site bedeutet, auf die nicht über reguläre Suchmaschinen zugegriffen werden kann, ist das Dark Web ein Teil des Deep Web, der absichtlich ausgeblendet ist und über reguläre Browser und Methoden nicht verfügbar ist. .

Nicht aufgelisteter Inhalt

In einem ausführlichen Webartikel, der in der Zeitschrift Scientific Journal of Electronic Publishing veröffentlicht wurde, wies Bergman darauf hin, dass Jill Elsworth im Jahr 2 die unsichtbare Webphrase verwendete, um auf Websites zu verweisen, die in keiner Suchmaschine aufgeführt waren. Waren. Bergman zitierte auch in einem anderen Artikel von Frank Garcia am 1. Januar:

“Ich meine eine Website, die wahrscheinlich gut gestaltet war, aber die Designer haben sich nicht die Mühe gemacht, sie bei den Suchmaschinen einzureichen. Also kann niemand sie finden! Du bist absolut geheim! Ich nenne das unsichtbaren Web-Modus. ”

Ein weiterer der ersten Fälle, in denen der unsichtbare Webausdruck verwendet wurde, war von Bruce Monte und Matthew Cole von Personal Library Software. Im dritten Jahr verwendeten sie den Ausdruck in einer Pressemitteilung, um das erste Deep Web-Tool zu beschreiben.

Die erste Verwendung des spezifischen Begriffs Deep Web, der inzwischen weithin akzeptiert wird, erfolgte in der gleichen Untersuchung von Bergman.

Auflistungsmethoden

Die Methoden, die verhindern, dass normale Webseiten von Suchmaschinen indiziert werden, fallen in eine oder mehrere der folgenden Kategorien:

Hintergrundweb: Seiten mit unterschiedlichem Inhalt für unterschiedliche Zugriffsebenen (z. B. unterschiedliche IP-Adressbereiche oder eine Reihe zuvor besuchter Websites)
Dynamischer Inhalt: Auf dynamische Seiten kann in der Regel auf eine registrierte Anfrage oder über ein Formular zugegriffen werden, insbesondere bei Verwendung offener Domain-Eingabeelemente (z. B. Leerzeichen). Es ist schwierig, solche offenen Stellen ohne ausreichende Kenntnisse auszuschließen.
Inhalt mit eingeschränktem Zugriff: Websites, die auf technische Seiten zugreifen (Standard ohne Robots, Captures oder Non-Caching-Befehle, die Suchmaschinen daran hindern, nach Websiteseiten zu suchen und zwischengespeicherte Kopien zu verhindern), Einschränken.
Non-HTML- oder Non-HTML-Inhalt: Textinhalt, der in Multimediadateien (Fotos oder Videos) verschlüsselt ist, oder Dateien in Sonderformaten, mit denen Suchmaschinen nichts zu tun haben.
Private Web: Websites, für die eine Registrierung und Anmeldung erforderlich ist (zwischengespeicherte Ressourcen)
Skriptinhalt: Seiten, auf die nur über von JavaScript erstellte Links zugegriffen werden kann und die auch dynamisch über Flash oder Ajax von Webservern heruntergeladen werden
Software: Einige Inhalte sind bewusst vor dem normalen Internet verborgen und nur über bestimmte Software wie Tor, I2P und andere Darknet-Software zugänglich. Mit Tor können Benutzer beispielsweise über anonyme .onion-Server und durch Ausblenden ihrer IP-Adressen auf Websites zugreifen.
Nicht verknüpfter Inhalt: Seiten, die keine Links zu anderen Seiten enthalten, können den Zugriff von Webcrawlern auf Inhalte verhindern. Solche Inhalte werden als Backlinks bezeichnet (auch interne Links genannt). Außerdem erkennen Suchmaschinen nicht immer alle Backlinks zu den Suchseiten.
Webarchive: Mit Webarchivierungsdiensten wie Wayback Machine können Benutzer archivierte Versionen von Webseiten im Laufe der Zeit anzeigen. Diese archivierten Versionen enthalten Websites, auf die Suchmaschinen wie Google nicht mehr zugreifen können oder die nicht mehr indiziert sind.

Inhalte im Deep Web

Obwohl es nicht immer möglich ist, den Inhalt eines Webservers direkt anzuzeigen, um ihn zu indizieren, ist es wahrscheinlich nicht möglich, indirekt darauf zuzugreifen (aufgrund von Computeranfälligkeiten).

Suchmaschinen verwenden Web-Crawler, um Inhalte im Web zu finden, die vorhandene Links über bestimmte virtuelle Ports verfolgen. Dies ist ein idealer Weg, um Inhalte in einem oberflächlichen Web zu finden, aber im Deep Web funktioniert dies normalerweise nicht. Beispielsweise versuchen diese Crawler nicht, dynamische Seiten zu finden, die das Ergebnis verschiedener Datenbankanforderungen sind, da die genaue Anzahl möglicher Anforderungen unbekannt ist. Es wird natürlich darauf hingewiesen, dass dies teilweise gelöst werden kann, indem der Link zu den Abfrageergebnissen berücksichtigt wird. Dies kann jedoch die Popularität eines Deep-Web-Mitglieds unbeabsichtigt erhöhen.

DeepPeep, Intute, Deep Web Technologies, Scirus und Ahmia.fr sind einige Suchmaschinen, die auf das Deep Web zugegriffen haben. Das Intute-Budget ist abgelaufen und derzeit nur ein statisches Archiv. Scirus ging Ende Januar ebenfalls in den Ruhestand.

Forscher suchen nach Möglichkeiten, um automatisch tief ins Web zu kriechen. Dies gilt auch für Inhalte, auf die nur mit einer bestimmten Software wie Tor zugegriffen werden kann. Im Jahr 2 entwickelten Ceriram Ragon und Hector Garcia Molina (von der Stanford University School of Computer Science) ein Architekturmodell für den versteckten Webcrawler, bei dem vom Benutzer bereitgestellte oder von On-Demand-Schnittstellen gesammelte Schlüsselwörter für a verwendet wurden Reichen Sie ein Antragsformular ein und durchsuchen Sie den Webinhalt. Alexandros Antholas, Petros Zerfos und Jungho Chu von der UCLA-Universität haben einen Crawler erstellt, der automatisch aussagekräftige Abfragen zum Ausfüllen von Suchformularen generiert. Es werden auch mehrere Formularanforderungssprachen (z. B. DEQUEL) bereitgestellt, mit denen neben der Erstellung einer Anforderung auch organisierte Daten aus den Ergebnisseiten extrahiert werden können. Ein weiteres Projekt ist DeepPeep, ein von der National Science Foundation gefördertes Projekt an der University of Utah. Das Projekt sammelt versteckte Webressourcen (Webformulare) in verschiedenen Domänen mit Hilfe neuer zentraler Crawling-Techniken.

Unternehmenssuchmaschinen beginnen auch, nach anderen Möglichkeiten zu suchen, um tief in das Web einzudringen. Das Sitemap-Protokoll (erstmals entwickelt und eingeführt von Google im Jahr 6) und OAI-PMH sind Mechanismen, mit denen Suchmaschinen und andere Enthusiasten tiefe Webressourcen auf bestimmten Webservern finden können. Beide Mechanismen ermöglichen es Webservern, für sie zugängliche URLs zu bewerben, wodurch sie automatisch nach Ressourcen suchen können, die nicht direkt mit dem Oberflächenweb verknüpft sind.

Das Hidden Web Detection System von Google berechnet die registrierten Anforderungen für jedes HTML-Formular und fügt die resultierenden HTML-Seiten dem Google-Suchmaschinenindex hinzu. Die aufgedeckten Ergebnisse stammen aus der Verarbeitung von Tausenden von Anfragen pro Sekunde nach Deep-Web-Inhalten. In diesem System wird eine Vorberechnung registrierter Anforderungen unter Verwendung von drei Algorithmen durchgeführt:

Wählen Sie Eingabewerte als Textsucheingaben aus, die Schlüsselwörter akzeptieren
Identifizieren Sie Einträge, die nur Werte eines bestimmten Typs akzeptieren (z. B. Datum).
Wählen Sie aus einer kleinen Anzahl von Eingabekombinationen, die URLs generieren, die zur Aufnahme in den Websuchindex geeignet sind
Im 6. Jahr entwarf Aaron Swartz Tor2web, um Benutzern des Geheimdienstes des Tor-Netzwerks den Zugriff auf und die Suche nach geheimen .onion-Erweiterungen zu erleichtern. Dieses Proxy-Programm kann auch über normale Browser auf diese Dienste zugreifen. Bei diesem Programm werden tiefe Weblinks als zufällige Buchstabenfolgen mit der Erweiterung .onion angezeigt.

Bunt Grafik

Bunt Grafik

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.