WWW-World Wide Web

Auf Grund seiner grafischen Benutzungsoberfläche und der damit verbundenen einfachen Bedienbarkeit, ist das WWW der am häufigsten genutzte Dienst im Internet. Jeder, der eine grafische Oberfläche bedienen kann, ist in der Lage, sich rund um die Uhr von Seite zu Seite zu hangeln (zu „surfen“). Auf einfache Art und Weise ist es möglich, verschiedene Informationsserver anzusteuern, Bibliothekskataloge zu durchsuchen oder selbst eine globale Informationsseite anzubieten. Wie bereits erwähnt, sind Dokumente im WWW in Form von Hypertext strukturiert. Dadurch ist es möglich, inhaltlich verwandte Themen miteinander zu verbinden und somit ein „assoziatives Lesen“ zu ermöglichen. Ein Link kann sich dabei nicht nur auf Textdokumente beziehen, sondern auch auf Bilder, Video- und Audiosequenzen, sowie auf andere Dienste im Internet wie z.B. E-Mail, News oder FTP. Dabei spielt es keine Rolle, wo sich diese Inhalte befinden. Oft kommt z. B. der Text aus Deutschland, die Grafik aus den USA und die angegebenen Links führen nach England oder Japan.

Der für die Übertragung aller Inhalte des World Wide Web zuständige Standard ist das Hypertext Transfer Protocol (HTTP). HTTP ermöglicht den Transport von Hypertext-Dokumenten und medialen Daten vom WWW-Server zum WWW-Client, sowie die Übermittlung von Nutzereingaben vom Client zum Server. Die Daten jeder Übertragung sind unterteilt in Header und Body. Die Übertragung einer Webseite mittels HTTP erfolgt in vier Schritten:

  1. Connection - Durch den Client wird ein Verbindungsaufbau initialisiert
  2. Request - Vom Client wird eine Anfrage an den Server gestellt (z.B. zum Abruf der Datei einer bestimmten URL)
  3. Response - Der Server antwortet auf eine Anfrage des Clients (mit Übermittlung der angefragten Daten)
  4. Close - Die Verbindung wird durch den Server nach erfolgter Datenübertragung abgebaut (in Ausnahmefällen kann auch ein Client mittels Abbruch die Verbindung beenden

Zum Seitenanfang

Um den Zugriff auf bestimmte Dokumente des WWW zu beschleunigen, wird an verschiedenen Stellen das Verfahren des Caching angewendet. Dabei werden bereits abgerufene Seiten so zwischengespeichert, dass sie im Fall eines erneuten Abrufs nicht noch einmal von der ursprünglichen URL geladen werden müssen. Bei diesem schnelleren Zugriff werden die Daten vom Zwischenspeicherort herunter geladen. Caching kann auch durch die Speicherung von abgerufenen Dokumenten im Hauptspeicher oder auf der Festplatte des lokalen Rechners erfolgen. Es kann auch in Form von so genannten Proxy-Servern vom Informations-Provider bereitgestellt werden. Letztere ermöglichen aufgrund höherer Speicherkapazitäten die Verwaltung der abgerufenen Seiten von vielen Nutzern. Durch diese zentrale Speicherung erhöht sich das Potenzial, ein gewünschtes Dokument im Cache-Speicher des Proxy-Servers vorzufinden. Der grosse Vorteil liegt darin, dass die Inhalte schneller verfügbar sind.
Caching bietet den Nutzern noch einen weiteren Vorteil. Auf Dokumente, die unter ihrer ursprünglichen URL nicht mehr zur Verfügung stehen oder die aktualisiert wurden, kann noch längere Zeit zugegriffen werden. Auch einige Suchdienste wie z.B. Google und Speedfind bewahren die von ihnen indexierten Dokumente in einem Cache auf. Dadurch wird eine Art Versionenkontrolle möglich.
Wichtig ist, dass keine Aktualisierung der Dokumente des Caches durch das Entnehmen stattfindet. Diese Verfahrensweise ist bei Proxy-Servern jedoch üblich, so dass sich diese nicht zur Archivierung von WWW-Dokumenten eignen. Zu beachten ist auch, dass dynamische Seiten bzw. Seiten mit Interaktionskomponenten (z.B. Formularfelder für Nutzereingaben etc.) beim Caching nicht berücksichtigt werden. Der Grund für diese Nichtbeachtung liegt darin, dass die Betrachtung solcher zeitabhängigen Dokumente zu einem späteren Zeitpunkt bedeutungslos sein kann bzw. die korrekte Verarbeitung der Nutzereingaben nicht mehr möglich ist.

Zum Seitenanfang

Die charakteristischen Merkmale des Informationsangebots im Internet:

  • die verteilte Datenhaltung
  • die hohe Dynamik bezüglich neuer, geänderter oder gelöschter Inhalte
  • die heterogenen Datenformate und medialen Formen der Inhalte (neben HTML sind das inzwischen auch alle gängigen Textverarbeitungsformate wie z.B. .doc, .ppt oder .pdf)
  • die uneinheitliche Struktur der Inhalte
  • eine grosse Vielfalt von Inhalten in unterschiedlichen natürlichen Sprachen
  • eine hohe Anzahl von Dokument-Dubletten, die unter anderem durch das Spiegeln (Mirroring) von Inhalten zustande kommen
  • die riesige, ständig zunehmende Menge an Dokumenten

Alle diese Eigenschaften erschweren die Suche und Lokalisierung von Informationen im World Wide Web. Ein weiteres Problem der Datenverwaltung und Ressourcenlokalisierung im WWW besteht darin, dass HTML im Wesentlichen nur die Formatierung und Darstellung der Inhalte ermöglicht. Eine bedeutungsabhängige Kennzeichnung von Inhalten, sowie die Abbildung der semantischen Zusammengehörigkeit von Texten, Textabschnitten und sonstigen Informationsobjekten wird durch HTML nicht unterstützt. Dies hat zur Folge, dass alle Systeme der Informationslokalisierung zur Erschliessung von Dokumenten lediglich die Daten an sich, nicht aber deren Sinn und Zusammenhang zur Verfügung stellen. Dadurch ist eine Indexierung der Dokumente nur mit qualitativen Einbussen, z. B. durch mangelnde thematische Zuordnungen, Begriffsmehrdeutigkeiten usw. möglich.
Abhilfe in diesem Bereich verspricht die Nutzung von XML (Extensible Markup Language), einer Dokumenten-Metasprache, die besonders für eine semantische und computerlesbare Beschreibung von Daten geeignet ist. Mit XML können zur Erhöhung der Flexibilität von Anwendungen eigene Elemente mit einer bestimmten Bedeutung im Rahmen so genannter DTDs (Document Type Definitions) definiert und für die Inhaltsdefinition verwendet werden. Die mit XML definierten Elemente müssen allerdings für das Web entsprechend formatiert werden, hierfür gibt es weitere Standards wie z.B. CSS (Cascading Style Sheets) oder XSL (Extensible Stylesheet Language).

Um sich im Datendschungel zurechtzufinden, stehen an verschiedenen Punkten im Netz kostenlose Suchdienste zur Verfügung. Mit deren Hilfe kann man das Internet nach Stichworten durchsuchen. Es gibt auch Kataloge, in denen bestimmte Interessensgebiete gezielt bearbeitet und angesteuert werden. Die einzelnen Suchverfahren werden im Kapitel „Suchverfahren im Internet“ weiter beschrieben.


Zum Seitenanfang

Zurück   Weiter