WWW - World Wide Web

In diesem Kapitel wird  die Struktur der Texte im WWW behandelt, sowie die
Übertragung der Inhalte. Weiter werden Verfahren erklärt, wie schneller
auf diese Texte zugegriffen werden kann und es werden die
charakteristischen Merkmale der Informationsangebote im WWW vorgestellt.

Eigenschaften
Übertragung der Inhalte
Beschleunigung des Zugriffs auf Dokumente 
Merkmale des Informationsangebots

 

Eigenschaften

Aufgrund seiner grafischen Benutzungsoberfläche und der einfachen Bedienbarkeit, ist das WWW der am häufigsten genutzte Dienst im Internet. Jeder der in der Lage ist, eine grafische Oberfläche zu bedienen, kann sich rund um die Uhr von Seite zu Seite hangeln („surfen“). Auf einfache Art und Weise ist es möglich, verschiedene Informationsserver anzusteuern, Bibliothekskataloge zu durchsuchen oder eine globale Informationsseite anzubieten.
Die Dokumente im WWW sind in Form von Hypertext strukturiert. Dadurch ist es möglich, inhaltlich verwandte Themen miteinander zu verbinden und ein „assoziatives Lesen“ zu ermöglichen. Ein Link kann sich dabei nicht nur auf Textdokumente beziehen, sondern auch auf Bilder, Video- und Audiosequenzen, sowie auf andere Dienste im Internet wie z.B. E-Mail, News oder FTP. Dabei spielt es keine Rolle, wo sich diese Inhalte befinden. Der Text kann z. B. aus Deutschland und die Grafik aus den USA sein und die angegebenen Links können nach England oder Japan führen.

 

Zum Seitenanfang

Übertragung der Inhalte

Der für die Übertragung aller Inhalte des WWW zuständige Standard ist das Hypertext Transfer Protocol (HTTP). HTTP ermöglicht den Transport von Hypertext-Dokumenten und medialen Daten vom WWW-Server zum WWW-Client, sowie die Übermittlung von Nutzereingaben vom Client zum Server. Die Daten jeder Übertragung sind unterteilt in Header und Body. Die Übertragung einer Webseite mittels HTTP erfolgt in vier Schritten:

  1. Connection - Durch den Client wird ein Verbindungsaufbau initialisiert
  2. Request - Vom Client wird eine Anfrage an den Server gestellt (z.B. zum Abruf einer bestimmten URL)
  3. Response - Der Server antwortet auf eine Anfrage des Clients und übermittelt die angefragten Daten
  4. Close - Die Verbindung wird durch den Server nach erfolgter Datenübertragung abgebaut (in Ausnahmefällen kann auch ein Client mittels Abbruch die Verbindung beenden)

 

Zum Seitenanfang

Beschleunigung des Zugriffs auf Dokumente

Um den Zugriff auf bestimmte Dokumente des WWW zu beschleunigen, wird an verschiedenen Stellen das Verfahren des Caching angewendet. Dabei werden bereits aufgerufene Seiten so zwischengespeichert, dass sie im Fall eines erneuten Abrufs nicht noch einmal von der ursprünglichen URL geladen werden müssen. Bei diesem schnelleren Zugriff werden die Daten vom Zwischenspeicherort herunter geladen. Caching kann auch durch die Speicherung von abgerufenen Dokumenten im Hauptspeicher oder auf der Festplatte des lokalen Rechners erfolgen.

Caching kann auch in Form von so genannten Proxy-Servern vom Informations-Provider bereitgestellt werden. Diese ermöglichen aufgrund höherer Speicherkapazitäten die Verwaltung der abgerufenen Seiten von vielen Nutzern. Durch diese zentrale Speicherung erhöht sich das Potenzial, ein gewünschtes Dokument im Cache-Speicher des Proxy-Servers vorzufinden. Der grosse Vorteil liegt darin, dass die Inhalte schneller verfügbar sind.
Caching bietet den Nutzern noch einen weiteren Vorteil. Auf Dokumente, die unter ihrer ursprünglichen URL nicht mehr zur Verfügung stehen oder die aktualisiert wurden, kann noch längere Zeit zugegriffen werden. Auch einige Suchdienste wie z.B. Google und Speedfind bewahren die von ihnen indexierten Dokumente in einem Cache auf. Dadurch wird eine Versionskontrolle möglich.

Proxy-Server eignen sich nicht zur Archivierung von WWW-Dokumenten, da ein Dokument im Cache durch die Entnahme aktualisiert wird. Zu beachten ist auch, dass dynamische Seiten bzw. Seiten mit Interaktionskomponenten (z.B. Formularfelder für Nutzereingaben etc.) beim Caching nicht berücksichtigt werden. Der Grund dafür liegt darin, dass die Betrachtung solcher zeitabhängiger Dokumente zu einem späteren Zeitpunkt bedeutungslos sein kann bzw. die korrekte Verarbeitung der Nutzereingaben nicht mehr möglich ist.


Zum Seitenanfang

Merkmale des Informationsangebots

  • verteilte Datenhaltung
  • hohe Dynamik bezüglich neuer, geänderter oder gelöschter Inhalte
  • heterogene Datenformate und mediale Inhaltsformen (neben HTML sind das inzwischen auch alle gängigen Textverarbeitungsformate wie z.B. .doc, .ppt oder .pdf)
  • uneinheitliche Struktur der Inhalte
  • grosse Vielfalt von Inhalten in unterschiedlichen Sprachen
  • hohe Anzahl von Dokument-Dubletten, die unter anderem durch das Spiegeln (Mirroring) von Inhalten zustande kommen
  • riesige, ständig zunehmende Menge an Dokumenten

 

All diese Eigenschaften erschweren die Lokalisierung von Informationen im World Wide Web. Ein weiteres Problem der Datenverwaltung und Ressourcenlokalisierung im WWW besteht darin, dass HTML im Wesentlichen nur die Formatierung und Darstellung der Inhalte ermöglicht. Eine bedeutungsabhängige Kennzeichnung von Inhalten, sowie die Abbildung der semantischen Zusammengehörigkeit von Texten, Textabschnitten und sonstigen Informationsobjekten werden nicht unterstützt. Dies hat zur Folge, dass alle Systeme der Informationslokalisierung zur Erschliessung von Dokumenten lediglich die Daten, nicht aber deren Sinn und Zusammenhang zur Verfügung stellen. Dadurch ist eine Indexierung der Dokumente nur mit qualitativen Einbussen, z.B. durch mangelnde thematische Zuordnungen, Begriffsmehrdeutigkeiten usw. möglich.

Abhilfe in diesem Bereich verspricht die Nutzung von XML (Extensible Markup Language), einer Dokumenten-Metasprache, die für eine semantische und computerlesbare Beschreibung von Daten geeignet ist. Mit XML können zur Erhöhung der Flexibilität von Anwendungen eigene Elemente mit einer bestimmten Bedeutung im Rahmen so genannter DTDs (Document Type Definitions) definiert und für die Inhaltsdefinition verwendet werden. Die mit XML definierten Elemente müssen allerdings für das Web entsprechend formatiert werden, hierfür gibt es weitere Standards wie z.B. CSS (Cascading Style Sheets) oder XSL (Extensible Stylesheet Language).
Um sich im Datendschungel zurechtzufinden, stehen im Netz kostenlose Suchdienste zur Verfügung. Mit deren Hilfe kann man das WWW nach Stichworten durchsuchen. Es gibt auch Kataloge, in denen bestimmte Interessensgebiete gezielt bearbeitet und angesteuert werden. Die einzelnen Suchverfahren werden im Kapitel Suchverfahren weiter beschrieben.

 

Zum Seitenanfang