Web 3.0? – über Datendschungel, Semantik und personalisierten Content

Web 3.0? – über Datendschungel, Semantik und personalisierten Content

7. Oktober 2016 | von Marko Tukic

Gude, liebes Web 3.0! Zwar ist das Web 2.0 noch in vieler Munde, wie unser nach wie vor meistgelesener Blogbeitrag „Web 2.0, Social Web und Social Media: Wording der Online-Kommunikation” zeigt. Doch die Fortsetzung schleicht sich heran: Wird das Web 2.0 vor allem mit den Interaktionsmöglichkeiten sozialer Medien assoziiert, soll das Web 3.0 intelligenter werden und Daten sinnvoll verknüpfen.

Denn dank Social Media – die im Jahr 2016 längst alltäglich sind – und unserer regelmäßigen #foodporn-Posts haben wir das Internet ordentlich mit Daten gefüttert. Diese lassen sich jedoch erst nutzen, wenn Maschinen sie miteinander verbinden können.

Die Semantik ist das große Thema des Web 3.0.

Das semantische Web und personalisierter Content

Das Surfen der Zukunft soll nicht mehr durch die reine Buchstabenfolge – den „nackten” Suchbegriff – bestimmt werden, sondern durch seine Assoziationen zu anderen Suchbegriffen. „Big Data”-Spezialist Daniel Pfirrmann erklärt: „Das Semantic Web ist […] eine intelligente Verknüpfung von Daten”. Informationen werden in Beziehung zueinander gesetzt und vom Nutzer kontinuierlich neu bestimmt und somit auch aktualisiert.

 

201609-personalizedads2

 

Warum wird das immer wichtiger? Wir haben ein großes Problem mit der Interpretation von Daten, da sie bisher in großen Teilen unstrukturiert vorliegen. Dies wird auch in der Online-Werbung deutlich. Wer nach einem Rezept eines erfrischenden Mojitos an heißen Sommertagen googelt, bekommt nach kürzester Zeit überall im Netz Ads zu Spirituosen eingespielt.

Nur: Der Nutzer hat leider nicht immer ein ausgeprägtes Interesse an Spirituosen. In diesem Fall möchte er sich einfach nur einen heißen Sommertag angenehm gestalten. Google folgt mit dem Sprung von „Mojito” zu „Spirituosen” zwar einer logischen Schlussfolgerung – und zumindest einer sehr einfachen Version semantischer Assoziation –, knüpft aber noch nicht an „Rezept”, „heiße Sommertage” und „erfrischend” an. Der Suchbegriff wird von den Maschinen und nicht dem individuellen Nutzer oder der individuellen Situation entsprechend interpretiert, sondern sehr allgemein.

Eine Anzeige zu aktueller Sommerlektüre oder einem portablen Grill hätte womöglich größere Begeisterung ausgelöst.

Fluch und Segen: Daten im Überfluss

An Verbraucherinformationen mangelt es nicht, ganz im Gegenteil: Es ist vor allem ein logistisches Problem.

Gemäß dem Marktforschungsinstitut eMarketer sind im Jahr 2016 2,34 Milliarden aktive Nutzer in sozialen Medien unterwegs. Doppelt so viele wie noch vor fünf Jahren. Rund um die Uhr durchstöbern und updaten wir unsere Instagram- und Facebook-Feeds. Wir bloggen und snappen, wir twittern und tindern, und ab und an jodeln wir sogar. Vor allem aber tun wir eines: Wir produzieren dadurch Unmengen an Daten. Bis 2020 wahrscheinlich ganze 44 Zettabytes an Daten. Das entspricht hinsichtlich der Speicherkapazität umgerechnet etwa 32 DVD-Stapeln. 32 DVD-Stapel, die allesamt bis zum Mond reichen, wohlgemerkt. Unstrukturiert ein wahrer Datendschungel.

201610-44zettabyte

Google versucht seinerseits Ordnung in dieses Chaos zu bringen: Mit dem sogenannten „Hummingbird”-Algorithmus sammelt Google alle Nutzerdaten aus Suchfunktion, Gmail-Konto, YouTube und anderen Diensten an einem Ort. Ziel ist es, diese Daten zu strukturieren und sie, wie in einem großen Puzzlespiel, miteinander zu verbinden.

Ein Teufelskreis: Daten mit semantischem Inhalt zu füllen, erzeugt noch viel mehr Daten, wie man an diesem schönen Beispiel auf schema.org erkennen kann: Es gibt beispielsweise vielfältige Möglichkeiten einen Personennamen mit semantischen Inhalten zu füllen. Daten werden in Beziehung zu vielen anderen Daten gesetzt, welche wiederum in Beziehung zu anderen Daten gesetzt werden, welche wiederum…

Von Computern, die Menschen verstehen sollen

Zum anderen ist es auch ein sprachliches Problem. Peter Sweeney, Spezialist für intelligente Sprachassistenz, bringt es in seinem Blogbeitrag auf den Punkt: Implizite Informationen, wie sie Menschen gebrauchen, müssten zu expliziten Informationen umgewandelt werden, damit Maschinen etwas damit anfangen könnten.

Nur sind wir leider selbst ziemlich schlecht darin zu interpretieren, was unser Gegenüber wirklich meint. Schulz von Thun lässt grüßen. Jetzt sollen wir das auch noch Computern beibringen?

Computer verstehen nur eine formale, strukturierte und bis ins letzte Detail ausformulierte Sprache, die eben keine Unklarheiten zulässt. Sonst heißt es: „Compilation Error.”

Einen wichtigen Schritt setzen Communitys wie Schema.org, die sich um ein semantisches Wörterbuch bemühen. Dabei werden durch übliche Assoziationen sowie thematische Einordnungen von Begriffen Querverbindungen zwischen Einträgen geschaffen.

Die aktuelle HTML Version 5 stellt ebenfalls semantische Tools zur Verfügung, wie Mario Janschitz für das Digital-Magazin t3n beschrieben hat. So lassen sich nun neben „header” (Kopfzeile) oder „nav” (Navigation) auch Elemente wie „article” und „section” einer Website klar im Code für die Suchmaschine definieren – und sorgen für genauere Suchergebnisse.

Noch kein Grill in Aussicht

Ein Web 3.0 ist noch immer Zukunftsmusik. Guter, semantisch personalisierter Content kann in der Theorie funktionieren, doch eine brauchbare Bündelung und semantische Ergänzung aktueller – und vor allem kommender – Daten stellt noch immer eine große Herausforderung dar.

Bis wir den portablen Grill vorgeschlagen bekommen, wird’s wohl noch eine Weile dauern. Was schade ist: Gebrauchen könnten wir ihn tatsächlich. Spätestens nächsten Frühling.

Kommentare

Senf dazu?

7. Oktober 2016 | Nils

Sehr schöner Artikel und ein spannendes Thema!

27. Oktober 2016 | Nima

sehr interessant und informativ!

Senf dazu!

Mehr Lesestoff

Zurück nach oben