Der mit dem Wort tanzt | Assoziative Semantische Strukturen
Es soll vollkommen egal sein, in welcher Form ein Datenstück vorliegt und ob diesem davor von menschenhand explizit eine “Bedeutung” zugeordnet wurde - das ist eben der Unterschied zu ontologisch (vor)angereicherten Techniken, die alle vorhandenen Daten zuerst “vorkochen” müssen, bevor man sie “essen” kann.
Ontologie-basierte (meta-) angereicherte Datensets eignen sich besser für streng definierte Informationssubsets, wie z.B. in der Jurisdiktion, Medizin oder Pharmazie - wo Begriffe sozusagen “ein für alle Male” statisch festgehalten werden und so auch “für immer” bleiben.
An dieser Stelle kommt Qimaya ins Spiel - mittels eines intelligenten künstlichen neuronalen Content-Netzwerks kann Qim nicht nur die Erschließung sondern - und vor allem - die Gewichtung der Bedeutung eines Textbausteins in Bezug auf alle anderen übernehmen und so jedes einzelne Begriff mit allen anderen kontextbasiert verknüpfen…
Assoziative Semantische Strukturen & Content Networks CNT
Assoziative semantische Strukturen (organisiert in Content Networks) ermöglichen - zum ersten Mal in der Geschichte des Netzes - eine nachvollziehbare und kontrollierbare Erschließung und Gewichtung von relevanten kontextbezogenen Relationen sowohl der einzelnen Begriffe und Begriffsfelder, als auch die von ganzen Textstücken oder Werken zueinander. Diese bilden nicht die bestehenden Relationen ab, sondern generieren die relevanten Beziehungen selbstständig.
Damit ist die dynamische Natur der kontextbezogenen Verknüpfungen reflektiert und die Relationen sind nicht statisch, sondern immer dynamisch aktuell. Diese Technik sollte uns endlich kontextuell homogene Antworten bieten können - obwohl nach wie vor aus vielen sehr unterschiedlichen Quellen bestehend - die nicht auf dem bloßen Vorkommen oder Nicht-Vorkommen von bestimmten Strings basiert sind.
Künstliche Neuronale Netze (KNN) & Content Networks (CNT)
Computerbasierte neuronale Netze bilden mithilfe “vereinfachter” mathematischer Neuronenmodelle die Verbindung von Nervenzellen über Synapsen im menschlichen Gehirn nach. Auf diese Art und Weise entstehen neuronale assoziative Netzwerke, die fähig sind selbstständig semantische Strukturen zu erzeugen, sogenannte Content Networks, in denen jede einzelne Seite mit allen anderen Seiten durch alle vorkommenden Begriffe - kontextbasiert gewichtet - verknüpft ist.
Kombiniert mit all den technischen Möglichkeiten um personalisiertes Suchen (und vor allem Finden) zu ermöglichen, die wir schon heute haben - wie all die nicht explizit im Suchstring ausgesprochenen Angaben, wie die jeweilige IP-Adresse, Sprache, Web Activity, Social Media Participation, Web History, User Accounts, etc. - die schon heute von Google, Yahoo! & Co. für die Verfeinerung der Suchergebnisse täglich eingesetzt werden - können wir die “Digitale Suche” ruhig in “Digitales Finden” umbennen.
Google und Künstliche Strukturierte Daten
Google hat sogar kürzlich die Frage nach “britney spears mother” direkt beantworten können obwohl dies in dieser Form nirgends explizit angeführt wurde, berichtet ReadWriteWeb, angelehnt an Bruno Haid von SystemOne, österreichischen Spezialisten für Enterprise Semantic Services. Ich persönlich habe diese SERPs-Form bislang nicht gesehen.
Auf der anderen Seite, hat vorgestern Google bei meiner Suche nach einer “gartenheizlampe” komplett versagt, weil Google nicht eingefallen ist, dass ich eigentlich einen “gartenstrahler” meinte, bis ich dann schließlich selbst drauf gekommen bin…
OK, geht das gleiche aber nicht genausogut mit Microformats und ohne KI?
Nein. Definitiv nicht das Gleiche.
Microformats setzen auf ontologisch basierte standardisierte (Meta)Anreicherung der vorhandenen Datensätze, um den Datenbruchteilen begrenzte kontextuelle Bedeutung zu “verabreichen”, wodurch auch automatisierte Systeme (sprich: Maschinen) diese Infobruchteile identifizieren und begrenzt deuten können.
Microformats (im DE-Sprachraum auch Mikroformate genannt) benutzen ein Set einfacher, offener Datenformate, die auf den bestehenden, standardisierten und akzeptierten (Web) Standards basieren. Auf deutsch gesagt, Mikroformate reichern das bestehende (HTML) Markup um vordefinierte Formate (sprich: XML-Tags) an, wie z.B. hCard, hCalendar, hReview, etc. an, sodass Maschinen mittels dieser vordefinierten Tags die Inhalte dieses Markup-Stücks interpretieren können.
Das Problem mit Microformats
ist eben diese Vorstufe, die alle Daten passieren müssten, damit sie auch für Maschinen lesbar werden, in dem von Menschenhand einem Infobruchteil eine “Bedeutung” zugeordnet wird. Sollte es nötig sein, diese zu aktualisieren, müsste dies wieder ein Mensch tun, weil die Maschine so ausgezeichnete Daten dann zwar interpretieren kann, aber doch noch immer mit diesen keine relevante aktuelle “Bedeutung” verknüpfen kann.
Ein weiteres Problem mit Microformats sind die Abstraktionsmöglichkeiten von diesen Formaten. Auch deswegen gibt es derzeit nur ein paar Formate, die vor allem relativ persistente Objekte beschreiben - also Personen, Firmen, Organisation und Orte. Es wird zwar natürlich auch an weiteren Formaten gearbeitet, die Ergebnisse sind aber weiterhin fraglich.
Microformats - Möglichkeiten & Grenzen
Damit ist der wesentlichste Unterschied klargestellt - während sich ontologie- und mikroformat-basierte Techniken auf manuelle statische Anreicherung der Daten für Maschinen begrenzen, bringt Qimaya den Maschinen echte Künstliche Intelligenz bei, sodass sie auch ohne Einwirkung eines Menschen kontextbezogene Relevanz der Daten herausfinden können.
Ich sage damit natürlich nicht, dass Microformats hiermit jede Daseinsberechtigung verlieren - es handelt sich immerhin um ein offenes standardisiertes und anerkanntes Format, dessen Einsatz für praktische Anwendungen auch weiterhin besteht, wie wir es aus der XML-Familie allgemein kennen.
Eines steht fest, man sollte ein statisches Markup-Format nicht wirklich mit einem lernfähigen intelligenten automatisierten System versuchen zu vergleichen. Dieser Markup-Ansatz ist lediglich ein Versuch den Boden für die künftigen, noch gar nicht spezifizierten Anwendungen vorzubereiten, die Logik selbst sollte erst anhand dessen später (nach)kommen.
Von Naturphilosophie zu Neuroinformatik
Ich finde es so faszinierend.
Wenn man sich auch nur ein wenig mit diesen Themen beschäftigt, merkt man sehr schnell, wieviele unterschiedliche und auf ersten Blick gar nicht korellierende Ebenen diese Bestrebungen innehaben. Eigentlich haben wir uns in unserer Geschichte bislang viel mehr auf das Teilen und Erforschen einzelner Wissensdisziplinen konzentriert, damit man es schön getrennt auf die Reihe bringt.
Zumindest bis vor kurzem.
Mit Neuroinformatik steigen wir auf zu einem ganz neuen Level auf. Die Emulation der neuronalen Vorgänge eines menschlichen Gehirns im Auftrag von globaler Dokument- und Wissensorganisation vereint wieder alle diese Diszplinen, um dadurch eine neue Ära einzuleiten. Philosophie, Physik, Biologie, Genetik, Informatik, etc.
Hiermit vereinen diese Techniken die Erkenntnisse unzähliger Forschungs- und Wissenszweige um daraus eine komplett neue Disziplin zu schaffen: “Automatisierte assoziative Texterschließung”.
Und Qimaya bringt uns die ersten greifbaren Früchte dieser multidisziplinären Bestrebungen.
![]()
Ein paar aktuelle Links zum Thema Semantisches Web & Digitale Suche
- Zeit-Online: Die Antwortmaschine
- ContentManager: Gegenwart und Zukunft des Findens
- FutureZone: Der lange Web zum semantischen Web
- Blogs.ZDNet: The Semantic Enterprise (en) - Video: Semantic Web für Newbies
- Uni-Ulm: Graphisches und semantisches Explorieren von Information am Beispiel von Filmen
- ReadWriteWeb: Semantic Web Wishes List 2009 (en)
- XING-Gruppe Internetportale: Wer wird Google vom Thron stoßen?
- XING-Gruppe Querdenkerclub: Data as currency
- XING-Gruppe Ontologien in der Informationswissenschaft: Semantische Distanz (Linkliste)
- NEPOMUK - Social Semantic Desktop
- Semantic Web Company: Semantic Web Meetup Berlin - 20.03.2009
![]()
Copyright Note:
Titelbild: Communications of the ACM 51.7 redesigned by watz (Flickr)
Possibly Related Posts:
- Orbis Twittus | Woche in Tweets | TwitterWoche 21 / 2009
- Orbis Twittus | Woche in Tweets | TwitterWoche 20
- Orbis Twittus | Woche in Tweets | Twitterwoche 19/2009
- Qimaya unter Red Herring Top 100 Europa Finalisten
- Mobile Monday Austria 2009 - Premiere in Österreich


Ein wirklich sehr interessanter Artikel. Bei manchen Beispielen, speziell dem auf Qimaya verstehe ich den Zusammenhang mit Semantik aber nicht ganz. Außerdem frage ich mich, welcher Art die neuronalen Netze sind, welchen Lernalgorithmus sie nutzen und vor allem wie der Input Layer gefüttert werden soll? Ein Muster lernen lassen kann ich mir vorstellen, aber wie soll die Bedeutung eines Wortes erkannt oder gelernt werden? Faszinierend finde ich sowohl Semantik, als auch KI, aber ich kann einfach keinen Zusammenhang herstellen.
Ich meine, dass Qimaya selbst bei bestmöglichen Erfolg dem kleinsten Googlebombing nicht standhalten könnte und mich statt beim Zahnarzt in der Schule oder gar beim Tierarzt landen lassen würde hätte ich Zahnschmerzen und wäre ich auf die Ergebnisse der KI in Verbindung mit Semantik angewiesen. Aber vielleicht ergibt sich ja noch etwas, ich bleibe am Ball und schaue immer wieder hier vorbei.
helmelohs last blog post..Skifliegen: Schlierenzauer siegt erneut mit 215,5m
Der mit dem Wort tanzt | Assoziative Semantische Strukturen…
Die Natur des Webs ist alles andere als statisch und um dies zu reflektieren, suchen wir nach Techniken, die kontextbezogene relevante Begriffrelationen selbstständig erkennen und mit anderen verknüpfen. Assoziative semantische Strukturen bringen Lic…
@hype.yeebase.com Ich verstehe Web ist “nicht statisch” und Technik für “Reflex” (Spiegel) ist gesucht.
Ich verstehe leider nur nicht, was das mit Semantik zu tun hat. Falls es nicht zu viel Mühe macht, ersuche ich um eine ganz kurze Erklärung auf einem leicht verständlichem Niveau oder noch lieber wäre mir eine mathematische oder prädikatenlogische Erklärung.
Angenommen alle Blogs und unzählige Web 2.0 Seiten schreiben und v.a. kopieren und vervielfachen, dass Theodore Roosevelt der 1. Präsident in den USA nach dem Bürgerkrieg war. Soll diese Technik dann verifizieren, dass dies richtig ist, weil es zigtausend mal im Internet vorkommt? Semantik heißt bei mir, dass die Technik, oder das Programm die Bedeutung von Präsident kennen müsste und zwar genau so gut kennen, wie sie ein durchschnittlicher Mensch, dessen Muttersprache Deutsch ist kennt. Dazu ist meiner Meinung nach aber viel mehr erforderlich, als eine Visualisierung von quantitativem Vorkommen eines Wortes im Internet.
Aber wie ich schon oben angemerkt habe, mich interessiert dieses Thema, obwohl ich den Ansatz nicht verstehe, bzw. überhaupt keinen sehe. Wenn mittels KI, welche Art, welche Lernalgorithmen, wie kann die Eingabe so aufbereitet werden, dass eine Gewichtung überhaupt Sinn macht und v.a. wer überprüft den Wahrheitsgehalt und die Relevanz?
Ich glaube mit einer umgekehrt funktionierenden Methode könnte man eher auf Erfolg hoffen, nämlich alles was nicht nötig ist, also jede redundante Information im Netz kennzeichnen und als Müll ausschließen.
Nichts desto trotz ist es ein sehr gefälliger Titel und wenn ich bedenke, dass sich “Wort” und “Wolf” nur in zwei Zeichen unterscheidet wird mir sofort klar, dass dieses Unterfangen kein Tanz ums Feuer wird. Aber vielleicht fragt ihr einmal Kevin Costner, der hat zumindest schon Erfahrung mit dem, der mit dem Wolf tanzt.
helmelohs last blog post..Taijiquan: Vorbereitung oder Eröffnung nach links
[...] hat seinen 2. Artikel zu semantischen Strukturen bzw. der kommenden Semantik im Netz geschrieben und die Möglichkeiten der Technik von Qimaya [...]
Hi Helmut!
Du zwingst mich zum Nachdenken. Das gefällt mir aber überhaupt nicht!
Natürlich würde ich dir am allerliebsten gleich jetzt ein Ablaufdiagramm aufzeichnen, mit benannten Variablen, verständlichen Algorithmen und klarem Ablauf. Am besten gleich mit einem im Browser ausführbarem “Proof of Concept”.
Wäre schön. Habe ich nicht.
Das sogenannte “Semantische Web” hat in meinem Kopf nachwievor einige, nicht so ganz kompatible Gestalten. Und je mehr ich darüber erfahre, desto unterschiedlicher werden diese “Konzepte”…
Daher habe ich auch schon die ersten vier Antworten an dich umgeschmissen. Es kommt sehr oft vor, dass ich immer wieder “back to square one” muss.
Eines glaube ich dir aber schon sagen zu können.
Klaus Holthausen beschreibt in “Dynamisierte Textcorpora” - Anwendungen neuronaler Netze für editorische und texterschließende Fragestellungen [pdf],
wie sie diese Verfahren mit dem Werk von Kant und Schelling entwickelt und getestet haben und ehrlich gesagt lassen die Ergebnisse aufs “Große” hoffen.
Sogar den meisten menschlichen Lesern bleiben die Inhalte dieser Werke für immer “verborgen” und wenn eine Maschine damit zurechtkommt - sehe ich keine Grenzen.
+++
Insofern möglich, plane ich (hoffentlich) einige von Deinen Fragen nach Authorität, Bedeutung, Relevanz, Verifikation, Gewichtung, etc. in meinen folgenden Posts beantworten zu können.
Inwieweit ich es auch über die (genauen) Techniken, Algorithmen oder Vorgängen sagen kann - weiss ich nicht. Da ich es aber selbst erfahren möchte, versuche ich mir schon jetzt etwas mehr von all dem multidisziplinären Wissen anzueignen, was zwar wunderschön aber nicht ganz so einfach ist.
Und Roy, Klaus & Team werden mit der Zeit sicher auch noch einige Einblicke in ihre “Wundermaschine” erlauben.
Und mit Qim.v2 im Frühjahr darf jeder, der mag, die Qim aufs Herz&Niere prüfen…
+++
Jedenfalls ist es für mich äußerst spannend. Ich habe mich eigentlich in Bezug aufs Semantische Web schon längst damit abgefunden, MetaDatenPfleger (für gute Sache) zu werden. Und jetzt kommt aus dem Nichts die Qim und behauptet, sie kann es viel besser und effektiver.
Gibt es was Spannenderes als das herausfinden zu versuchen?!
Dieses Thema ist auch der eigentliche Zweck meiner soeben gestarteten Serie “Digitale Suche 2.0″, wo ich der Reihe nach versuchen möchte zu erklären, worum’s eigentlich geht, was es mit der Suche an sich hat, was wir besser machen könnten, auf was das Semantische Web abzielt, welche Rahmenbedingungen es gibt, etc., etc…
Nur möglichst irgendwie der Reihe nach, weil ich mir von einer ganzen Story mit drum & dran mehr erwarte, als wenn ich gleich heute alle mit “synfire chains” beschieße, uns ins “Zeit-Raum-Muster” verwickle oder die “KI vom blauen Himmel herumbeschwöre”
In diesem Sinne: Danke für deine Kommentare und aufs baldige “Digitale Finden” statt “Suchen”!
[...] Qimaya ist uns auf diesem Gebiet bereits Lichtjahre [...]
[...] ich es eh schon öfters prophezeit habe. Und es ist gut so, wir haben echt das Glück Semantisches Web in seinem [...]
[...] semantic distribution channel for any kind of website. The company is based on a patent pending technology of neural networks, which emulates the human visual cortex. It understands any kind of data in regards of meaning and [...]
Leave a comment!
Blogosphere »
Tweet me tender, tweet my tweet, never let me go…
Was macht Twitter eigentlich zum Twitter? Was unterscheidet Twitter so sehr von den restlichen sozialen Portalen, Medien und Netzwerken? Was ist das Geheimnis, das Twitter in kürzester Zeit 12 Millionen User beschert hat? Ist das erst der Anfang oder auch schon das Ende von Twitter?
Mobile Web »
Twitter: Das neue coole TweetDeck Client für iPhone
Heute wurde der neue TweetDeck-Client für iPhone der Öffentlichkeit vorgestellt und ich habe ihn auch schon dem ersten Praxis-Test unterzogen, vor allem aus dem Grund, daß TweetDeck mein präferiertes Twitter-Client am Desktop ist, da es dank Adobe-AIR OS-unabhängig arbeitet. Hier meine ersten Eindrücke, Screenshots und ein Fazit.
Semantic Web »
Qimaya - Quantensprung ist das richtige Wort dafür
Quantensprung ist in der Tat das richtige Wort dafür. Revolutionärste Innovation pur. Wir haben wirklich ein Glück dabei zu sein.
Alles, was Sie schon immer über Qimaya wissen wollten…Dank sei dem Dresdner Zukunftsforum und T-Systems …
WordPress »
Review: IntenseDebate im Blog-Einsatz
Vor zwei Wochen habe ich bei mir IntenseDebate installiert um meinen Lesern bessere Usability, Interaktivität und Mehrwert bieten zu können. Leider happert es derzeit noch an allen Ecken und Enden und während ich so gut wie keine positiven Effekte verzeichnet habe, musste ich mich die ganze Zeit mit verschiedensten Problemen herumschlagen. Fazit: All zu viele Probleme für zwei Wochen Einsatz. Rollback!
Subscribe for updates
TwitterCounter
This Blog on your Mobile, iPhone or PDA
Archives
Top Commentators
Sites I Enjoy
Recommended WordPress Ressources
Random Posts
Latest Video Post
Recent Posts
Most Commented
Pages