Maschinen können nicht taggen.

Tag-Cloud

Seit dem Internet-User die Möglichkeit haben, sich selbst und ihre Meinung im Netz einzubringen, hat sich viel verändert. Diese “Interaktivität” mit dem User taufte man damals “Web 2.0” – und es ist mit einem riesigem Erfolg eingeschlagen.

Eine der zahlreichen Neuerungen die diese neue Art von Internetaktivität mit sich brachte ist das Tagging, zu Deutsch: Verschlagwortung.
Man gibt bestimmten Objekten eindeutig zugewiesene Schlagworte, das können Bilder, Bücher, Artikel oder auch Dokumente (etc.) sein.

Wirken bei diesem Vorgang mehrere User mit – d.h. für ein Objekt werden von X Leuten Tags zugewiesen – entsteht das “social tagging”. Der Begriff der für ein Objekt am meisten getagged wurde, ist demnach am meisten mit dem Objekt verbunden: Ganz simpel z.B. hat man ein Bild mit einer Banane darauf, so wird das Tag “Banane” sehr wahrscheinlich am meisten eingegeben worden sein, danach würde wahrscheinlich “gelb” stehen.

In Weblogs – kurz Blogs – taggen die Autoren ihre eigenen Artikel selbst, der User bekommt nicht die Möglichkeit eigene Tags abzugeben. Dadurch entsteht die “Tag-Cloud” – eine Ansammlung von Tags, welche vom Autor am meisten benutzt wurden. Die besonders groß und dadurch hervorgehobenen Tags, sind diejenigen die am meisten verwendet wurden, in meinem Fall ist das im Moment “Microsoft”.
Der Vorteil einer solchen Tag-Cloud liegt darin, das der User oder der Leser auf einen Blick sieht, worum es sich in dem Blog am meisten handelt – im Grunde eine Art Inhaltsbeschreibung, nur viel schneller aufassbar als ein geschriebener Text.

 

Tastatur

Für uns Menschen ist dieser Vorgang ganz normal, wir sehen etwas, und in unserem Kopf verknüpfen sich sofort Assoziationen, z.B. erinnern wir uns durch einen gewissen Geruch wieder an unsere Kindheit, und sofort formt sich dazu meist noch ein Bild in unserem Kopf. Ganz vereinfacht ist das Bild also mit diesem Geruch getagged.

Und das ist einer der großen Vorteile des menschlichen Gerhirns gegenüber dem Computer. Eine Maschine kann von sich aus keine Assoziationen hervorbringen – noch schlimmer: Ein Computer kann zwar Text lesen, aber er kann nicht “sehen”. Zeigt er uns ein Bild, so ist das für unser Auge klar erkennbar, die Maschine sieht nur Nullen und Einsen. Das sieht sie zwar beim Text auch, aber wir haben dem Computer beigebracht das 0110100 der Buchstabe t ist usw. Aber wie will man das mit Bildern machen?

 

Captcha

Diese Eigenschaft hat aber auch seine Vorteile: Fast jeder kennt diese verzerrten Buchstabensalate, sogenannte Captchas, von Registrierungsforularen. So beugt man Computerprogrammen vor, die dazu geschrieben wurden um z.B. möglichst viele E-Mail Accounts zu registrieren, das früher sehr gerne von Spammern gemacht wurde. Ein Computerprogramm kann diese Buchstaben, die dann auch noch als Bilddatei dargestellt sind, nicht entziffern, für das menschliche Auge ist das jedoch ein Leichtes. So ist sicher gestellt das nur ein menschliches Wesen sich anmelden kann.
Paradoxerweise sei aber noch angebracht, das hinter einem Captcha ein Programm steckt, welches einen Test generiert, den die meisten Menschen ohne Probleme lösen können, das Programm selbst aber nicht lösen kann!

Trotz diesem Vorteil hat es aber mehr Nachteile das Computer Bilder nicht verstehen können: Wie oft bringt z.B. die Google Image Search Ergebnisse die nichts mit dem gesuchtem Begriff zu tun haben?
Das liegt daran, das Google den Text ausliest der in der näheren Umgebung des Bildes steht und den Dateinamen analysiert. Wird von jemandem ein Bild hochgeladen auf dem eine Katze zu sehen ist, das Bild aber Maus.jpg als Dateinamen verwendet, so wird die Katze unter den Suchergebnissen des Begriffs Maus zu sehen sein.

Um das zu vermeiden gibt es nur einen Weg: Wir müssen es dem Computer beibringen.

Ein Lösungsansatz kommt von der Carnegie Mellon University: Human Computation (menschliche Berechnung), Menschen setzten sich hin und beschreiben mit einzelnen Wörten was man auf einem Bild sieht, im Grunde das gleiche Prinzip wie Tagging.
Natürlich kam als erste Frage auf: “Warum sollte jemand so etwas machen?”
Jemanden dafür zu bezahlen ist eine Möglichkeit, aber man hat sich etwas anderes einfallen lassen: Ein Spiel. Zu dieser Idee kam man, nachdem folgende Statistik bekannt wurde:

Solitaer

 

  • 2003 wurden weltweit 9 Millarden Stunden Solitär gespielt
  • der Bau des Empire State Building dauerte 7 Millionen Stunden (diese Zahl ist in 6.8 realen Stunden erreicht mit Menschen die weltweit Solitär spielen)
  • der Bau des Panama Kanals dauerte 20 Millionen Stunden (das in weniger als einem Tag erreicht wird durch Solitär spielende Menschen)

 

Man braucht also ein Spiel, welches vom Prinzip her so simpel wie möglich gehalten wird, und welches Menschen dazu bringt, Bilder zu taggen.

HowTo

So entstand das ESP-Game: Ein Spieler loggt sich ein, und wird automatisch mit einem anderem Spieler gepaart. Die Partner aber wissen voneinander nichts, und können in keinster Weise kommunizieren.
Jetzt wird beiden Spielen ein Bild gezeigt. Beide müssen nun jeweils Wörter eingeben die beschreiben was auf dem Bild zu sehen ist. Findet bei einem Wort eine Übereinstimmung statt, also beide Spieler tippen das gleiche Wort ein, bekommen beide Punkte und das nächste Bild erscheint.

 

Beispiel: Auf dem Bild ist ein alleinstehender Baum vor einem Abendhimmel zu sehen: Spieler Eins tippt Himmel, Spieler zwei Baum –> keine Übereinstimmung. Jetzt tippt Spieler Eins Baum ein, somit ergibt sich die Übereinstimmung, und das nächste Bild erscheint.
Die nächsten Spieler die das Bild mit dem Baum vor Abendhimmel eingeben, erhalten noch als Hinweis dass sie das Wort “Baum” nicht mehr tippen dürfen, das sind die sogenannten TABU-Wörter. Beide Spieler werden sich in dem Fall auf das Wort “Himmel” einigen.
Das ganze findet zudem unter Zeitdruck statt, und für jede Übereinstimmung gibts Punkte als Leistungsanreiz. So erhält man in kürzester Zeit
für jedes Bild die perfekten Tags, da immer zwei unabhängige Spieler sich auf ein Wort geeinigt haben.

Füttert man jetzt die Bildsuchmaschinen mit diesen Informationen, so wird man auf der Suche nach dem Wort “Hund” auch wirklich nur Bilder finden, auf denen ein Hund zu erkennen ist.

Walther Matthau

Das ganze bringt manchmal natürlich auch Probleme mit sich:
Hier ein Bild von Walter Matthau, einem berühmten Schauspieler. Hier die Tags die über das ESP Game zu einem ähnlichem Bild mit Walther Matthau gesammelt wurden:

Saddam, Mr. Wilson, Mann, Gesicht, Bart

Nachdem aber ein großteil der User in diesem Bild Saddam sehen, heißt das im Umkehrschluss: Würde man in einer Zeitung dieses Bild veröffentlichen, würden die meisten denken es sei Saddam.

Squigl

Durch das ESP Game weiß der Computer also was alles auf einem Bild zu sehen ist. Man treibt das ganze aber noch weiter: Denn der Computer weiß ja nicht, wo sich ein Objekt in einem Bild befindet. Dazu hat man ein weiteres Spiel entwickelt:

Man nimmt die Daten aus dem ESP Game, also das Bild und die daszugehörigen Tags, und zeigt wieder zwei Spielern das gleiche Bild. Zu dem Bild wird ein Wort eingeblendet, z.B. Hund. Beide Spieler müssen jetzt mit der Maus den Hund “ummalen”, stimmen beide Übermalungen ungefähr überein, gibt es wieder Punkte und das nächste Bild kommt.

So füllt man die Suchmaschinen also sogar mit den Daten wo auf einem Bild sich das gesuchte Objekt befindet.

Diese Spiele waren dermaßen erfolgreich, dass man sich überlegte welchen Nachteil eines Computer man noch durch ein Spiel ausgleichen könnte: Man kam auf das Spiel Verbosity.

Die Idee hinter Verbosity ist allgemeine Fakten zu sammeln. Für einen Menschen ist es in den meisten fällen klar, das ein Auto vier Reifen hat. Oder das Milch weiß und flüssig ist. Für einen Menschen sind dies die “logischsten” Dinge der Welt, Milch kann doch gar nicht grün oder blau sein – für einen Computer allerdings ist das nicht klar. Wie bringt man dem Computer also solche “Banalitäten” bei? Klar, wieder durch ein Spiel:

Verbosity

Verbosity baut wie seine Vorgänger auch auf das Zwei-Spieler Prinzip auf: Spieler 1 ist der “Beschreiber”, Spieler 2 der “Ratende”.

Spieler Eins bekommt als Wort z.B. Milch, und dazu bekommt er verschiedene Beispielsätze, die er vollenden muss, z.B.:

Es ist normalerweise neben …….

Spieler Eins schreibt z.B. Cornflakes

Spieler 2 muss nun raten welches Wort Spieler 1 meint.

Kann es Spieler 2 noch nicht erraten, kann Spieler 1 weiter machen mit Beispielsätzen:

Es ist …….

Spieler 1 kann den Satz jetzt mit “weis” oder “flüssig” vollenden, und das macht er so lange weiter bis die Beispielsätze ein Ende haben, die Zeit abläuft oder einfach Spieler 2 das richtige Wort errät. Wird das Wort erraten gibt es Punkte für beide Spieler, und die Rollen vertauschen sich für die nächste Runde. Spieler 1 ist also jetzt der Ratende.

 

Der ganze Text ist im Grunde eine Zusammenfassung des Google TechTalks von 2006, an dem Luis van Ahn unter dem Titel “Human Computing” referiert und diese Ideen und Spiele vorstellt. Den ganzen Vortrag, welcher durch viel Humor aufgelockert wird, kann man sich hier bei Youtube ansehen.

Die vorgestellten Spiele sind alle unter http://www.gwap.com zu finden. GWAP steht für Games with a purpous – sinnvolle Spiele also.

Ähnliche Beiträge:

  1. Das Facebook Secret
  2. Exchange 2010 – Die ersten Eindrücke
  3. Umstieg von Google’s Picasa zu Microsoft’s Skydrive
  4. Profilbilder für Outlook 2010 und (wahrscheinlich) OCS 2010 im Active Directory speichern
  5. Exchange Thumbnail Photo Manager
Dieser Eintrag wurde veröffentlicht in Bunte IT-Welt, Hösl und getaggt als , , , , , , , , , , . Fügen Sie den permalink zu Ihren Favoriten hinzu.

Kommentare sind geschlossen.