Keine Frage – Bücher waren und sind nach wie vor eine äußerst wichtige Informationsquelle. Nicht ohne Grund begeben sich viele Studenten in Bibliotheken, wenn sie für ihr Studium lernen. Bücher können also nicht vollkommen ersetzt werden, wenn es um Recherchen und Informationsfindung geht, doch sie können gut durch die Nutzung des Internets ergänzt werden. Zumal viele in Büchern enthaltene Informationen inzwischen auch im Internet aufzufinden sind.
Um jedoch genau das zu finden, wonach man sucht, ist es wichtig, die richtigen Begriffe in die Suchmaschine einzugeben. Denn basierend auf den Begriffen, die Internetznutzer in die Suchmaschine eingeben, kann diese dann die entsprechenden Informationen bereitstellen.
Für diese Zwecke kommt das sogenannte „Information Retrieval System“ zu Einsatz. Nur dank dieses Systems kann aus der Vielfalt der Daten im Internet genau das Gefunden werden, wonach gesucht wird. Ergebnisse werden dann in einem Pagerank angezeigt, wobei die ersten Ergebnisse die sind, von denen die Suchmaschine denkt, dass sie am besten auf die Anfrage passen. Die Frage, die sich in diesem Zusammenhang stellt, ist die Frage danach, wie diese „Information Retrieval Systeme“ genau funktionieren und, was Mathematik mit ihnen zu tun hat.
Wenngleich Schüler gerne oft lautstark verkünden, dass sie viele mathematische Dinge, die sie in der Schule behandeln, im Alltag gar nicht brauchen werden, sind sie von genau diesen mathematischen Konzepten umgeben – vor allem dann, wenn sie das Internet und Suchmaschinen nutzen.
Was ist ein Information Retrieval System überhaupt?
Bevor nun genauer darauf eingegangen wird, was Mathematik mit Suchmaschinen zu tun hat, ist es interessant, die Frage zu klären, worum es sich bei einem „Information Retrieval System“ handelt.
Es handelt sich hierbei um ein System, das aus der großen Datenmenge, die im Internet zur Verfügung steht, genau die Informationen filtert, die für die zuvor getätigte Anfrage relevant sind.
Dabei gibt es unterschiedliche Kategorien, die für diese Systeme eine wichtige Rolle spielen:
Textbasierte Systeme | Suchen und Analysieren von Daten in Textform |
Multimedia-Information-Systeme | Suchen und Analysieren von Daten in Textform, sowie auch multimediale Inhalte, zu welchen unter anderem die Folgenden gehören:
· Bilder · Videos · Audiodateien |
Web-Suchmaschinen | Suchen von Daten, die im World Wide Web zur Verfügung stehen |
Die meisten Menschen nutzen täglich Suchmaschinen und profitieren somit unter anderem von der Mathematik, die hinter den „Information Retrieval Systemen“ steckt. Ganz egal, wonach Internetsucher in einer Suchmaschine suchen – die „Information Retrieval Systeme“ stellen mit ihrer Funktionsweise sicher, dass genau die Ergebnisse angezeigt werden, die zu der Suchanfrage passen.
Was hat Mathe mit Information Retrieval zu tun?
Zwar könnte man im ersten Moment denken, dass die Suchmaschine einfach nach dem Text, der zuvor in die Suchmaschine eingegeben wurde, sucht und anschließend die passenden Ergebnisse anzeigt. In Wahrheit steckt jedoch deutlich mehr hinter den „Information Retrieval Systemen“.
Die Grundlage für diese Systeme ist in diesem Fall – wie bereits angedeutet – die Mathematik. Internetnutzer wenden in diesem Fall zwar nicht direkt mathematische Grundlagen an, doch sie profitieren von ihnen.
Mathematische Modelle stellen diesbezüglich sicher, dass die Suchmaschine:
- die Suchanfrage richtig interpretiert.
- die passenden Dokumente aus den großen Datenbeständen filtert und anzeigt.
Da es nicht nur eine Art der „Information Retrieval Systeme“ gibt, gibt es auch nicht nur ein mathematisches Modell, das hierfür zum Einsatz kommt. Vielmehr gibt es eine Vielfalt an Modellen, die für unterschiedliche Ausführungen der „Information Retrieval Systeme“ ihren Einsatz finden.
Suchmaschinen und Algebra
Algebra – für viele Schüler ein Wort, das sofort für Angst, Schrecken und Schweißausbrüche sorgt. Doch Algebra ist eine sehr wichtige Grundlage für Suchmaschinen, um Informationen zu filtern. Das Stichwort ist in diesem Fall „Logik“. Entweder erfüllt ein Dokument aus der großen Datenbank eine Bedingung, oder es erfüllt sie nicht.
Suchmaschinen konzentrieren sich in diesem Fall vor allem auf Stichwörter wie:
- Und
- Oder
- Nicht
- etc.
Sprich: Die Suchmaschine trifft in diesem Fall eine „Ja-oder-Nein“-Entscheidung. Entweder ein Dokument erfüllt die Bedingungen der Suchanfrage oder es erfüllt sich nicht und wird somit auch nicht angezeigt. Aus diesem Grund ist es auch immer gut zu wissen, wie man genau in einer Suchmaschine nach Dingen sucht, um so die Ergebnisse zu bekommen, nach denen man sucht.
Die Suchmaschinen und die Vektoren
Ach ja die lieben Vektoren – wer hätte gedacht, dass sich auch bei Suchanfragen im Internet zum Einsatz kommen? Wenn „Information Retrieval Systeme“ mit Vektorräumen arbeiten, dann bedeutet das, dass sie keine „Ja-oder-Nein“-Entscheidungen treffen, sondern sich stattdessen auf die Relevanz konzentrieren. Sprich: Wie nahe liegt das Dokument mit seinen Informationen an der Suchanfrage? Ausschlaggebend für die Relevanz sind dabei unter anderem die Keywords, die in der Suchanfrage verwendet werden und in den Dokumenten vorkommen. Je mehr Worte übereinstimmen, umso relevanter ist das Dokument, weshalb es dann auch in den Ergebnissen angezeigt wird.
Stellt man sich die Suchanfrage als großen Punkt in einem Raum und die ganzen Informationen aus der Datenbank des Internets als kleinere Punkte vor, dann sind die Dokumente, die die geringste Entfernung zu der Suchanfrage aufweisen die Dokumente mit der größten Relevanz. Mathematisch gesehen arbeitet die Suchmaschine in diesem Fall mit Vektoren. Durch das Messen des Winkels kann bestimmt werden, wie groß er ist. Je kleiner der Winkel ist, umso besser passen die Dokumente zu der Suchanfrage.
Die Suchmaschine, die Wahrscheinlichkeitsrechnung und Statistik
Wer erinnert sich nicht an die Wahrscheinlichkeitsrechnung im Matheunterricht? Wer hätte gedacht, dass sie auch bei Suchmaschinen im Internet zum Einsatz kommt und sicherstellen kann, dass man genau die Informationen bekommt, nach denen man sucht?
Basiert ein „Information Retrieval System“ auf der Wahrscheinlichkeitsrechnung wird in diesem Fall berechnet, wie hoch die Wahrscheinlichkeit ist, dass ein Dokument genau die Informationen enthält, die über die Suchmaschine gesucht wurden.
Um diese Wahrscheinlichkeit berechnen und die Dokumente anschließend filtern und in ein passendes Rankin setzen zu können, spielt unter anderem die Häufigkeit, mit der bestimmte Worte aus der Suchanfrage in den einzelnen Dokumenten vorkommen eine wichtige Rolle.
Suchmaschinen und erweiterte mathematische Modelle
Die bereits aufgezeigten mathematischen Modelle sind zwar durchaus sinnvoll, um Dokumente filtern zu können, doch um wirklich zuverlässige Ergebnisse zu erlangen, ist es wichtig, auch im Hinterkopf zu behalten, dass es durchaus einige Worte gibt, die zwar auf den ersten Blick unterschiedlich sind, auf den zweiten Blick jedoch dieselbe Bedeutung haben. Ein Beispiel hierfür ist:
- Fahrzeug
- Auto
Wenngleich nicht jedes Fahrzeug ein Auto ist, ist jedes Auto ein Fahrzeug. Um also sicherstellen zu können, dass auch Dokumente angezeigt werden, die an der Stelle des Wortes „Auto“ das Wort „Fahrzeug enthalten, nutzen viele Suchmaschinen „Information Retrieval Systeme“ die mit der „Semantik“ arbeiten. So kann festgestellt werden, bei welchen Worten und Informationen eine semantische Ähnlichkeit besteht. So wird die Suchanfrage und das anschließende Filtern der Daten noch genauer und feiner.
Wie man sieht, spielt die Mathematik, wenn es um Suchmaschinen geht, eine sehr große und wichtige Rolle. Denn ohne die mathematischen Modelle wäre es nicht möglich, Daten aus der großen Datenvielfalt des Internets zu filtern, zu analysieren und anschließend anzuzeigen.