Bevor eine Suchmaschine einem Benutzer sagen kann, wo sich eine Datei oder ein Dokument befindet, muss es gefunden werden. Um Informationen zu Hunderten von Millionen von Webseiten zu finden, verwendet eine Suchmaschine spezielle Softwareroboter, sogenannte Crawler oder Bots, um Listen der auf Websites gefundenen Wörter zu erstellen. Dieser Prozess wird als Web-Crawling bezeichnet. Um eine nützliche Liste von Wörtern zu erstellen und zu pflegen, müssen sich die Crawler einer Suchmaschine viele Seiten anzuschauen.
Wörter, die in den Titeln, Untertiteln, Meta-Tags und anderen Positionen von relativer Bedeutung vorkommen, wurden bei einer nachfolgenden Benutzersuche besonders berücksichtigt. Andere Suchmaschinen verfolgen andere Ansätze. Sie achten zum Beispiel besonders auf die Wörter in Titeln, Überschriften oder Links sowie die 100 am häufigsten verwendeten Wörter auf der Seite. Unterschieden wird bei den Inhalten auch nach Texten, Bildern, Videos oder bestimmten Dateiformaten wie PDF. Wie beginnt der Bot seine Reise durch das Web? Die üblichen Ausgangspunkte sind stark genutzten Server und sehr beliebten Web-Seiten. Der Bot fängt mit einer beliebten Site an, indexiert die Wörter auf den Seiten und folgt jedem auf der Site gefundenen Link. Auf diese Weise beginnt sich der Bot schnell zu bewegen und breitet sich über alle Teile des Webs aus. Die Suchmaschinen verarbeiten und speichern Informationen, die sie finden, in einem Index, einer riesigen Datenbank mit allen gefundenen Inhalten, die sie für gut genug erachten, um den Suchenden zu dienen. Dieser Index wird Suchmaschinen-Index genannt.
Besitzer von Webseiten können für den Suchmaschinen-Crawler einen Teil der Seiten oder die gesamte Webseite sperren, so dass diese Seiten nicht im Suchmaschinen-Index gespeichert werden. Dafür mag es Gründe geben, aber wenn Besitzer von Webseiten wollen, dass Ihre Inhalte von Suchenden gefunden werden, sollten Sie sicherstellen, dass Sie für den Bot oder Crawler zugänglich und indexierbar sind. Ansonsten ist die Site so gut wie unsichtbar.