Crawler & Crawl Budget
Crawler sind Softwareprogramme, die – kurz gesagt – das Internet durchsuchen bzw. erfassen bzw. indexieren können. Sie analysieren dabei die Inhalte von vorgegebenen Seiten und greifen dabei auch auf die jeweils verlinkten Websites zu.
So arbeitet ein Crawler
Ein Webcrawler arbeitet in der Regel für eine Suchmaschine. Seine Aufgabe ist es, alle Inhalte einer Website (inklusive Folgeinhalte durch Links) zu erfassen. Durch diese Erfassung kann die Suchmaschine feststellen, inwiefern die Website für bestimmte Themenbereiche relevant ist. Der Crawler liest also die kompletten Inhalte aus und kann als Richter der Onpage SEO Optimierung gesehen werden. Wenn man beispielsweise eine Website mit einem Onlineshop betreibt, welche sich auf den Verkauf von Holzleisten konzentriert, dann stellt der Crawler im Idealfall fest, dass die Website ideal zu den Suchbegriffen „Holzleisten“, „Fußleisten“ oder „Hamburger Profil“ passt.
Ein Crawl Budget
Der zielführende Einsatz von Crawlern gestaltet sich auch heute noch als schwierig. Zwar sind die Crawler hochentwickelt und können die von ihnen besuchten Websites wirklich treffsicher einordnen, jedoch gibt es für verschiedene Probleme noch keine endgültigen Lösungen. Es können zum Beispiel immer nur Teile des Internets durchsucht werden. In den nahezu endlosen Weiten des Internets fällt es schwer, den Crawler nur in einem bestimmten Bereich einzusetzen. Das Crawl Budget soll festlegen, in welchem Ausmaß der Crawler seine Arbeit verrichtet. Das Budget kann einerseits an URLs gekoppelt sein. So könnte beispielsweise festgelegt werden, dass der Crawler lediglich ganz bestimmte Domains unter die Lupe nimmt. Ein Crawl Budget könnte auch zeitlicher Natur sein: Der Crawler wird auf einer Website gestartet und arbeitet sich nach und nach über Verlinkungen auch auf andere Websites vor – und beendet seine Arbeit nach dem vorher festgelegten Zeitfenster.
Learnings für die Onpage SEO
Um meine Inhalte möglichst vollumfänglich bei den Suchmaschinen hinterlegen zu können, muss meine Website für Crawler möglichst günstig geschaffen sein. Hilfreich ist hier eine leistungsfähige robots.txt-Datei, welche angelegt werden muss. Außerdem sollten sensible Bereiche gänzlich von einer Indizierung ausgeschlossen werden. Kopien oder Archive von Inhalten dagegen könnten von vornherein außen vor gelassen werden, um den Crawler nicht mit veraltetem oder unnötigem Material zu belasten. Eine möglichst logische Struktur und ein flacher Aufbau einer Website tragen dazu bei, dass Crawler gut arbeiten können. Eine hohe Anzahl an Backlinks sowie eine zielführende interne Verlinkung sorgen dafür, dass eine Website häufig unter den Radar von Crawlern gerät und somit gut abgedeckt werden kann.