m (→robots.txt) |
m (→robots.txt) |
||
Line 28: | Line 28: | ||
Durch eine Datei mit dem Namen "robots.txt", die im Wurzelverzeichnis des Webservers ''(root)'' liegt, kann "freundlichen" Suchmaschinen-Bots ''(Bots, Robots, Crawler oder Indexer)'' mitgeteilt werden, ob und welche Inhalte indiziert werden dürfen. | Durch eine Datei mit dem Namen "robots.txt", die im Wurzelverzeichnis des Webservers ''(root)'' liegt, kann "freundlichen" Suchmaschinen-Bots ''(Bots, Robots, Crawler oder Indexer)'' mitgeteilt werden, ob und welche Inhalte indiziert werden dürfen. | ||
Dem Beispiel ist anzumerken: Das stellt natürlich keine sicherheitsrelevante Einstellung dar, im Gegenteil können hiermit "unfreundliche" Bots erst auf "interessante" Verzeichnisse aufmerksam werden! Ernsthafte Sicherheit bietet z.B. Zugriffskontrolle via <tt>.htaccess</tt>. | Dem Beispiel ist anzumerken: Das stellt natürlich keine sicherheitsrelevante Einstellung dar, im Gegenteil können hiermit "unfreundliche" Bots erst auf "interessante" Verzeichnisse aufmerksam werden! Ernsthafte Sicherheit bietet z.B. Zugriffskontrolle via <tt>[http://www.uni-weimar.de/cms/universitaet/zentrale-einrichtungen/servicezentrum-fuer-computersysteme-und-kommunikation/hinweise/htaccess.html .htaccess]</tt>. | ||
<source lang="perl"> | <source lang="perl"> |
Revision as of 21:03, 14 April 2010
META-Angaben
Durch <meta> Angaben im Header können nicht sichtbare, übergeordnete Informationen mitgeteilt werden, die von Suchmaschinen verarbeitet werden. Damit kann u.a. das Ranking verbessert werden.
<html>
<head>
<title>24 Meta-Angaben</title>
<meta http-equiv="content-type" content="text/html; charset=UTF8" />
<meta http-equiv="refresh" content="5; URL=http://www.uni-weimar.de" />
<meta name="author" content="Fritzchen Müller" />
<meta name="description" content="Meta-Angaben im HTML-Header enthalten Informationen für Suchmaschinen-Indizierer..."/>
<meta name="keywords" lang="de" content="html, meta, tag, schlüsselwort, autmatische, indizierer, ..." />
<meta name="keywords" lang="en" content="html, meta, tag, keywords, crawler, robots, ..." />
<meta name="language" content="de" />
<!-- weglassen des Folgenden bedeutet <meta name="robots" content="all" />, siehe auch robots.txt -->
<meta name="robots" content="noindex,nofollow" />
</head>
<body>
... Seiteninhalt …
</body>
</html>
robots.txt
Durch eine Datei mit dem Namen "robots.txt", die im Wurzelverzeichnis des Webservers (root) liegt, kann "freundlichen" Suchmaschinen-Bots (Bots, Robots, Crawler oder Indexer) mitgeteilt werden, ob und welche Inhalte indiziert werden dürfen.
Dem Beispiel ist anzumerken: Das stellt natürlich keine sicherheitsrelevante Einstellung dar, im Gegenteil können hiermit "unfreundliche" Bots erst auf "interessante" Verzeichnisse aufmerksam werden! Ernsthafte Sicherheit bietet z.B. Zugriffskontrolle via .htaccess.
# Dateiname: robots.txt
User-agent: *
Disallow: /privatepics
Disallow: /bankkonto/summen.txt
Allow: /index.php
Siehe auch: Robots Exclusion Standard (Wikipedia)
Diese Seite ist Teil der Werkmodule Grundlagen der Webprogrammierung und WebApps - Grundlagen Webprogrammierung von Michael Markert für Interface Design / Fakultät Medien an der Bauhaus-Universität Weimar.