Notice: Unexpected clearActionName after getActionName already called in /var/www/html/includes/context/RequestContext.php on line 338
Sitemaps-Protokoll – Wikipedia Zum Inhalt springen

Sitemaps-Protokoll

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Sitemaps)

{{#if: behandelt das standardisierte XML-Format; zur hierarchischen Repräsentation einer Website siehe Sitemap.

 | Vorlage:Hinweisbaustein 
 | {{#ifeq: 0 | 0 |}}

}}

Das Sitemaps-Protokoll ermöglicht einem Webmaster, Suchmaschinen über Seiten seiner Website zu informieren, die von dieser ausgelesen werden sollen. Der Standard wurde am 16. November 2006 von Google, Yahoo und Microsoft beschlossen. Es handelt sich um einen auf XML basierenden Standard.

Ziel des Sitemaps-Protokolls ist eine verbesserte Indexierung von Webseiten.

Geschichte

Das Sitemaps-Protokoll basiert auf der Idee von Webcrawler-freundlichen Webservern.<ref>M. L. Nelson, J. A. Smith, del Campo, H. Van de Sompel, X. Liu: Efficient, Automated Web Resource Harvesting. 2006 (<templatestyles src="Webarchiv/styles.css" />{{#if:20171201043016

      | {{#ifeq: 20171201043016 | *
    | Vorlage:Webarchiv/Wartung/Stern{{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }} (Archivversionen)
    | {{#iferror: {{#time: j. F Y|20171201043016}}
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/DatumDer Wert des Parameters {{#if: wayback | wayback | Datum }} muss ein gültiger Zeitstempel der Form YYYYMMDDHHMMSS sein!
         | {{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2024-05-11 07:49:56 InternetArchiveBot | 2024-05-11 07:49:56 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y|20171201043016}} im Internet Archive{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
      }}
  }}
      | {{#if:
          | {{#iferror: {{#time: j. F Y|{{{webciteID}}}}}
    | {{#switch: {{#invoke:Str|len|{{{webciteID}}}}}
       | 16= {{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2024-05-11 07:49:56 InternetArchiveBot | 2024-05-11 07:49:56 InternetArchiveBot |  }} |  des Vorlage:Referrer }} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{{webciteID}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | 9 = {{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }} {{#ifeq:  | [] | [ | ( }}Memento{{#if: {{#if: 2024-05-11 07:49:56 InternetArchiveBot | 2024-05-11 07:49:56 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y| 19700101000000 + {{#expr: floor {{#expr: {{#invoke:Str|sub|{{#invoke:Expr|base62|{{{webciteID}}}}}|1|10}}/86400}} }} days}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
       | #default= Der Wert des Parameters {{#if: webciteID | webciteID | ID }} muss entweder ein Zeitstempel der Form YYYYMMDDHHMMSS oder ein Schüsselwert mit 9 Zeichen oder eine 16-stellige Zahl sein!Vorlage:Webarchiv/Wartung/webcitation{{#if:  || }}
      }}
    | c|{{{webciteID}}}}} {{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }} (Memento{{#if: {{#if: 2024-05-11 07:49:56 InternetArchiveBot | 2024-05-11 07:49:56 InternetArchiveBot |  }} |  des Vorlage:Referrer}} vom {{#time: j. F Y|{{{webciteID}}}}} auf WebCite{{#if:  | ;  }}{{#ifeq:  | [] | ] | ) }}
  }}
          | {{#if: 
              | Vorlage:Webarchiv/Today
              | {{#if:
                      | Vorlage:Webarchiv/Generisch
                      | {{#if: public.lanl.gov | {{#invoke:WLink|getEscapedTitle|public.lanl.gov}} | {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}} }}  
                 }}}}}}}}{{#if:2024-05-11 07:49:56 InternetArchiveBot
    | Vorlage:Webarchiv/archiv-bot
  }}{{#invoke:TemplatePar|check
     |all      = url=
     |opt      = text= wayback= webciteID= archive-is= archive-today= archiv-url= archiv-datum= ()= archiv-bot= format= original=
     |cat      = Wikipedia:Vorlagenfehler/Vorlage:Webarchiv
     |errNS    = 0
     |template = Vorlage:Webarchiv
     |format   = *
     |preview  = 1
  }}{{#ifexpr: {{#if:20171201043016|1|0}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}}{{#if:|+1}} <> 1
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Genau einer der Parameter 'wayback', 'webciteID', 'archive-today', 'archive-is' oder 'archiv-url' muss angegeben werden.|1}}
  }}{{#if: 
    | {{#switch: {{#invoke:Webarchiv|getdomain|{{{archiv-url}}}}}
        | web.archive.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von Internet Archive erkannt, bitte Parameter 'wayback' benutzen.|1}} 
        | webcitation.org = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von WebCite erkannt, bitte Parameter 'webciteID' benutzen.|1}} 
        | archive.today |archive.is |archive.ph |archive.fo |archive.li |archive.md |archive.vn = 
          {{#if:  || }}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Im Parameter 'archiv-url' wurde URL von archive.today erkannt, bitte Parameter 'archive-today' benutzen.|1}}
      }}{{#if: 
         | {{#iferror: {{#iferror:{{#invoke:Vorlage:FormatDate|Execute}}|}}
             | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Wert des Parameter 'archiv-datum' ist ungültig oder hat ein ungültiges Format.|1}}
          |  }} 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Pflichtparameter 'archiv-datum' wurde nicht angegeben.|1}}
      }}
    | {{#if: 
         | {{#if:  || }}Vorlage:Webarchiv/Wartung/Parameter{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Der Parameter 'archiv-datum' ist nur in Verbindung mit 'archiv-url' angebbar.|1}}
      }}
  }}{{#if:{{#invoke:URLutil|isHostPathResource|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf}}
    || {{#if:  || }}
  }}{{#if: public.lanl.gov
    | {{#if: {{#invoke:WLink|isBracketedLink|public.lanl.gov}}
        | {{#if:  || }}
      }}
    | {{#if:  || }}Vorlage:Webarchiv/Wartung/Linktext_fehlt
  }}{{#switch: 
    |addlarchives|addlpages= {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/Parameter}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: enWP-Wert im Parameter 'format'.|1}}
  }}{{#ifeq: {{#invoke:Str|find|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf%7Carchiv}} |-1
    || {{#ifeq: {{#invoke:Str|find|{{#invoke:Str|cropleft|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf%7C4}}%7Chttp}} |-1
         || {{#switch: {{#invoke:Webarchiv|getdomain|http://public.lanl.gov/herbertv/papers/f140-nelson.pdf }}
              | abendblatt.de | daserste.ndr.de | inarchive.com | webcitation.org = 
              | #default = {{#if:  || }}{{#if: 1 |Vorlage:Webarchiv/Wartung/URL}}{{#invoke:TemplUtl|failure| Fehler bei Vorlage:Webarchiv: Archiv-URL im Parameter 'url' anstatt URL der Originalquelle. Entferne den vor der Original-URL stehenden Mementobestandteil und setze den Archivierungszeitstempel in den Parameter 'wayback', 'webciteID', 'archive.today' oder 'archive-is' ein, sofern nicht bereits befüllt.|1}}
            }} 
       }}
  }} PDF)</ref><ref>O. Brandman, J. Cho, Héctor García-Molina, Narayanan Shivakumar: Crawler-friendly web servers. In: Proceedings of ACM SIGMETRICS Performance Evaluation Review. Band 28, Nr. 2, 2000.</ref>

Google veröffentlichte im Juni 2005 die Technologie Sitemaps 0.84.<ref>Google-Blog: Webmaster-friendly</ref> Mit dieser Technik konnten Webmaster eine Liste von Links auf ihre Seite veröffentlichen.

Im November 2006 machten MSN und Yahoo bekannt, dem Sitemaps-Protokoll zuzustimmen.<ref>googlepress.blogspot.de</ref> Die Revisionskennung wurde zu Sitemaps 0.90 verändert, aber das Protokoll blieb unverändert.

Im April 2007 schlossen sich Ask.com und IBM dem Standard an. Zur gleichen Zeit kündigten Google, Yahoo und Microsoft Unterstützung zur Erkennung von Sitemap-Dateien durch den Robots Exclusion Standard an.

XML-Sitemap-Format

{{#if:| {{#if:| {{#if:| {{#if:application/xml, text/xml| {{#if:| {{#if:| {{#if:| {{#ifeq: | KEINE_ANGABE || {{#if: | {{#if:| {{#if:| {{#if:| {{#if:XML| {{#if:| {{#if:sitemaps.org| {{#if: |
{{#if: Sitemaps-Datei | Sitemaps-Datei | {{#invoke:WLink|getArticleBase}} }}

}}

}}

{{#ifexist:Media:|[[Datei:|270px|]]|

{{#ifeq:0|0|}} }} {{#if:|
}} }}

Dateiendung: {{#if: trim | .xml, .gz }} | keine}}
MIME-Type: application/xml, text/xml

}}

Magische Zahl: hex

}} {{#if:| () }} }}

Entwickelt von:

}}

Erstveröffentlichung: Execute}}|}} | }}

}}

Aktuelle Version
() }}
 {{#if: {{#invoke:Wikidata|claim|P348|P548|!Q3295609,Q51930650,Q2122918,Q21727724,Q1072356}} |
Aktuelle Version claim|P348|P548|!Q3295609,Q51930650,Q2122918,Q21727724,Q1072356|references=ja}} {{#if: {{#invoke:Wikidata|claim|P348|P548|!Q3295609,Q51930650,Q2122918,Q21727724,Q1072356|qualifier=P577}} |
({{#invoke:Wikidata|claim|P348|P548|!Q3295609,Q51930650,Q2122918,Q21727724,Q1072356|qualifier=P577}}) }}}}}}

}}

Art:

}}

Container für:

}}

Enthalten in:

}}

Erweitert von: XML

}}

Erweitert zu:

}}

Standard(s): sitemaps.org

}}

|

{{#if: {{#invoke:Wikidata|claim|P856}} |

{{#invoke:WLink|formatURL| {{#invoke:Wikidata|claim|P856|parameter=link}}}}

}} }}

{{#ifeq:0|0|

{{#if:| |}} {{#if:.xml, .gz | |}} {{#if:| |}} {{#if:| |}} {{#if:| |}} {{#if:application/xml, text/xml| |}} {{#if:|
}} {{#if:sitemaps.org| |}} {{#if:| |}} }}

{{#invoke:TemplatePar|check all= opt= Name= Icon= Logo= Screenshot= Beschreibung= Dateiendung= MIME= MIME-Anm= MagischeZahl= MagischeZahlNotation= MagischeZahlHex= Entwickler= Veröffentlicht= LetzteVersion= LetzteVersionDatum= Art= Container für= Enthalten in= Erweitert von= Erweitert zu= Standard= Website= format=@@@ 0 | Wikipedia:Vorlagenfehler/Vorlage:Infobox Dateiformat}} template=Vorlage:Infobox Dateiformat

}}

Sitemap-Dateien sind gewöhnliche Textdateien, die sich der Extensible Markup Language bedienen. Sitemap-Dateien müssen die Zeichenkodierung UTF-8 verwenden.

Alternativ zu der umfangreichen XML-Notation können Sitemap-Dateien auch gewöhnliche Textdateien sein, die lediglich eine Liste von URLs enthalten.

Zudem sieht der Standard vor, dass Sitemap-Dateien, egal welcher Form, auch gzip-komprimiert werden können.

Der Dateiname von Sitemap-Dateien ist, anders als bei robots.txt-Dateien, grundsätzlich irrelevant. Auch Dateiendungen spielen, selbst bei GZIP-Kompression, keine Rolle.

Beschränkungen

Sitemap-Dateien dürfen nach Protokoll im Gesamten nicht mehr als 50.000 URLs beinhalten und höchstens 50 MB (52,428,800 Bytes) umfassen. Bei Verwendung von komprimierten Sitemap-Dateien darf die nicht komprimierte Sitemap-Datei ebenfalls nicht größer als 50 MB sein. Diese Beschränkung kann umgangen werden, indem mehrere Sitemap-Dateien verwendet werden, zu der man eine „Haupt“-Sitemap anlegt, die auf maximal 50.000 Sitemaps verweist.<ref>sitemaps.org</ref> Auf diese Weise sind theoretisch 50.000 × 50.000 = 2.500.000.000 (2,5 Milliarden) URLs beschreibbar.

Beispiele

<syntaxhighlight lang="xml"> <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9"

xmlns:xsi="https://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="https://www.sitemaps.org/schemas/sitemap/0.9 https://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
 <loc>http://example.com/</loc>
 <lastmod>2006-11-18</lastmod>
 <changefreq>daily</changefreq>
 <priority>0.8</priority>
</url>

</urlset> </syntaxhighlight>

<syntaxhighlight lang="xml">

http://example.com/seite1.html
http://example.com/verzeichnis/seite2.html
http://example.com/bild3.png

</syntaxhighlight>

Einsendung von Sitemaps-Dateien bei Suchmaschinen

Anders als robots.txt-Dateien werden Sitemaps-Dateien nicht zwangsläufig an einem besonderen Ort auf der Webpräsenz veröffentlicht, sondern einer beliebigen Suchmaschine direkt zugesendet (in einer einem Pingback ähnlichen Methode). Diese gibt daraufhin Statusausgaben bzw. Fehler beim Verarbeiten der Sitemaps-Datei zurück. Die bei dieser Einsendung übergebenen Daten, d. h., die Anfragemaske und das Ausgabeformat hängen stark von der verwendeten Suchmaschinen ab, der Sitemaps-Standard macht darüber keine Aussage.

Alternativ kann die Adresse einer Sitemap-Datei auch in die robots.txt aufgenommen werden, indem man an beliebiger Position die Zeile

<syntaxhighlight lang="xml">

Sitemap: sitemap_url

</syntaxhighlight>

einfügt, wobei sitemap_url die komplette URL zu der Sitemap darstellt (z. B. http://www.example.org/sitemap.xml). Diese Information wird unabhängig von dem User-Agent-Kontext ausgewertet, daher spielt die Position der Zeile keine Rolle. Verfügt eine Webpräsenz über mehrere Sitemaps, dann sollte diese URL zur Haupt-Sitemap-Datei verweisen.

Die Inhalte einer Sitemap sind nicht mit Befehlen zu verwechseln. Sie geben einem Webcrawler lediglich Empfehlungen, wie eine Website am effizientesten zu indexieren ist. Ob oder in welchem Umfang diese tatsächlich umgesetzt werden, lässt sich mit Sitemaps nicht verbindlich festlegen.

Weblinks

Einzelnachweise

<references />