Large Language Models

Eine LLMs.txt-Datei ist ein Webstandard, der speziell für große Sprachmodelle (Large Language Models, LLMs) entwickelt wurde. Sie unterscheidet sich in Funktion und Zielsetzung von der robots.txt-Datei und der XML-Sitemap.

Die LLMs.txt-Datei folgt dem Aufbau einer Markdown-basierten Textdatei, die im Wurzelverzeichnis (root directory) einer Website abgelegt wird. Ihr Ziel ist es, KI-Systemen wie LLMs eine strukturierte Übersicht über relevante Inhalte einer Website zu geben. Anders als robots.txt oder XML-Sitemaps, die primär für Suchmaschinen-Crawler gedacht sind, richtet sich LLMs.txt an KI-Modelle, um deren Verständnis und Verarbeitung von Webinhalten zu optimieren.

Den Ursprung haben LLMs.txt Dateien im IT-Labors Answer.AI. Jeremy Howard (Gründer) erkannte die Diskrepanz der Tokenlimitierung in allen Large Language Models und der damit verbundenen Einschränkung des Kontextfensters. Derzeit ist die komplette Verarbeitung großer Webinhalten und Dokumenten noch in LLMs nicht möglich. Die Selektion von für den Kontext sinnvollen und nicht zielführenden Daten kann von den KI-Systemen nicht eigenständig vorgenommen werden. In der Praxis werden für die KI nutzlose Elemente, wie Skripte, HTML-Stile, Navigation usw. mit verarbeitet. Durch die LLMs.txt Datei können Webdeveloper ausschließlich relevante Inhalte definieren und der maschinellen Analyse zuführen.

Es existieren derzeit zwei Dokumentformen:

/llms.txt: Es handelt sich um eine kompakte, vereinfachte Zusammenstellung aller Websitedaten.

/llms-full.txt – Dieses Dokument enthält vollständige Informationen über den gesamten Content der Webressource und wird vor allem bei umfangreichen Websites verwendet.

Zielgruppe der LLMs.txt:

LLMs.txt Dokumente werden von verschiedenen Systemen genutzt, die auf große Sprachmodelle (LLMs) angewiesen sind. Diese Systeme nutzen die LLMs.txt Dateien, um die Interaktion mit Websites zu verbessern und die Verarbeitung von Webinhalten zu optimieren. Hier sind einige Beispiele für Systeme, die LLMs.txt Dokumente nutzen:

  • ChatGPT: Nutzt LLMs.txt Dateien, um die Inhalte von Websites besser zu verstehen und zu verarbeiten. Benutzer müssen den Inhalt der Datei manuell in die Chat-Plattform einfügen.
  • Claude: Kann LLMs.txt Dateien nicht direkt im Web abrufen, daher müssen die Inhalte der Datei in die Plattform kopiert oder hochgeladen werden.
  • Anthropic: Hat LLMs.txt Unterstützung in ihre Dokumentation integriert, um die Interaktion mit LLMs zu verbessern.
  • Mintlify: Hat die Verbreitung von LLMs.txt durch die Integration in ihre Dokumentationsplattform gefördert.
  • CrewAI: Nutzt LLMs.txt für ihre Dokumentation, um die Verarbeitung durch LLMs zu erleichtern.

Diese Systeme profitieren von LLMs.txt, da sie so komplexe Webinhalte effizienter verarbeiten können, ohne sich mit HTML-Parsing oder JavaScript-Code auseinandersetzen zu müssen

Struktur der LLMs.txt Datei

Die Struktur einer LLMs.txt Datei folgt einem logischen, klaren Aufbau und ist wie folgt aufgebaut:

1. H1 Titel:

  • Beginne die Datei mit einem H1 (#) Titel, der den Namen des Projekts oder der Website enthält.

2. Zusammenfassung:

  • Füge eine blockquote (>)-Formatierte Zusammenfassung hinzu, die eine kurze Beschreibung der Website oder des Projekts bietet.

3. H2 Abschnitte:

  • Organisiere den Inhalt in H2 (##) Abschnitte, die jeweils eine klare Überschrift tragen (z.B. "Core Documentation", "Product Catalog", "User Manual").

4. Linklisten:

  • In jedem Abschnitt füge eine Liste mit Markdown-Links hinzu, die auf relevante Ressourcen verweisen. Jeder Link sollte eine kurze Beschreibung enthalten, um den Kontext zu erläutern:

  ```

  [Ressourcenname](URL): Kurze Beschreibung

  ```

5. Optionale Abschnitte:

  • Wenn nötig, füge einen Abschnitt für weniger kritische Ressourcen hinzu, um die Datei kompakt zu halten.

6. Formatierung:

  • Verwende durchgängig Markdown-Formatierung, um die Lesbarkeit für Menschen und Maschinen zu gewährleisten.

7. Platzierung:

  • Speichere die Datei im Root-Verzeichnis der Website unter `/llms.txt`.

Hier ist ein Beispiel für die Struktur:

```markdown

# Projektname

> Kurze Zusammenfassung des Projekts.

## Core Documentation

- [Quick Start](url): Beschreibung des Ressourcens.

- [API Reference](url): Details zur API-Dokumentation.

## Optional

- [Zusätzliche Ressourcen](url): Ergänzende Informationen.

```

LLMs.txt in der SEO und GEO

Insgesamt unterstützt LLMs.txt die Zukunft der Suchmaschinenoptimierung, indem es AI-Systemen hilft, relevante Inhalte effizienter zu verarbeiten, während robots.txt und sitemap.xml weiterhin für traditionelle SEO-Zwecke verwendet werden.

Klassische SEO & LLMs.txt

In der klassischen Suchmaschinenoptimierung spielt LLMs.txt keine direkte Rolle, da es sich auf die Interaktion mit großen Sprachmodellen (LLMs) konzentriert. Traditionelle SEO-Tools wie robots.txt und sitemap.xml sind weiterhin entscheidend:

  • Robots.txt: Steuert den Zugriff von Suchmaschinen-Crawlern und bestimmt, welche Bereiche einer Website indexiert werden dürfen.
  • Sitemap.xml: Listet alle indexierbaren Seiten auf, um Suchmaschinen das Crawling zu erleichtern.

Generative Engine Optimierung (GEO)

In der Generativen Engine Optimierung (GEO) gewinnt LLMs.txt an Bedeutung. Es dient als strukturierte Übersicht der wichtigsten Inhalte einer Website, die speziell für LLMs optimiert ist. Dies hilft, die Effizienz der Inhaltsverarbeitung durch LLMs zu verbessern und die Sichtbarkeit in AI-generierten Ergebnissen zu erhöhen.

  • Vorteile: LLMs.txt ermöglicht es, relevante Inhalte effizienter zu präsentieren und unnötige Informationen wie HTML-Fragmente oder JavaScript auszuschließen, was die Verarbeitung durch LLMs erleichtert.
  • Zusammenarbeit mit traditionellen Tools: Während robots.txt und sitemap.xml weiterhin für Suchmaschinenoptimierung verwendet werden, ergänzt LLMs.txt diese durch eine spezifische Optimierung für AI-Systeme.