Zum Inhalt

Dokumente

Diese Seite beschreibt, wie Sie die Wissensbasis eines Chatbots pflegen — also wie Dokumente in kora landen und der Chatbot später auf Endnutzer-Fragen damit antworten kann.

Wissensbasis-Konzept

Jeder Chatbot hat eine eigene Wissensbasis (oder teilt sich eine mandantenweite, wenn Ihre Lizenz das zulässt — siehe Chatbots verwalten). Die Wissensbasis besteht aus Quellen — Dokumente, die Sie hochladen oder über andere Konnektoren anbinden. kora zerlegt jede Quelle in semantische Chunks, erzeugt Vektor-Repräsentationen und macht sie für die Such-Pipeline nutzbar.

Eine Antwort des Chatbots stützt sich immer auf konkrete Chunks aus den hinterlegten Quellen — die Quellen-Verweise unter jeder Antwort zeigen Endnutzern, woher die Information stammt.

Dokument hochladen

Der Upload erfolgt pro Chatbot auf dessen Detail-Seite.

Voraussetzungen

Bevor Sie ein Dokument hochladen, prüfen Sie:

  • Dateiformat: unterstützt sind aktuell PDF, Markdown, Klartext (TXT) und Word (DOCX)
  • Datei-Größe: maximal 50 MB pro Datei
  • Inhalt: die Datei sollte ein konkretes Thema gut abdecken; sehr lange Misch-Dokumente (200+ Seiten) liefern oft schlechtere Antworten als mehrere fokussierte kleinere Dokumente
  • Datenschutz: in Dokumente, die in die Wissensbasis kommen, gehören keine personen­bezogenen Daten im Sinne der DSGVO, außer Sie haben die Rechtsgrundlage dafür eindeutig geklärt

Schritt für Schritt

  1. Chatbot öffnen — im Hauptmenü Chatbots, dann den gewünschten Chatbot anklicken
  2. Abschnitt „Wissensquellen" — etwa in der Mitte der Detail-Seite
  3. „+ Dokument hochladen" klicken — es öffnet sich ein Dialog
  4. Datei auswählen — entweder über den Datei-Picker oder per Drag-and-Drop auf das Drop-Feld
  5. Validierung lesen — kora prüft Dateityp und Größe sofort; bei Fehlern erscheint eine deutliche Meldung (siehe Fehler-Cases weiter unten)
  6. „Hochladen" klicken — die Datei wird übertragen, der Fortschritts-Balken zeigt den Upload-Status
  7. Indexierung abwarten — nach dem Upload läuft die Verarbeitung im Hintergrund: Konvertierung, Chunking, Embedding, Schreiben in die Vektor-Sammlung. Bei einer mittel- großen PDF dauert das wenige Sekunden bis maximal eine Minute
  8. Erfolg prüfen — bei erfolgreicher Indexierung zeigt kora die Anzahl der erzeugten Chunks an

Wenn Sie ein weiteres Dokument hochladen möchten, können Sie aus dem Erfolgs-Dialog direkt zum nächsten Upload springen.

Fehler-Cases und was sie bedeuten

Die häufigsten Stolpersteine und ihre Bedeutung:

  • „Datei zu groß (max 50 MB)" — splitten Sie das Dokument (z. B. in Kapitel), oder reduzieren Sie eingebettete Bilder. PDFs mit hochauflösenden Scans sind oft 10× größer als nötig
  • „Dateityp nicht unterstützt" — konvertieren Sie das Dokument ins nächste passende Format. Word-Dokumente als .doc (altes Format) bitte als .docx speichern; HTML-Seiten als Markdown exportieren
  • „Datei leer" — die hochgeladene Datei hat 0 Byte, oft durch einen abgebrochenen Speicher-Vorgang vor dem Upload
  • „Netzwerk-Fehler" — der Upload wurde unterbrochen; einfach erneut versuchen. Bei wiederholten Fehlern bitte die Internet-Verbindung prüfen
  • „Indexierung fehlgeschlagen" — der Upload selbst war erfolgreich, aber die nachgelagerte Verarbeitung ist gescheitert. Häufige Ursachen sind kaputte PDFs (Datei lässt sich auch außerhalb von kora nicht öffnen) oder leere Inhalte (z. B. eine PDF, die nur aus Bildern ohne Texterkennung besteht). Wenn die Datei lokal lesbar ist und der Fehler bleibt, wenden Sie sich an den Support

Dokument prüfen

Nach erfolgreicher Indexierung empfehlen wir, das Dokument schnell durch ein paar Test-Fragen zu validieren:

  • Stellen Sie 2–3 Fragen, deren Antwort eindeutig im Dokument stehen — antwortet der Chatbot korrekt und verweist auf die richtige Stelle?
  • Stellen Sie eine bewusst falsche Frage zum Dokument — der Chatbot sollte ehrlich sagen, dass er nichts dazu findet, statt zu raten
  • Wenn der Quellen-Verweis ein anderes Dokument zeigt, prüfen Sie, ob die Fragen-Formulierung unscharf ist oder ob die anderen Dokumente die gleiche Information ähnlich enthalten

Best Practices für gute Wissensbasen

  • Kleine fokussierte Dokumente — ein klar abgegrenztes Thema pro Datei führt zu präziseren Antworten als eine 300-Seiten- PDF mit allem
  • Klare Struktur — Überschriften, Listen und kurze Absätze helfen dem Chunking-Schritt, sinnvolle Einheiten zu bilden
  • Aktualität pflegen — wenn sich Inhalte ändern, neue Version hochladen und veraltete Quellen aus der Basis entfernen lassen
  • Eindeutige Datei-Namen — der Datei-Name taucht im Quellen- Verweis auf; „rezeption-faq.pdf" hilft Endnutzern mehr als „dokument-3-final-v2.pdf"
  • Keine doppelten Inhalte — wenn zwei Dokumente das Gleiche sagen, kann der Chatbot bei Anfragen schwanken, welche Quelle er nennt

In Planung

Die folgenden Aktionen sind über die API verfügbar, im Tenant-UI aber noch nicht abgebildet — sie werden in Folgekarten ergänzt:

  • Quellen-Liste — alle hochgeladenen Dokumente pro Chatbot auf einen Blick sehen
  • Re-Indexierung — eine geänderte Datei aktualisieren, ohne den Chatbot neu anzulegen
  • Quelle entfernen — ein veraltetes Dokument aus der Wissensbasis löschen
  • Status pro Quelle — sehen, wann zuletzt indexiert wurde und ob es Fehler gibt

Wenn Sie aktuell eine dieser Aktionen brauchen, wenden Sie sich bitte an den Support Ihres Anbieters — das Backend kann das Nötige direkt durchführen.

Datenschutz beim Hochladen

Inhalte, die Sie hochladen, liegen technisch auf der kora-Instanz Ihres Anbieters. Beachten Sie:

  • Vertraulichkeit prüfen — laden Sie nichts hoch, was nicht in einer interneren Wissensbasis stehen darf
  • DSGVO — personenbezogene Daten gehören nicht ohne Rechtsgrundlage in eine Chatbot-Wissensbasis; auch Endnutzer sehen über Quellen-Verweise später Auszüge daraus
  • Vendor-Lock-in vermeiden — bewahren Sie die Original- Dokumente immer separat auf; kora ist ein Lese-Layer auf Ihre Wissensbasis, nicht das primäre Archiv

Bei Fragen: Support. Weitere Themen: Chatbots verwalten, Datenschutz für Endnutzer.