Zum Inhalt springen

Web-Scraping-Tool

Die Gezondland-Wissensdatenbank enthält Artikel, die ursprünglich auf anderen Websites veröffentlicht wurden. Um diese Inhalte auf unsere Astro/Starlight-Plattform zu migrieren, haben wir ein spezielles Tool entwickelt, das Webseiten in saubere Markdown-Dateien umwandelt.

Das Web-Scraping-Tool ruft Artikel von externen Websites ab und konvertiert diese in Markdown mit dem richtigen Frontmatter für Starlight. Das Tool:

  • Erkennt automatisch das CMS der Quellwebsite
  • Extrahiert den Artikelinhalt ohne Navigation, Fußzeilen und Werbung
  • Behält alle Hyperlinks aus dem Originalartikel bei
  • Fügt Quellenangabe hinzu mit Link zum Original
  • Räumt technischen Müll auf, der von CMS-Systemen generiert wird

Das Tool erkennt und verarbeitet Inhalte von verschiedenen Website-Typen:

WordPress ist das meistgenutzte CMS der Welt. Das Tool prüft, ob eine Site die WordPress-REST-API verfügbar hat, und nutzt diese bevorzugt. Über die API erhalten wir Zugang zum Rohinhalt ohne Formatierungsartefakte.

Erkannte Sites: jeleefstijlalsmedicijn.nl, 2diabeat.nl und andere WordPress-Installationen mit offener API.

Erkennung: Das Tool sucht nach dem Standard-Endpoint /wp-json/wp/v2/ oder dem API-Link im HTML.

Drupal ist beliebt bei medizinischen und Regierungswebsites wegen der robusten Struktur. Das Tool erkennt Drupal an spezifischen CSS-Klassen und extrahiert Inhalte aus der Feldstruktur.

Erkannte Sites: thuisarts.nl (NHG)

Erkennung: Vorhandensein von field--name-body-Klassen und Drupal-spezifischem Markup.

Moderne Headless-CMS-Lösungen wie Storyblok verwenden oft SvelteKit als Frontend. Das Tool erkennt die charakteristischen HTML-Marker, die diese Frameworks verwenden.

Erkannte Sites: voedingleeft.nl

Erkennung: HTML_TAG_START- und HTML_TAG_END-Kommentarblöcke im Quellcode.

Für Websites, die nicht unter die obigen Kategorien fallen, hat das Tool Fallback-Strategien. Diese suchen nach häufigen Mustern wie <article>-Tags, .prose-Klassen oder .entry-content-Divs.

Jeder migrierte Artikel erhält automatisch eine Quellenangabe am Anfang des Inhalts. Dies ist ein Blockquote mit:

  • Quelle: Der Name der Website mit Link zum Originalartikel
  • Autor: Falls im Quellartikel verfügbar

Dies gewährleistet Transparenz über die Herkunft des Inhalts und respektiert das geistige Eigentum der ursprünglichen Autoren.

Alle Hyperlinks aus dem Originalartikel bleiben erhalten. Dies gilt für:

  • Interne Links innerhalb des Quellartikels
  • Externe Links zu wissenschaftlichen Quellen
  • Links zu verwandten Artikeln

Die Links werden nicht angepasst oder entfernt, sodass Leser Zugang zum vollständigen Kontext und den Quellen behalten.

Websites verwenden oft komplexe Formatierungssysteme, die “Müll” im HTML hinterlassen. Das Tool räumt dies automatisch auf:

  • Kadence-Block-Marker und Styling-Klassen
  • Info-Box-Komponenten und Link-Dekorationen
  • Gutenberg-Block-Attribute
  • Target- und rel-Attribute von Links (wie target="_blank")
  • Base64-kodierte Inline-Bilder
  • Video-Player-Interface-Elemente
  • Überflüssige Leerzeilen und Leerzeichen
  • Drupal-Entity-Attribute
  • Extended Markdown-Attribute wie {.button .primary} werden entfernt
  • Dies verhindert Parse-Fehler in Astros MDX-Verarbeitung

Das Tool generiert automatisch das erforderliche Frontmatter für Starlight:

  • title: Übernommen vom <title>-Tag oder Open Graph-Metadaten
  • description: Von der Meta-Description oder einem automatisch generierten Fallback

Dies stellt sicher, dass migrierte Artikel direkt kompatibel mit unserer Site sind, ohne manuelle Anpassungen.

Die Migration eines Artikels verläuft wie folgt:

  1. URL eingeben - Das Tool erhält die URL des zu migrierenden Artikels
  2. CMS-Erkennung - Automatische Erkennung der Plattform
  3. Inhaltsextraktion - Abrufen des Artikelinhalts über die beste verfügbare Methode
  4. HTML nach Markdown - Konvertierung über Pandoc zu sauberem Markdown
  5. Bereinigung - Entfernen von CMS-spezifischen Artefakten
  6. Frontmatter hinzufügen - Titel und Beschreibung aus Metadaten
  7. Quellenangabe einfügen - Automatische Attribution zur Originalquelle
  8. Speichern - Ausgabe als .mdx-Datei, bereit für die Wissensdatenbank

Neben Webseiten können auch PDF-Dokumente in Markdown konvertiert werden. Dies ist praktisch für Merkblätter, Anleitungen und andere Dokumente, die als PDF verfügbar sind.

  • Textbasierte PDFs (direkt kopierbare Text)
  • PDFs mit Tabellen und Listen
  • Mehrere Seiten
  1. PDF hochladen - Legen Sie die PDF in den Downloads-Ordner oder geben Sie den Pfad an
  2. Inhaltsextraktion - Die PDF-Skill liest den Textinhalt
  3. Struktur beibehalten - Überschriften, Listen und Absätze werden erkannt
  4. Markdown-Generierung - Ausgabe als .mdx mit korrektem Frontmatter
  5. Autoreninfo hinzufügen - Bei Merkblättern werden automatisch Autoreninformationen hinzugefügt

Nach dem Erstellen eines neuen Artikels wird er über Git veröffentlicht:

git add → git commit → git push → Live auf docs.gezondland.org

Die Site wird automatisch gebaut und deployed nach jedem Push zum master-Branch.

RubrikOrdner
Erkrankungensrc/content/docs/aandoeningen/
Loslegensrc/content/docs/aan-de-slag/
Ernährungsrc/content/docs/voeding/
Merkblätter Yvo Sijpkenssrc/content/docs/fiches-yvo-sijpkens/
Klassifikationsrc/content/docs/classificatie/

Die URL folgt der Ordnerstruktur: docs.gezondland.org/{rubrik}/{dateiname}/

Zum Beispiel: src/content/docs/fiches-yvo-sijpkens/pcos.mdx wird docs.gezondland.org/fiches-yvo-sijpkens/pcos/

Das Tool hat einige Einschränkungen:

  • Bilder werden nicht automatisch heruntergeladen. Diese müssen separat abgerufen und lokal gehostet werden.
  • Eingebettete Videos werden nicht übernommen. Nur der textuelle Inhalt wird extrahiert.
  • Dynamischer Inhalt, der über JavaScript geladen wird, ist nicht immer zugänglich.
  • Bezahlinhalt hinter einem Login kann nicht abgerufen werden.
  • Gescannte PDFs (Bilder von Text) erfordern OCR und werden nicht immer korrekt erkannt.

Das Tool ist als Claude Code Skill verfügbar und kann während einer Sitzung aufgerufen werden.

Geben Sie die URL des Artikels und die gewünschte Rubrik an. Das Tool bestimmt selbst die beste Extraktionsmethode.

Legen Sie die PDF in Downloads und geben Sie den Dateinamen und die Zielrubrik an. Das Tool liest die PDF und generiert eine Markdown-Datei.

Bei Fragen zur Migration spezifischer Inhalte oder Websites, die nicht korrekt erkannt werden, kann das Tool mit neuen Extraktionsmustern erweitert werden.

Medische Disclaimer: De informatie van Stichting Je Leefstijl Als Medicijn over leefstijl, ziektes en stoornissen mag niet worden opgevat als medisch advies. In geen geval adviseren wij mensen om hun bestaande behandeling te veranderen. We raden mensen met chronische aandoeningen aan om zich over hun behandeling goed door bevoegde medische professionals te laten adviseren.

Medical Disclaimer: The information provided by Stichting Je Leefstijl Als Medicijn regarding lifestyle, diseases, and disorders should not be construed as medical advice. Under no circumstances do we advise people to alter their existing treatment. We recommend that people with chronic conditions seek advice regarding their treatment from qualified medical professionals.