Strumento di Web Scraping
La base di conoscenza Gezondland contiene articoli originariamente pubblicati su altri siti web. Per migrare questo contenuto alla nostra piattaforma Astro/Starlight abbiamo sviluppato uno strumento speciale che converte le pagine web in file Markdown puliti.
Cosa fa lo strumento?
Sezione intitolata “Cosa fa lo strumento?”Lo strumento di web scraping recupera articoli da siti web esterni e li converte in Markdown con il frontmatter corretto per Starlight. Lo strumento:
- Rileva automaticamente il CMS del sito web di origine
- Estrae il contenuto dell’articolo senza navigazione, footer e pubblicita
- Conserva tutti i collegamenti ipertestuali dall’articolo originale
- Aggiunge l’attribuzione della fonte con link all’originale
- Pulisce il codice tecnico generato dai sistemi CMS
Piattaforme supportate
Sezione intitolata “Piattaforme supportate”Lo strumento riconosce ed elabora contenuti da diversi tipi di siti web:
Siti WordPress
Sezione intitolata “Siti WordPress”WordPress e il CMS piu utilizzato al mondo. Lo strumento rileva se un sito ha l’API REST di WordPress disponibile e la utilizza preferenzialmente. Tramite l’API otteniamo accesso al contenuto grezzo senza artefatti di formattazione.
Siti riconosciuti: jeleefstijlalsmedicijn.nl, 2diabeat.nl e altre installazioni WordPress con API aperta.
Riconoscimento: Lo strumento cerca l’endpoint standard /wp-json/wp/v2/ o il link API nell’HTML.
Siti Drupal
Sezione intitolata “Siti Drupal”Drupal e popolare presso siti web medici e governativi per la sua struttura robusta. Lo strumento riconosce Drupal dalle classi CSS specifiche ed estrae il contenuto dalla struttura dei campi.
Siti riconosciuti: thuisarts.nl (NHG)
Riconoscimento: Presenza di classi field--name-body e markup specifico di Drupal.
Siti Storyblok/SvelteKit
Sezione intitolata “Siti Storyblok/SvelteKit”Le soluzioni CMS headless moderne come Storyblok spesso utilizzano SvelteKit come frontend. Lo strumento riconosce i marcatori HTML caratteristici che questi framework utilizzano.
Siti riconosciuti: voedingleeft.nl
Riconoscimento: Blocchi di commento HTML_TAG_START e HTML_TAG_END nel codice sorgente.
HTML generico
Sezione intitolata “HTML generico”Per i siti web che non rientrano nelle categorie precedenti, lo strumento ha strategie di fallback. Queste cercano pattern comuni come tag <article>, classi .prose o div .entry-content.
Attribuzione automatica della fonte
Sezione intitolata “Attribuzione automatica della fonte”Ogni articolo migrato riceve automaticamente un’attribuzione della fonte in cima al contenuto. Questa e una citazione con:
- Fonte: Il nome del sito web con link all’articolo originale
- Autore: Se disponibile nella pagina di origine
Questo garantisce trasparenza sull’origine del contenuto e rispetta la proprieta intellettuale degli autori originali.
Conservazione dei link
Sezione intitolata “Conservazione dei link”Tutti i collegamenti ipertestuali dall’articolo originale vengono conservati. Questo vale per:
- Link interni all’interno dell’articolo di origine
- Link esterni a fonti scientifiche
- Link ad articoli correlati
I link non vengono modificati o rimossi, in modo che i lettori mantengano l’accesso al contesto completo e alle fonti.
Pulizia automatica
Sezione intitolata “Pulizia automatica”I siti web spesso utilizzano sistemi di formattazione complessi che lasciano “spazzatura” nell’HTML. Lo strumento pulisce automaticamente:
WordPress/Gutenberg
Sezione intitolata “WordPress/Gutenberg”- Marcatori e classi di stile dei blocchi Kadence
- Componenti info-box e decorazioni dei link
- Attributi dei blocchi Gutenberg
Pulizia generale
Sezione intitolata “Pulizia generale”- Attributi target e rel dei link (come
target="_blank") - Immagini inline codificate in Base64
- Elementi dell’interfaccia del player video
- Righe vuote e spazi in eccesso
- Attributi entity di Drupal
Compatibilita MDX
Sezione intitolata “Compatibilita MDX”- Attributi Markdown estesi come
{.button .primary}vengono rimossi - Questo previene errori di parsing nell’elaborazione MDX di Astro
Generazione del frontmatter
Sezione intitolata “Generazione del frontmatter”Lo strumento genera automaticamente il frontmatter obbligatorio per Starlight:
- title: Preso dal tag
<title>o dai metadati Open Graph - description: Dalla meta description, o un fallback generato automaticamente
Questo garantisce che gli articoli migrati siano immediatamente compatibili con il nostro sito senza modifiche manuali.
Flusso di lavoro
Sezione intitolata “Flusso di lavoro”La migrazione di un articolo procede come segue:
- Inserire URL - Lo strumento riceve l’URL dell’articolo da migrare
- Rilevamento CMS - Riconoscimento automatico della piattaforma
- Estrazione contenuto - Recupero del contenuto dell’articolo tramite il miglior metodo disponibile
- HTML in Markdown - Conversione tramite Pandoc in Markdown pulito
- Pulizia - Rimozione degli artefatti specifici del CMS
- Aggiunta frontmatter - Titolo e descrizione dai metadati
- Inserimento attribuzione fonte - Attribuzione automatica alla fonte originale
- Salvataggio - Output come file
.mdxpronto per la base di conoscenza
PDF in Markdown
Sezione intitolata “PDF in Markdown”Oltre alle pagine web, anche i documenti PDF possono essere convertiti in Markdown. Questo e utile per schede, manuali e altri documenti disponibili in PDF.
Tipi di PDF supportati
Sezione intitolata “Tipi di PDF supportati”- PDF basati su testo (testo direttamente copiabile)
- PDF con tabelle e liste
- Pagine multiple
Flusso di lavoro PDF
Sezione intitolata “Flusso di lavoro PDF”- Caricare PDF - Metti il PDF nella cartella Downloads o specifica il percorso
- Estrazione contenuto - La skill PDF legge il contenuto testuale
- Mantenimento struttura - Titoli, liste e paragrafi vengono riconosciuti
- Generazione Markdown - Output in
.mdxcon frontmatter corretto - Aggiunta info autore - Per le schede viene aggiunta automaticamente l’informazione sull’autore
Pubblicazione
Sezione intitolata “Pubblicazione”Dopo la creazione di un nuovo articolo, viene pubblicato tramite Git:
Deployment automatico
Sezione intitolata “Deployment automatico”git add → git commit → git push → Online su docs.gezondland.orgIl sito viene automaticamente costruito e deployato dopo ogni push al branch master.
Posizioni dei file
Sezione intitolata “Posizioni dei file”| Categoria | Cartella |
|---|---|
| Condizioni | src/content/docs/aandoeningen/ |
| Inizia | src/content/docs/aan-de-slag/ |
| Alimentazione | src/content/docs/voeding/ |
| Schede Yvo Sijpkens | src/content/docs/fiches-yvo-sijpkens/ |
| Classificazione | src/content/docs/classificatie/ |
Struttura URL
Sezione intitolata “Struttura URL”L’URL segue la struttura delle cartelle: docs.gezondland.org/{categoria}/{nome-file}/
Ad esempio: src/content/docs/fiches-yvo-sijpkens/pcos.mdx diventa docs.gezondland.org/fiches-yvo-sijpkens/pcos/
Limitazioni
Sezione intitolata “Limitazioni”Lo strumento ha alcune limitazioni:
- Immagini non vengono scaricate automaticamente. Devono essere recuperate separatamente e ospitate localmente.
- Video incorporati non vengono inclusi. Solo il contenuto testuale viene estratto.
- Contenuto dinamico caricato tramite JavaScript non e sempre accessibile.
- Contenuto a pagamento dietro un login non puo essere recuperato.
- PDF scansionati (immagini di testo) richiedono OCR e non sempre vengono riconosciuti correttamente.
Utilizzo
Sezione intitolata “Utilizzo”Lo strumento e disponibile come skill di Claude Code e puo essere invocato durante una sessione.
Migrare un articolo web
Sezione intitolata “Migrare un articolo web”Fornisci l’URL dell’articolo e la categoria desiderata. Lo strumento determina da solo il miglior metodo di estrazione.
Convertire PDF
Sezione intitolata “Convertire PDF”Metti il PDF in Downloads e fornisci il nome del file e la categoria di destinazione. Lo strumento legge il PDF e genera un file Markdown.
Per domande sulla migrazione di contenuti specifici o siti web che non vengono riconosciuti correttamente, lo strumento puo essere esteso con nuovi pattern di estrazione.
Medische Disclaimer: De informatie van Stichting Je Leefstijl Als Medicijn over leefstijl, ziektes en stoornissen mag niet worden opgevat als medisch advies. In geen geval adviseren wij mensen om hun bestaande behandeling te veranderen. We raden mensen met chronische aandoeningen aan om zich over hun behandeling goed door bevoegde medische professionals te laten adviseren.
Medical Disclaimer: The information provided by Stichting Je Leefstijl Als Medicijn regarding lifestyle, diseases, and disorders should not be construed as medical advice. Under no circumstances do we advise people to alter their existing treatment. We recommend that people with chronic conditions seek advice regarding their treatment from qualified medical professionals.