Geavanceerd GIS-werk: Literatuuronderzoek (Gemeente HOUTEN)

Figuur 1 – Eerste resultaat: alle publicaties van archeologische rapporten gemeente Houten – een voorbeeld.[1]

Een volgende stap is het weergeven per archeologisch hoofdtijdvak. Hiervoor moeten de in DANS-Archaeology automatisch gegenereerde trefwoorden worden onderzocht.

Dit is gerealiseerd in een ’tekstmining’ proces, als hieronder weergegeven in Figuur 2.

Figuur 2

Als invoer datafile is een extract van de originele datafile genomen waar alleen een code die verwijst naar een specifiek rapport (‘key’) en de automatisch gegenereerde trefwoorden staan, dus een tabel met twee kolommen. De unieke sleutel in kolom 1 kan worden gebruikt om de resulterende bestanden (de subsets die het gespecificeerde trefwoord bevatten) te koppelen aan de originele dataset.

De enkelvoudige zoekwoorden die gebruikt zijn om de subsets te creëren zijn:

  • ijzertijd
  • rom
  • middeleeuwen
  • bron
  • vme
  • lme

De concordantie maakt het niet alleen mogelijk op een zoekterm te filteren, maar maakt het eveneens  inzichtelijk of er niet onbedoeld een verkeerde referentie wordt meegenomen omdat een aantal woorden voor- en na de zoekterm eveneens worden weergegeven.

Bijvoorbeeld een trefwoord als ‘géén ijzertijd’ zou in de resulterende lijst  met zoekterm ‘ijzertijd’ komen, maar daar (hopelijk) onmiddellijk opvallen. Het maakt wel duidelijk dat het hier toegepaste proces niet geheel automatisch kan zijn. …

Een resultaat op een geografische kaart is hieronder weergegeven; het betreft de selectie die het trefwoord ‘ijzertijd’ bevatten, zie Figuur 3.

Figuur 3.

Figuur 3 – Voorbeeld van een op een enkelvoudig trefwoord geselecteerde subset van de archeologische rapporten: De rapporten bevatten de term ‘ijzertijd’ in de door DANS-Easy automatisch gegenereerde trefwoorden.

Ter vergelijking de set die geselecteerd is op het zoekwoord ‘rom’, zie Figuur 4;

Figuur 4.

Figuur 4 – Archeologische rapporten gemeente Houten – Romeinse tijd

Het moge duidelijk zijn dat in principe op ieder van de in de dataset voorkomende trefwoorden kan worden gefilterd.

Een elegante methode om snel te filteren met een zoekterm over de hele dataset en het resultaat van een gekozen zoekterm te laten zien op een geografische kaart wordt hieronder schematisch in beeld gebracht, zie Figuur 5;

Dit proces leest de dataset[2] in (uiterst linkse icoontje). In ‘concordantie’ wordt de zoekterm ingegeven. Bijvoorbeeld ‘ijz[3]’, zie De resulterende set wordt geselecteerd en de coördinaten worden uitgelezen[4] waarna de data wordt weergegeven op een geografische kaar (icoontje uiterst rechts ‘Geo Map’), zie Figuur 6.

Figuur 5.

Hieronder: Figuur 6 – Resultaat (Locaties van de in de rapporten gemelde onderzoekslocaties met zoekwoord ‘ijz’) op de kaart.

Figuur 6.

Het is verder illustratief te onderzoeken welke woorden in de context van de zoekterm in de rapporten staan vermeld. Dat kan inzichtelijk worden gemaakt met een ‘woorden wolk’ (‘Word Cloud’).

Bijvoorbeeld een zoekterm als ‘lme[5]’ levert 9 rapporten op, en – in termen van gebruikte woorden in de bibliografie – de volgende score , zie Figuur 7. De woorden ‘middeleeuwen’, ‘laat’, en de getallen ‘1050’ en ‘1500’ worden inderdaad veelvuldig gevonden (weergegeven in een groot font)[6] in de geselecteerde set bibliografische gegevens.

Ook de in de woordenwolk minder vaak voorkomende woorden (kleiner font) zijn illustratief voor de context van de geselecteerde – in dit voorbeeld 9 – rapportages.

Figuur 7.

[1] https://public.tableau.com/app/profile/rinke/viz/ArcheologischeRapporteninDANS-Easybetr_gemeenteHouten-augustus2021/ArcheologischeRapportenGemeenteHouteninDANS-Easy?publish=yes

[2] De MS Excel file die de tabel met alle bibliografische informatie van de uit DANS-Easy overgenomen set rapporten die de archeologie in de gemeente Houten betreffen.

[3] ‘ijz’ – IJzertijd

[4] Geocoding

[5] ‘lme’ is de in de archeologie gebruikelijke afkorting voor: late middeleeuwen.

[6] Hoe groter de weergave van het woord (groter font), hoe veelvuldiger het woord voorkomt.