clear

zoeken

search

Terug in de tijd met de Krantenbank Zeeland

20 juli 2008


Aan de Krantenbank Zeeland kom ik maar zelden toe maar als ik er dan eens een beetje in snuffel stuit ik iedere keer weer op interessante, grappige en opmerkelijke berichten. Je vindt er beschrijvingen van oude moordzaken in Middelburg maar bijvoorbeeld ook mijlpalen uit de geschiedenis van bibliotheken in Zeeland.

Neem nu de bovenstaande passage. Die is prachtig toch? “In 1922 werd in het geheele bibliotheekgebouw elektrisch licht aangelegd.” Zat men voor die tijd dan bij olielampen of kaarsen? Ik zou de verwondering nu, van de bibliothecaris van toen, wel eens willen zien. Er verandert veel in 86 jaar.

Ik had er ook geen idee van dat interbibliothecair leenverkeer al zo lang bestaat.

De krantenbank bevat overigens ook wel een paar punten die verbeterd zouden kunnen worden. De zoeknavigatie is niet optimaal en de OCR is lang niet altijd perfect. De letter ‘e’ wordt regelmatig aangezien voor een ‘o’, bijvoorbeeld. De selectietool biedt weliswaar de mogelijkheid om een tekstselectie als afbeelding op te slaan maar helaas wel in een resolutie die de tekst onleesbaar maakt. Dan doen Snippy en het knipprogramma van Vista hun werk beter.

En nu ik toch aan het zeuren ben: er zou best een spatie passen in de titel van de krantenbank. Dat is een kleine ingreep volgens mij.

Het is wat laat maar ik heb weer een beetje feedback in de aanbieding, de komende week.

@

8 Reacties

  1. Lebbercherrie schreef:

    Laat dat nu net hetgene zijn waar ik mee beroepshalve mee bezig houd, het testen van de scanning en Ocr-isatie (bij gebrek aan een beter woord) van oude kranten, alvorens de hele mikmak online gaat! Leuk om er hier ook over te lezen.

  2. Wat grappig, daar had ik helemaal geen idee van. Heb je daar dan een soort graadmeter voor, voor het percentage fouten dat getolereerd wordt?

    Ik ben slechts zijdelings betrokken bij projecten als dit. Vanuit het project duurzame opslag van digitale informatie houd ik het natuurlijk wel een beetje in de gaten allemaal…

  3. Lebbercherrie schreef:

    Wel, aangezien het project zich nog in een embryonale fase bevindt, is er nog maar bitter weinig goedgekeurd. Er zijn ook nog verschillende opinies over wat goedgekeurd kan worden. In acht nemende dat we geopteerd hebben voor een ‘brute’ OCR (lees: de goedkoopste) kunnen we geen mirakels verwachten. Dat is de mening van het test-team. Er zijn anderen die echter die mirakels wél verwachten.

    But if you pay peanuts, you get monkeys.

    Wanneer alles online gaat, zal ik je wel op voorhand verwittigen.

  4. Tsja, als je niet goed kunt zoeken in een oude bron is de toegevoegde waarde natuurlijk beperkt. Mensen die het als bron gebruiken weten niet welke onderdelen ze allemaal missen na een zoekactie of worden steeds geconfronteerd met niet-relevante resultaten.

    En als het origineel er eenmaal niet meer is wordt het wel lastig om de minder betrouwbare scans alsnog betrouwbaar te krijgen. Voor de duurzaamheid is dat niet best.

    Maar wie weet, achterhaalt de techniek uiteindelijk ook die beperking.

    Ik houd me aanbevolen voor je tip!

  5. Hehe, de tijden zijn toch serieus veranderd 🙂
    Wie weet wat we binnen 50 jaar zoal normaal gaan vinden?

    Wat mij vooral opviel was de verhouding tussen de boeken (4786) en het aantal inwoners (5030). Namelijk dat er per 1,05 personen een boek was of 95% van een boek per inwoner.

  6. Ha, dat had ik zo nog niet bekeken. Waarschijnlijk had de stad nog wel een paar eminente burgers die het gemiddelde flink omhoog haalden.

    Zo stel ik het me voor in ieder geval.

  7. Lebbercherrie schreef:

    Wel, enkele opmerkingen: Gericht zoeken begint ook met je bronmateriaal te kennen. Een oude krant van 1830 ga je niet doorzoeken op dezelfde manier als een PDF-bestand van 2003. Klinkt logisch, maar vergeet niet dat wij enige relevante kennis op het vlak hebben. Een middelbare schoolleerling die een totale “search” intikt op het woord ‘oorlog’ gaat veel en veel te veel hits vinden, en ook een hele hoop relevante informatie missen, al was het maar wegens het feit dat die oude drukken vaak slecht gedrukt zijn en bijvoorbeeld enkel de karakters “rlg” uit het woord ‘oorlog’ nog herkenbaar zijn. Iemand die voor zijn paper pakweg economische tendensen gaat onderzoeken in deze oude kranten gaat zoektermen combineren, en ook directer aan de titels kunnen zien of het hier relevante informatie bevat. Deze persoon zal ook enkele data als leidraad nemen om enkele kranten van a tot z compleet uit te spellen (data van beurscrashes, belangrijke nieuwe wetten op economisch gebied,etc.) Dus kunnen fouten in de ocr in bepaalde omstandigheden aanvaard worden. Twee regels op twee pagina’s die niet herkend worden is dus spijtig maar aanvaardbaar. Ook moeten nieuwe gebruikers hierop attent gemaakt worden.

    Men mag nooit teveel vertrouwen op ‘ctrl+f’, zeker niet bij zulke oude bronnen.

    Ocr kan wél opgewaardeerd worden, op voorwaarde dat het TIFF bestand van voldoende kwaliteit is. Dit is ook het bestand dat minstens even hoog van kwaliteit moet zijn als het origineel voor bewaring. Dit zijn de fameuze digitale back-ups, zodat in geval van brand, waterschade, diefstal etc. het patrimonium bewaard wordt.

    Vandaar dat de OCR vaak wel aanvaard wordt, met het idee dat deze meer als een kleine houvast dient, een stap in de goede richting, echter niet een finale oplossing.

    Ik wil ook wel opmerken dat het hier gaat over een gigantisch aantal bronnen dat online ontsloten én gegroepeerd zal worden.

  8. Bedankt voor je uitgebreide reactie Lebber! Nu ben ik zeker benieuwd naar het uiteindelijke resultaat!

    Cheers.

Reageer op Edwin Mijnsbergen