clear

zoeken

search

Massadigitalisering: 9 bronnen voor e-boeken op een rij gezet

05 juni 2010



Deze bijdrage verscheen eerder in Digitale Bibliotheek 4, 2010

De Europese Commissie heeft in oktober 2009 de digitalisering van boeken op de agenda geplaatst van de Europese Unie door een mededeling goed te keuren over het ‘auteursrecht in de kenniseconomie’. De commissie stelt hiermee de aanzienlijke culturele en juridische uitdagingen aan de orde die gepaard gaan met de grootschalige digitalisering en verspreiding van boeken, in het bijzonder de Europese bibliotheekcollecties.

In januari van dit jaar werd bekend dat de Koninklijke Bibliotheek alle Nederlandse boeken, kranten en tijdschriften vanaf 1470 wil digitaliseren. Het zijn ontwikkelingen die niet op zichzelf staan. Wie in Wikipedia het overzicht van Digitale Bibliotheekprojecten opvraagt schrikt gewoon een beetje van het aantal projecten dat daar is te vinden. Je ziet door de bomen het bos niet meer. Daarom hierbij een overzicht van de bekendste en belangrijkste projecten

Google Books
//books.google.nl/

Het bekendst is de dienst van de meest gebruikte zoekmachine ter wereld: Google Books (Google Boeken). Deze dienst werd in 2004 voor het eerst aangekondigd door de zoekgigant, onder de naam Google Print. Google stelde in februari van dit jaar dat zij inmiddels meer dan twaalf miljoen boeken heeft gescand. De bibliotheken die met Google samenwerken zouden 42 miljoen banden bezitten, waarvan er tien miljoen boeken onder het Google Books Settlement vallen. Hoewel Google nog verwikkeld is in verschillende rechtszaken heeft deze dienst de meeste potentie, om de doodeenvoudige reden dat Google ook al beschikt over een miljoenenpubliek, dat de diensten van Google veelvuldig gebruikt. Google books bevat zowel werken uit het publieke domein (ook verweesde werken ) als boeken waar auteursrecht op berust. Van die laatste kunnen alleen fragmenten worden opgevraagd.

Project Gutenberg
//www.gutenberg.org/wiki/Main_Page

Project Gutenberg bestaat feitelijk al sinds 1971. In dat jaar typte Michael Hart de Amerikaanse onafhankelijkheidsverklaring over op zijn computer, waarmee het eerste document voor het project gedigitaliseerd was. De bibliotheek bevat inmiddels meer dan 35.000 boeken, waarvan 455 Nederlandse. Bijna de helft van die boeken is behandeld door de Distributed Proofreaders, een project dat vrijwilligers de met OCR ingescande teksten in een browservenster laat controleren en corrigeren.
De website van Gutenberg vermeldt dat er in april 2010 maar liefst 2.856.483 e-boeken zijn gedownload. Alle boeken op Gutenberg bevinden zich in het publieke domein.

Het tekstarchief van Archive.org
//www.archive.org/details/texts

Dit project werd in 1996 gestart door Brewster Kahle, aanvankelijk als archiveringssysteem voor websites (de ‘Waybackmachine’), later ook voor de ontsluiting van andere media. Het archief voor teksten en e-boeken omvatte op het moment van schrijven 2.286.905 items, die worden aangeboden vanuit de Open Accessfilosofie. De meeste werken worden aangeboden onder Creative Commons Licenties .
Opmerkelijk is dat Archive.org ook 902.987 boeken uit Google Books bevat. Waarschijnlijk doet de site dit om werken uit het publieke domein ook buiten de servers van Google digitaal veilig te stellen. De site vermeldt: “Digitized books from many different libraries from the Google Book Search program. These digital files have been downloaded from the Google site and uploaded to the Internet Archive by users. While these books may be old enough to be in the public domain, but there is no guarantee by anyone of their legal status. These books have been made text searchable as a finding aid and downloading refers to Google’s site. Please refer to Google’s site for any rights issues or restrictions.”

Open Library
//openlibrary.org/

Deze database bevat 24.013.367 boeken, waarvan 1.254.400 titels full-text beschikbaar zijn.
Het ambitieuze doel van dit open source project is om voor ieder boek dat ooit werd gepubliceerd een eigen internetpagina aan te maken. Open Library omschrijft zichzelf als volgt:

“At it’s heart, Open Library is a catalog. The project began in November 2007 and has been inhaling catalog records from some of the biggest libraries in the world ever since. We have well over 20 million edition records online, provide access to 1.7 million scanned versions of books, and link to external sources like WorldCat and Amazon where we can. The secondary goal is to get you as close to the actual document you’re looking for as we can, whether it’s a scanned version courtesy of the Internet Archive, or a link to Powell’s where you can purchase your own copy.”

De basis van Open Library zijn de gegevens uit andere catalogi. Zo heeft men bijvoorbeeld alle records van de Library of Congress ingelezen, evenals die van uitgevers als Harper Collins en Random House. Ook de gegevens uit databases als die van Library Thing en Archive.org worden gebruikt.
Iedereen mag helpen deze catalogus uit te bouwen. Als particulier, op titelniveau (de site heeft het open karakter van een Wiki; iedereen kan dus wijzigingen aanbrengen), of als bibliotheek, door de records uit de eigen catalogus in te laten lezen.

Europeana
//europeana.eu/portal/

Europeana zou je kunnen omschrijven als het gewenste Europese antwoord op Google Books, zij het dat deze website meer bevat dan boeken alleen. Europeana is een online verzameling van miljoenen gedigitaliseerde objecten en bevat materiaal uit Europese musea, bibliotheken, archieven en multimediacollecties. Europeana werd gelanceerd op 20 november 2008, nadat eerdere pogingen tot Europese samenwerking op niets waren uitgelopen. Zo strandde eind 2006 het project ‘Quaero’, een Frans/Duits zoekmachineproject, door meningsverschillen. Anno 2010 zijn het vooral problemen rondom copyright die het soepel doorgroeien van Europeana in de weg staan. Eind april vergaderde het Europees Parlement over deze problematiek. Het punt is dat de regels voor copyright per EU-lidstaat verschillen. Er bestaat geen systeem om auteurs te betalen voor materiaal dat nog onder auteursrecht valt. Ook zijn er nog geen normen voor de inhoud van de online bibliotheek.

Het Duitse parlementslid Helga Trüpel riep alle lidstaten onlangs op tot het nemen van maatregelen die noodzakelijk zijn om te voorkomen dat er een kenniskloof ontstaat tussen Europa en de Verenigde Staten en ervoor te zorgen dat Europeanen volledige toegang hebben tot hun eigen culturele erfgoed. Zij pleitte daarnaast voor het indienen van een wetgevend voorstel voor wat betreft de digitale weergave van verweesde werken. Zo’n voorstel zou een einde kunnen maken aan de huidige wettelijke onzekerheid voor de vergoeding van rechthebbenden.

Europeana maakt de belofte nog niet waar. Boeken komen alleen boven water na zoekacties binnen verschillende databanken en catalogi (bijvoorbeeld Gallica en het Geheugen van Nederland) en kunnen alleen via diezelfde databanken worden geraadpleegd. Het downloaden van boeken zit er meestal niet in, omdat veel gekoppelde databanken werken met eigen viewersoftware.

Europese Bibliotheek
//search.theeuropeanlibrary.org/portal/nl/index.html

De Europese Bibliotheek (The European Library is een zoekportaal van de Conference of European National Librarians). Het portaal biedt een zoekingang voor de digitale collecties en catalogi van Europese nationale bibliotheken. Met deze zoekmachine doorzoek je dus ook bibliografische gegevens. Als portaal voldoet deze ‘bibliotheek’ prima, maar als platform voor e-boeken is het (nog) geen serieuze concurrent voor sites als Archive.org en Google Books. Daarvoor is de zoekmethodiek, net als die van Europeana, nog te omslachtig.

World Digital Library
//www.wdl.org/en/

Deze digitale bibliotheek is een initiatief van de Amerikaanse Library of Congress, in samenwerking met in samenwerking met Unesco en bibliotheken en archieven uit 32 landen. Het project heeft als doel “het bevorderen van de internationale en interculturele verstandhouding en bewustzijn, het ter beschikking stellen van bronnen aan onderzoekers, het uitbreiden van niet-Engelse en niet-Westerse inhoud op het internet en bijdragen tot wetenschappelijk onderzoek taal”.
Ook dit portaal biedt meer dan boeken alleen en ook hier geldt dat gedigitaliseerde boeken niet gedownload kunnen worden in bijvoorbeeld PDF- of EPUB-formaat. In plaats daarvan kunnen de werken ter plekke worden geraadpleegd in een viewer, of, in hoge resolutie, in een mediaspeler. Het aanbod is nog zeer beperkt bovendien. Zo omvat de collectie gedigitaliseerde boeken in de regio Europa op dit moment slechts 59 titels.

The Universal Digital Library
//www.ulib.org/

Dit project wordt ook wel ‘The Million Book Project’genoemd. Het project is een samenwerkingsverband van de Carnegie Mellon Universiteit en Chinese en Indiaase overheids- en onderzoeksinstellingen. UDL bevatte eind 2007 meer dan anderhalf miljoen gescande boeken, in twintig verschillende talen. De meest boeken komen uit het publieke domein maar men heeft ook toestemming gekregen om 60.000 boeken met copyright in de database op te nemen, die soms gedeeltelijk, soms volledig, online geraadpleegd kunnen worden. De boeken in deze universele bibliotheek zijn gescand met OCR en kunnen op verschillende manieren gelezen of gedownload worden. Daarbij dient te worden opgemerkt dat de software bijzonder veel foutmeldingen geeft. De site is sinds 2007 niet meer bijgewerkt bovendien.

DBNL (ook via Aquabrowser van Bibnet)
//www.dbnl.org/
//zoeken.bibliotheek.be/?q=dbnl:*

De Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) bevat volledige teksten van boeken en tijdschriften. Het gaat daarbij om literaire teksten, wetenschappelijke studies en cultuurhistorische bronnen van velerlei aard. DBNL werd in 1999 opgericht door de Maatschappij der Nederlandse Letterkunde. De stichting voert een eigen, in Taalunieverband bekostigd, digitaliseringsprogramma uit, maar realiseert daarnaast ook veel projecten in samenwerking met andere culturele en wetenschappelijke instellingen. Boeken en teksten worden in DBNL aanvankelijk weergegeven in HTML maar kunnen meestal ook als PDF-bestand worden gedownload. Het Vlaamse Bibnet heeft de collectie onlangs ook opgenomen in de eigen Aquabrowser. Met de zoekopdracht dbnl:* krijg je alle 6.937 (e-) boeken op een digitaal presenteerblaadje aangereikt.

@
Afbeelding: Max-B

3 Reacties

  1. Stefan Wijnberg schreef:

    Mooi overzicht! Zie ook de meeste potentie in Google Books. Zo'n beetje alles wat deze zoekgigant aanraakt, verandert in goud. Men zit daar bovendien niet stil en is de concurrentie steeds minimaal 2 stappen voor. Ondanks het feit dat je je vraagtekens kan zetten of het goed is dat 1 partij een monopolie bezit op informatie heb ik vooral respect voor dit bedrijf.

  2. Bas schreef:

    Inderdaad mooi overzicht, maar ook een beetje om moedeloos van te worden want waar is bibliotheek.nl, wat doen de openbare bibliotheken op dit gebied? Er schiet bij mij nu maar één woord te binnen: Achterlopen.

  3. @Stefan @Bas:

    Je kunt hier op verschillende manieren naar kijken maar wat mij betreft moet je dit alles toch vooral als een kans zien. De KB is nu ook begonnen en DBNL duikt al op in catalogi maar de achterstand t.o.v. een deel van de genoemde initiatieven is inderdaad groot.

    Echter: de meeste van deze initiatieven hebben een behoorlijk open karakter en bibliotheken kunnen in sommige gevallen heel makkelijk aansluiting zoeken bij die initiatieven, zeker bij al die boeken uit het publieke domein.

    Het is gekker als we dat ook zelf gaan zitten uitvogelen. Beter werken we samen. En dan misschien ook wel gewoon met bedrijven als BOL en Google.
    Het is niet voor niets dat Archive.org ook weer veel titels van Google Books opneemt. Dat is denk ik een soort back-up.

    We zijn in ieder geval geen concurrent. We zijn een bron. Misschien moeten wij leren ook zo naar hen te kijken.

    En dan nog de mogelijkheden van Library Thing benutten, Wikipedia niet meer negeren, samenwerken met Creative Commons en, en, en…..

    Jullie zien: vandaag ben ik eens een keer van het halfvolle glas 🙂

Reageer