Gescande documenten voortaan ook vindbaar in Google

31 oktober 2008

Google maakte gisteren bekend dat gescande documenten voortaan ook geïndexeerd zullen worden door de zoekmachine. Het verschil tussen gewone en gescande documenten lijkt misschien niet zo heel groot te zijn maar in het tweede geval gaat het feitelijk om een foto van een tekst. Dat is iets waar computers aanzienlijk meer moeite mee hebben dan mensen. OCR-technieken zijn inmiddels echter dusdanig verbeterd dat Google’s spiders zulke ‘teksten in foto’s’ nu ook kunnen lezen.

Het Google Blog geeft een paar voorbeelden. Het gescande document Repairing aluminum wiring ziet er als PDF zo uit en in HTML-formaat zo. De meegescande afbeeldingen worden vervormd of gaan verloren maar de tekst zelf lijkt nog geheel intact te zijn.

Nieuwe perspectieven wederom. Denk bijvoorbeeld aan die ANP Radiobulletins van afgelopen woendag, of aan de altijd populaire, maar slecht verkrijgbare vraagbaken voor oudere automodellen. Daar gaan we maar eens online over vergaderen…

gescande documenten Gescande documenten Google gescande PDF's Google OCR zoekmachines

Share Tweet Delen

8 Reacties

Robert schreef:

31 oktober 2008 om 11:55

Dat is heel goed nieuws! Dat betekent dat veel PDF-documenten die zijn aangemaakt met virtuele PDF-printers (dus je print een document, maar in plaats van een printer, selecteer je een virtuele printer die er een PDF-bestandje van maakt) voortaan ook geïndexeerd kunnen worden.

Greetz

Beantwoorden
Edwin Mijnsbergen schreef:

31 oktober 2008 om 12:11

Nog meer informatie! Jaaaaa!

^^

Beantwoorden
BirdBlok schreef:

31 oktober 2008 om 12:14

He Ed,

je bent “site van de dag” op Zeelandnet! Komt vast door die mooie post met als titel Bird.
X
M

Beantwoorden
Edwin Mijnsbergen schreef:

31 oktober 2008 om 12:15

Hee Bird!

Ik zag het inderdaad. Opeens veel extra bezoekers uit het Zeeuwse. Leuk!

Beantwoorden
Reacher schreef:

31 oktober 2008 om 23:37

Pdf’s worden toch al lang geïndexeerd, ongeacht of ze van Adobe of van ‘printers’ komen?

Beantwoorden
Edwin Mijnsbergen schreef:

1 november 2008 om 09:42

Dag Reacher,

Bij mijn weten was dat nog niet het geval. Ik ben gescande PDF’s in ieder geval nooit tegengekomen in Google.

Ken jij wel van die documenten die al langere tijd vindbaar waren dan?

Beantwoorden
Johan Oomen schreef:

1 november 2008 om 15:45

Jubel niet te snel! Uiteraard is het geweldig dat meer materiaal beschikbaar komt. Google heeft met deze regeling echter de facto het monopolie verkregen voor het opzetten van een universele bibliotheekdienst. Daar kleven heel wat nadelen aan, sommige zijn op dit moment nog niet te overzien.

Ook al zijn de diensten van Google veelal gratis te gebruiken, Google is in de eerste plaats een commercieel bedrijf. Vorig jaar boekte Google 16 miljard dollar winst. Commerciële belangen staan uiteraard op de eerste plaats. Google’s motto is ‘Don’t Be Evil’, maar het moge duidelijk zijn dat dit enkel houdbaar is als Google besluit een non-profit instelling te worden, tot dan zullen marktbelangen en het tevreden houden van investeerders op de eerste plaats komen. In China manipuleert Google onder druk van de Chinese overheid zoekresultaten, van zoekacties op termen als Tibet, democratie en vrijheid. (zie //www.boingboing.net/2007/04/23/google-china-and-gen.html)En er zijn meer voorbeelden.

Ik maak me ernstig zorgen onder welke voorwaarden materiaal (nu en in de toekomst!!!) toegankelijk gemaakt wordt. De Electronic Frontier Foundation schrijft “Google has unrestricted, royalty-free access to this corpus. The agreement gives libraries their own copy of the corpus, and allows them to make it available to “certified” researchers for “nonconsumptive” research, but will that be enough?”. (zie //www.eff.org/deeplinks/2008/10/google-books-settlement-readers-guide) Ik denk van biet. Ook biedt de overeenkomst geen garanties voor een redelijke prijsstelling in de toekomst.

Organisaties als de Open Content Alliance scannen ook boeken. Zij hanteren echter een veel transparanter model voor het verlenen van toegang tot het gedigitaliseerd materiaal. Op hun site lezen we: “…the collection of American literature contributed by the Internet Archive, the University of California, and Yahoo! carries no restrictions and may be downloaded and reused for any purpose”. (zie: //www.opencontentalliance.org) Het moge duidelijk zijn dat idealiter alle gedigitaliseerde boeken onder deze voorwaarden beschikbaar zouden moeten worden.

Op de website //www.googlizationofeverything.com schrijft Siva Vaidhyanathan (verbonden aan de University of Virginia) het volgende: “Libraries at public universities all over this country (including the one that employs me) have spent many billions of dollars collecting these books,” he wrote. “Now they are just giving away access to one company that is cornering the market on on-line access. They did this without concern for user confidentiality, preservation, image quality, search prowess, metadata standards, or long-term sustainability. They chose the expedient way rather than the best way to build and extend their collections. I am sympathetic to the claim that something is better than nothing and sooner is better than later. But sympathy remains mere sympathy. These claims are not convincing when one considers just how great an alternative system could be, if everyone would just mount a long-term, global campaign for it rather than settle for the quick fix.”

Wordt zeker vervolgt!

Hartelijke groet,
Johan Oomen
Nederlands Instituut voor Beeld en Geluid

Beantwoorden
Edwin Mijnsbergen schreef:

1 november 2008 om 16:01

Hoi Johan,

Bedankt voor je uitgebreide reactie!

Je kaart daar hele belangrijke punten aan en daar wil ik inderdaad mijn ogen niet voor sluiten. Het heeft ook nog andere consequenties soms.

Maar aan de andere kant: er zijn toch ook nog kopieën van de gescande documenten? Ik geloof niet dat bibliotheken kunnen digitaliseren in het tempo van Google en in die zin vind ik het niet zo slecht dat ze benutten wat Google doet. Er totaal van afhankelijk worden is een ander verhaal. Dat zou kwalijk zijn.

Toch is er ook een zekere mate van onverschilligheid. Jaren geleden was al deze informatie ook niet digitaal beschikbaar en taalden we daar ook niet naar. Er zijn ook veel alternatieven. Misschien moet je prioriteiten stellen bij behoud van cultureel erfgoed. De echte belangrijke dingen (of de veelgevraagde) doen we zelf, de rest is voor de hoogste bieder.

Het is hoe dan ook een complex verhaal.

Beantwoorden

Reageer

Klik hier om je antwoord te annuleren.

zoeken

Gescande documenten voortaan ook vindbaar in Google

8 Reacties

Reageer