clear

zoeken

search

reCAPTCHA: draag een steentje bij aan het digitaliseren van boeken

27 mei 2007


Wat een CAPTCHA is kun je hier lezen. Op Tweakers lees ik vandaag dat onderzoekers van de Carnegie Mellon University captcha’s hebben voorzien van een update waardoor ze gebruikt kunnen worden als hulp voor het digitaliseren van oude boeken, tijdschriften en kranten en dat de dienst bovendien gecombineerd kan worden met spam-beveiliging voor e-mailadressen. De update is te vinden op de website recapcha.net.

Martin Sturm van Tweakers schrijft:

“De nieuwe reCaptcha-dienst toont twee vervormde woorden die door de gebruiker moeten worden herkend. Eén van de twee vervormde woorden is bekend bij de computer, het andere woord nog niet. De antwoorden van de gebruikers voor het onbekende woord worden opgeslagen en de antwoorden van verschillende gebruikers gecombineerd om uiteindelijk de ‘vertaling’ van het woord te bepalen. Het onbekende woord in de reCaptcha is afkomstig van gescande boeken, tijdschriften en kranten die door het Internet Archive worden gedigitaliseerd. Woorden die door ocr-software niet worden herkend, dienen als invoer voor de reCaptcha’s. De universiteit hoopt zoveel mogelijk traditionele captcha’s te kunnen vervangen door reCaptcha’s om zodoende de inspanningen van het publiek nuttig te kunnen aanwenden.

De onderzoekers schatten dat dagelijks ruim zestig miljoen captcha’s worden opgelost, waarmee 150.000 manuren eigenlijk worden weggegooid. ReCaptcha moet een deel van deze verloren arbeid nuttig gaan maken door het ocr-process te helpen. Om ook het grote publiek te laten profiteren van de nieuwe dienst, biedt reCaptcha ook een gratis dienst aan onder de naam Mailhide. Hiermee is het mogelijk om een e-mailadres te beschermen tegen spammers. Om een e-mailadres te kunnen zien, dient eerst een reCaptcha te worden opgelost.”

Op recaptcha.net kun je meer lezen over de techniek.

Als je een e-mailadres wilt beschermen kun je Mailhide inzetten. Dat ziet er op je site of blog dan zo uit:

zbdi@gmail.com

(je moet op de underscore onder de puntjes klikken om het gehele adres in beeld te krijgen)

Dit is meerwaarde voor zowel gebruikers als digitaliseerders. Die verdienen er zomaar even 150.000 arbeidsuren mee.
Een prachtige vorm van samenwerking, vind ik.

@

3 Reacties

  1. Een aanvulling op de site van de Washington Post: //tinyurl.com/yszqoy

  2. Boesje schreef:

    Mooi spul dat OCR

Reageer