clear

zoeken

search

Hoe Library of Congress 45 miljard tweets archiveert

06 juni 2011

Twee weken geleden stond de tweetteller op 45 miljard stuks. “Allemachtig”, dacht ik toen, en vervolgens: “hoe kan Library of Congress (LoC) die enorme hoeveelheid data nu in vredesnaam goed archiveren én ontsluiten?”

In How the Library of Congress is building the Twitter archive wordt een tipje van de sluier gelicht. De kern van het verhaal is: LoC weet het zelf ook nog niet precies. Men Gnipt en Hivet, en probeert nog vele andere tools uit, maar eigenlijk weet ook nog niemand precies wat wetenschappelijke onderzoekers nu precies kunnen en willen met al die korte berichten. Ik kan me gewoon niet zo goed voorstellen dat je in dit geval kaf en koren goed kunt scheiden.

Dit project brengt me ook terug bij de woorden van Steven Rubel, wiens 20 minuten durende presentatie op TNW11 ik vorige week keek. Rubel gaat in die presentatie in op de vluchtigheid van informatie (“een tweet is als een sneeuwvlok die op de grond valt en verdwijnt”) en op de vraag hoe je daar mee om kunt gaan.

Library of Congress zal de gewone sterveling vooralsnog niet van dienst zijn en ik vraag me af of de wetenschap er wel iets aan zal hebben. Maar juist omdat ik het niet weet en niet kan overzien vind ik het interessant om dit soort updates te lezen. Hele slimme vakgenoten denken hier over na. Dan is het interessant om te zien waar het uiteindelijk op uitdraait.

@

Reageer