Combattere lo spam e preservare la letteratura

ReCAPTCHA è un servizio, offerto gratuitamente ai siti web, il cui scopo è  lottare contro i bot, quei software automatici che entrano o si iscrivono su forum, blog, portali,… per pubblicare spam. Lo fa tramite un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), un programma che è in grado di stabilire se l’utente è una persona o un computer, sottoponendogli un’azione da eseguire, azione che solo un essere umano riesce a portare a buon fine, come riconoscere parole distorte o risolvere quesiti.

ReCAPTCHA ha però qualcosa di speciale: quando gli utenti e i lettori dei siti internet che lo hanno implementato vogliono pubblicare un commento, un messaggio, effettuare una ricerca, votare in un sondaggio o registrarsi gratuitamente, contribuiscono senza saperlo alla digitalizzazione e quindi alla salvaguardia dei libri antichi e dei vecchi giornali, che non sono sempre ben leggibili e che rischiano il deterioramento. Le parole distorte proposte da ReCAPTCHA provengono infatti da opere letterarie che sono state sottoposte a scansione pagina per pagina e poi, per trasformare le immagini in testi ricercabili e archiviabili senza occupare troppo spazio, date in pasto a un software di Riconoscimento Ottico dei Caratteri (OCR), con risultati non sempre positivi. Ecco un esempio:

ReCAPTCHA, un progetto sviluppato dalla Carnegie Mellon University, è nato per sfruttare in modo intelligente gli sforzi profusi ogni giorno dagli internauti per decifrare 200’000 milioni di CAPTCHA. Secondo gli esperti ognuno di noi perde una decina di secondi (io di solito molti di più…) per riconoscere le parole proposte, ciò che fa globalmente 150’000 ore di lavoro quotidiano fornite gratuitamente.

Come funziona esattamente ReCAPTCHA? Esso cerca le parole che gli OCR non sono riusciti a interpretare e le fa esaminare ai naviganti. Ogni volta vengono presentate due parole, una che l’OCR non ha capito e una che invece è già stata individuata. Se l’utente identifica la parola già nota, il sistema presuppone che anche la seconda sia stata riconosciuta correttamente. Quindi sottopone quest’ultima ad altri utenti, per confermare l’esattezza della soluzione data.

In questo momento l’aiuto  del servizio viene concesso a Google Books e al New York Times.

 

Padmé Amidala