reCAPTCHA - spam zaštita + pomoć u digitalizaciji knjiga

CAPTCHA - Skraćenica “Completely Automated Public Turing test to tell Computers and Humans Apart” što bi u slobodnom prevodu značilo Potpuno Automatizovani Javni Turingov Test za razlikovanje Ljudi od Računara. Captcha je obično jedan kraći test kojim brzo možemo odvojiti ljude od mašina. Često se captcha svodi na to da korisnik mora da pročita šta piše na iskrivljenoj slici i to unese u captcha.jpgpredviđeno polje. Ukoliko je unos tačan smatra se da je korisnik čovek ( ovo baš interesantno zvuči prim. aut. ). Najčešće možemo videti Captcha implementacije koje se koriste za zaštitu od spam botova - kompjuterskih programa koji krstare internetom i ostavljaju spam komentare na blogovima, postuju spam poruke na forumima…

Ovde na slici možemo da vidimo jedan standardni captcha test, koji je ranije koristio Yahoo, kako je već je razvijena napredna tehnologija za prepoznavanje teksta koja može u velikoj većini slučajeva da pročita tekst sa ove slike,Yahoo je našao neko malo komlikovanije rešenje.

recaptcha.jpgReCaptcha je procenila da se dnevno reši oko 60 miliona Captcha testova, ako se u proseku za jedan test odvoji desetak sekundi, znači da se svakoga dana utroši preko 150 000 sati na rešavanje ovih zagonetkica. I genijalno su smilili način na koji mogu da pretvore tih 150 000 sati dnevno u 150 000 radnih sati dnevno.

Trenutno je u toku više projekata vezanih za prebacivanje knjiga iz papirnog u elektronski oblik koji je mnogo lakši za skladištenje i pretraživanje. Sve te knjige su skenirane, ali da bi bila moguća pretraga takvih knjiga moraju biti konvertovane u tekst. Za to se koristi OCR ( softver za prepoznavanje karaktera ) koji “čita” skenirane knjige i prebacuje ih u običan tekst, ali on nije svemoguć tako da u nekim slučajevima nije u mogućnosti da tačno pročita tekst.

recaptcha_sample.jpg

Tu u pomoć dolazi ReCaptcha, ako pogledate sliku iznad vidite da na testu stoje dve reči jednu je OCR softver već pročitao iz skeniranih materijala, i zna se šta piše, dok je sa drugom imao problema. Kako bi rešili captcha test i dokazali da ste čovek morate uneti obe reči. Ukoliko ste dobro uneli reč koja je već poznata prošli ste test, a u isto vreme ste pomogli OCR softveru da pročita reč sa kojom je imao problema do sada.

Na taj način svaki put kada poželite da ostavite komentar na nekom blogu ili da postujete na nekom forumu, pomoćićete neki od projekatea digitalizacije knjiga u svetu. Trenutno ReCaptcha sarađuje sa Internet arhivom na digitalizaciji sadržaja.

ReCaptcha je lako implementirati u bilo koju vrstu softvera koju koristite, dok već postoje gotovi pluginovi za najpopularnije blog i forum aplikacije.

4 Comments so far
Leave a comment

A gde je kod tebe Captcha? :)

Pa, ja sam oduševljena! kako prosto i kako korisno. I kako si ti to lepo objasnio, da sam sad, kao potpuni informatički analfabeta mogla jednom drugom isto takvom da objasnim o čemu je reč.

@Moošema
Drago mi je da je barem nekom koristilo.
@Viktor
Trenutna verzija plugina nije kompatibilna baš sa starom verzijom wp-a koju ovde koristim. Biće posle upgrejda.

Upravo sam instalirao ReCaptcha na FotoManijak.com . Do sada sam imao preko 10 spam komentara dnevno, od sada ce da vidimo…



Leave a comment
Line and paragraph breaks automatic, e-mail address never displayed, HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

(required)

(required)