Ukryty wymiar CAPTCHA

Wpisywanie może wkurzać, ale cel jest szczytny

Wpisywanie może wkurzać, ale cel jest szczytny

Znacie to: chcecie się zarejestrować się na forum i strona zmusza was do przepisania słowa. Robicie to od lat, prawie z automatu. To najpopularniejszy system na odsiew nieproszonych bootów, czynność, którą akceptujemy i nie poświęcamy jej więcej refleksji niż np. otwarciu drzwi.

Nie zastanawiało was, czemu czasami słowa te są tak bardzo niewyraźne? Czyż nie wyglądają one jak żywcem wzięte ze starych książek? Otóż… tak właśnie jest! Zanim jednak wyjaśnię wam ten fenomen, przyda się małe wprowadzenie.

System CAPTCHA stworzył Luis von Ahn, informatyk z Carnegie Mellon University w Pittsburghu. Jego system się upowszechnił i obecnie stosuje go ponad 40 tysięcy stron. Von Ahn mógł śmiało mówić o sukcesie, a jednak nie osiadł na laurach. Dręczyło go, że to marnowanie czasu.

Wyliczył sobie nawet, że dziennie ludzie wpisują koło 200 milionów kodów, tracąc na to 10 sekund, z czego wynika, że to marnotrawstwo 500 tysięcy godzin. Co z tym począć? Nie jest to wystarczający powód, by z systemu zrezygnować, ale zawsze można jakoś moce przerobowe naszych umysłów wykorzystać.

Wpisując słowa pomagacie digitalizować zbiory biblioteczne

Wpisując słowa pomagacie digitalizować zbiory biblioteczne

I tutaj przechodzimy do sedna – otóż, biblioteki od wielu lat przeprowadzają digitalizację swoich zbiorów. Jest to proces żmudny, trudny, drogi i niesamowicie czasochłonny. I mimo stosowania zaawansowanych programów do optycznego rozpoznawania znaków, komputery nie są w stanie rozpoznać wielu słów, głównie ze względu na stan w jakim znajdują się zbiory – wyblakły atrament, pożółkłe kartki i niewyraźny sposób pisana często dla komputerów są zaporą nie do przejścia. Ilość takich słów sięga 20 procent. Tutaj niezbędny okazuje się ludzkie oko i zdolność naszych mózgów do odnajdywania znanych wzorów w pozornych bazgrołach.

Von Ahn połączył internetowy system zabezpieczeń z deszyfracją starych druków. System ów nosi nazwę reCAPTCHA Project, a zbiory tekstów pochodzą z The New York Times oraz od Internet Archive, organizacji non-profit, w której znajduje się blisko 200 tysięcy książek.

Działa to tak, że użytkownik dostaje dwa słowa, kod zabezpieczający oraz fragment książki, składający się z jednego bądź kilku słów. Ów fragment wyświetla się kilku osobom, a jeśli wszystkie podadzą to samo znaczenie, wynik wędruje do cyfrowej biblioteki.

Dzięki reCAPTCHA uda nam się zachować nawet najbardziej zniszczone książki

Dzięki reCAPTCHA uda nam się zachować nawet najbardziej zniszczone książki

Von Ahn wraz z zespołem opublikował w Science raport, z którego wynika, że w ciągu ostatniego roku użytkownicy przetłumaczyli ilość tekstu wystarczającą do stworzenia 17,600 cyfrowych książek. Dokładność przekładów sięga 99 procent. W przyszłym roku najprawdopodobniej zostanie zdigitalizowane całe archiwum The New York Times.

Kolejną, nieco już mniejszą, przewagą reCAPTCHA jest fakt, że mniej czasu poświęcamy na odczytanie konkretnego słowa niż losowych liter, albo jeszcze lepiej – mieszanki liter i cyfr.

Pomijając niewątpliwa zaletę – okazuje się, że wszyscy pomagamy zachować dla potomności cenne druki – ów system ma pewne minusy. Otóż, zdarza się, że słowa są niemożliwe do odczytania nawet przez człowieka obdarzonego sporą wyobraźnią. Na stronie pojawi się kleks, może też ona być tak zniszczona, że ledwo co widać. A system każe nam odszyfrować coś, co wygląda jak plama po kawie, którą wspomagał się drukarz. Von Ahn jest świadom, że tego typu sytuacje wywołują u ludzi irytację.

''Koniecznie spróbuj!' radzi CAPTCHA

”Koniecznie spróbuj!’ radzi CAPTCHA

Kolejnym, nieco zabawnym, problemem jest fakt, że słowa są, owszem, wyrwane z kontekstu, ale zestawione razem niosą pewną treść. I czasami owa treść jest śmieszna, obraźliwa albo po prostu dziwaczna. Niektóre frazy są wyłapywane na etapie przesyłania ich do reCAPTCHA i odrzucane, żeby nie gorszyć lub nie obrażać użytkowników.

Tak więc następnym razem, gdy przyjdzie Wam wczytywać się w niewyraźne słowa, pamiętajcie, że ma to głębszy sens. I nie irytujcie się, gdy słowa te każą wam zrobić coś brzydkiego ;-)

Dzięki Luis!

Dzięki Luis!

[źródło: techcrunch.comcylab.cmu.edunpr.org]

Edit: Biję się w piersi, bo faktycznie parę faktów mi umknęło. Archiwa Timesa zostały już zdigitalizowane. reCAPTCHA Project nie został zawieszony, ale obecnie większą popularnością cieszą się systemy obrazkowe, trwają też prace nad programem, który ma rozpoznawać ludzi na podstawie ruchów myszką. Będzie to w jednym lepsze od reCAPTCHY – umożliwi korzystanie z niego osobom niewidomym.

Pod tym wpisem można się reklamować. Jeżeli uważasz, że stworzyłeś bardzo dobry film związany z tematem wpisu, wklej do niego link w komentarzu. Najlepsze filmy zostaną tutaj na zawsze. Zapraszamy wszystkich do komentowania naszych artykułów. Czekamy na Wasze opinie. Do dyspozycji naszych czytelników oddajemy również forum dyskusyjne... serdecznie zapraszamy tam do rozbudowanych dyskusji i kooperacji społeczności brodaczy!