История системы reCAPTCHA. Останови спам, читай книги


Каждый из нас чуть ли не каждый день сталкивается с так называемой «капчей». CAPTCHA (от англ. Completely Automated Public Turing test to tell Computers and Humans Apart — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) — компьютерный тест, используемый для того, чтобы определить, кем является пользователь системы: человеком или компьютером. Чаще всего капча представляет собой искажённый текст, который необходимо расшифровать пользователю, также существуют и другие вариации, но сегодня речь пойдёт не о них. Ниже мы поговорим именно о текстовой капче и её наследнике — системе reCAPTCHA.

Вступление

В 2000 году термин «CAPTCHA» придумали и зарегистрировали как товарный знак в университете Карнеги-Меллона. Капчу изобрели для противодействия спамерам, которые и поныне докучают владельцам сайтов. Целью было разработать такой механизм, который не позволял бы, скажем, проходить регистрацию или оставлять комментарии на сайте ботам, то есть не людям. Также капча используется на файлообменниках для получения ссылок на скачивание файлов. А что такого может сделать человек в сети, чего не сделает компьютер? В скорости решения математических задач, например, мы уже давно уступаем машинам. Абстрактное мышление — уникальная способность человеческого мозга, которая ставит его над компьютером. Именно от этого и отталкиваются все разновидности капчи.

CAPTCHA

Собственно, оригинальная, текстовая капча. Её принцип базировался на том, что человеку не составит особого труда распознать каким-либо образом искажённые буквы, а вот компьютеру сделать это будет куда сложнее. Символы всячески вытягивались, наслаивались, перечёркивались и сливались с фоном. Но спамерская братия не дремлет. С каждым днём разрабатывались продвинутые алгоритмы, которые с большой точностью разгадывали капча-послания. От этого механизмы самой капчи тоже непрерывно усложнялись. В итоге наступил тот момент, когда уже самим людям стало трудно распознать «код для проверки».

Отсюда же начинается огромное поле для дискуссий. Во-первых, капча отнимает у пользователя время. В среднем это 10 секунд, казалось бы, мелочь, но представьте, что ежедневно проверку проходят более 200 миллионов кодов, сгенерированных системой reCAPTCHA. Об этом времени мы поговорим позже. Во-вторых, капча, к сожалению, является непреодолимым барьером для людей с ограниченными возможностями. И в-третьих, капча отнимает пользователей. Возможные потери клиентов у сайтов с капчей составляют около 3%.

Введите код с картинки
Введите код сюда,captcha,recaptcha,борьба,боты,защита,интернет,капча,CAPTCHA,книгиб оцифровка,спам,спамеры,песочница
Как видим, система довольно таки неоднозначная. Она имеет как и свои плюсы, так и минусы. Это породило огромное количество аналогов: логические задачи, определение изображений, интерактивные капчи и много других. От оригинальной CAPTCHA многие сайты не отказались и пользуются ею  до сих пор. А команда, придумавшая капчу в университете Карнеги-Меллона, не прекратила работу и спустя несколько лет представила миру систему reCAPTCHA.

reCAPTCHA

reCAPTCHA используют Facebook, Twitter, StubleUpon и еще приблизительно 350000 других сайтов. Как я написал выше, ежедневно проверку проходят более 200 миллионов кодов, сгенерированных системой reCAPTCHA. На расшифровку человеком каждого тратится в среднем 10 секунд. То есть каждый день человечество тратит тысячи часов на прохождение капчи. Согласитесь, не самое полезное занятие. Об этом же подумали и создатели reCAPTCHA. Их целью стало создать такую капчу, которая кроме остановки ботов еще бы приносила пользу. Но что полезного может сделать человек за эти десять секунд? Ответ гениален, необычен и невероятно креативен — оцифровывать книги. Действительно необычно, сразу же напрашивается вопрос: «Как?» Дело в том, что оцифровка книг, газет и журналов не такая уж простая задача для современных программ. Попадаются такие тексты, которые машина распознает с 90% успехом, но бывают и такие, которые компьютер не распознает вовсе. Так получается из-за качества сканируемых материалов. Понятно, что за десятки лет печатная продукция из архивов выцвела, потрескалась, кое-где поплыли краски, поэтому OCR-программы не могут справится с их распознаванием. Человеческий мозг же, напротив, делает это очень легко. Таким образом у reCAPTCHA получилось убить сразу двух зайцев: остановить спам и оцифровывать книги в мировых масштабах.

,captcha,recaptcha,борьба,боты,защита,интернет,капча,CAPTCHA,книгиб оцифровка,спам,спамеры,песочница
На практике reCAPTCHA представляет из себя два искаженных слова, взятых из любой печатной продукции, которую оцифровывают в данный момент. Значение первого слова reCAPTCHA знает заранее, именно по нему система определяет, кто пытается пройти тест — программа или человек. Второе слово reCAPTCHA неизвестно, именно оно является проблемным для систем OCR, именно его с помощью пользователей предстоит расшифровать, и именно оно является частичкой той книги или газеты, которую оцифровывают. Второе слово показывают тысяче (точную цифру создатели не раскрывают) пользователей. Самый популярный вариант, который предложили люди, считается истинным. Для людей с ограниченными возможностями возможностями доступна аудио-версия reCAPTCHA.

В 2009 reCAPTCHA была приобретена компанией Google.  С тех пор пользователи трудятся на благо Google Books и Google Street View. Если с первым всё понятно, то для второго люди расшифровывают номера домов или таблички с названиями улиц. Тут же открылось новое поле для дискуссий, его активисты заявляют: «Google зарабатывает на нас, но мы ничего с этого не имеем». Сторонники этого движения вместо второго слова в reCAPTCHA вводят всевозможные ругательства в надежде на то, что они попадут в цифровой вариант книги и таким образом запятнают репутацию Google. Но количество таких людей несоизмеримо мало по сравнению с общим количеством пользователей reCAPTCHA, поэтому их усилия, в большинстве случаев, не увенчиваются успехом.
Также reCAPTCHA породила интересный интернет-мем. Его суть заключается в том, что люди смотрят на слова reCAPTCHA не по отдельности, а рассматривают их как словосочетание. Например, известны такие капчи как «raps now», «don’t type», «listen Bieber» и «bring towels».

Type the two words:
type
| I 0
wCAPTCHA
stop spam, read books.,captcha,recaptcha,борьба,боты,защита,интернет,капча,CAPTCHA,книгиб оцифровка,спам,спамеры,песочница
o
4>l I neQi 0 ^
«eCAPTCHA
stop spam, read books.
Type the two words:,captcha,recaptcha,борьба,боты,защита,интернет,капча,CAPTCHA,книгиб оцифровка,спам,спамеры,песочница


Заключение

На сегодняшний день капча не может эффективно противостоять спамерам. Точнее, уже не может, проблема состоит в её постоянном усложнении, людям трудно её понять. Да и заказать 1000 расшифровок reCAPTCHA у жителей Азии стоит всего лишь $1. Защиту от ботов нужно совершенствовать, пересматривать её концепцию. Но пост не об этом. Эта заметка рассказывает о том, насколько изящными могут быть решения даже в такой скучной области как капча. И если бы все вещи в интернете, да и не только, разрабатывались с таким же подходом, жить стало бы действительно приятнее и легче.

© KEDDR.com