为了使盘算性能够猎取人类常识和更好的传布信息,今朝已有多个项目正在想法将盘算机时期之前的出书物举行数字化。册页起首被扫描成照片,然后利用“OpticalCharacterRecognition”(OCR)手艺将其转化为笔墨。将图片内容转化为笔墨十分有效,由于书本扫描成图片以后将很难被保留在小型的设备中,难以下载,而且没法举行查询。不外成绩在于OCR手艺其实不完善(下图为OCR堕落示例)。reCAPTCHA将盘算机没法浏览的笔墨经由过程CAPTCHA的体例在Web页面上展示出来,由人举行辨认,并以此为书籍数字化的历程做出奉献。详细地说,就是将OCR没法准确辨认的单词以图片的体例显现并作为CAPTCHA来利用。这个做法是可行的,由于年夜部分的OCR程序在没法准确辨认单词时将给出提醒。
<br>不外,既然盘算机没法浏览此类CAPTCHA,体系又怎样晓得这个成绩的准确谜底呢?它的事情体例在于,每一个OCR没法辨认的新单词将会和另外一个已断定的单词一同供应给用户,而用户会原告知同时输出两个单词。假如谜底已知的单词被准确输出,那末体系假定新的单词也是准确的。为了进步正确率,不管输出的了局是不是准确,体系城市天生新的图片让其他一些用户再次举行识别。
今朝,我们正在匡助InternetArchive里的书本和旧版纽约时报举行数字化。
欢迎光临 仓酷云 (http://www.ckuyun.com/) | Powered by Discuz! X3.2 |