-
Notifications
You must be signed in to change notification settings - Fork 17
/
readme_ru.html
131 lines (131 loc) · 14.3 KB
/
readme_ru.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>VietOCR - Java-графический интерфейс для Tesseract OCR</title>
</head>
<body>
<div class="Section1">
<h2 align="center">VietOCR</h2>
<h3>ОПИСАНИЕ</h3>
<p><a href="http://vietocr.sourceforge.net">VietOCR</a> это, написанный на Java графический интерфейс для
<a href="https://github.com/tesseract-ocr">Tesseract OCR engine</a>, предоставляющий поддержку в распознавании
символов для распространенных графических форматов, в том числе
и многостраничных. Программа имеет функцию постобработки, позволяющую
исправлять регулярно возникающие в процессе оптического распознавания
текста ошибки. Программа также может выполняться из командной строки.</p>
<p>Теперь поддерживается пакетная обработка. Программа отслеживает папку для
наблюдения за новыми файлами изображений, автоматически обрабатывает их
с помощью OCR-движка и выводит результаты распознавания в папку вывода.</p>
<h3>СИСТЕМНЫЕ ТРЕБОВАНИЯ</h3>
<p><a href="https://www.oracle.com/java/technologies/downloads/">Java Runtime
Environment 8</a> и выше. В Windows также требуется <a href="https://docs.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist">Microsoft Visual C++ 2022 Redistributable Package</a>.</p>
<h3>УСТАНОВКА</h3>
<p>Исполняемый файл Tesseract для Windows поставляется вместе с программой.
Дополнительные <a href="https://github.com/tesseract-ocr/tessdata">языковые пакеты</a> для Tesseract, с названиями соответствующими
стандарту ISO639-3, следует поместить в подкаталог <code>tessdata</code>.</p>
<p>Для Linux Tesseract и его языковые пакеты находятся в репозитории Graphics (universe).
Их можно установить используя Synaptic или с помощью следующей команды:</p>
<blockquote>
<p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie</code></p>
</blockquote>
<p>Файлы будут размещены в <code>/usr/bin</code> и <code>/usr/share/tesseract-ocr/tessdata</code>,
соответственно. Если Tesseract собран и установлен из <a href="https://github.com/tesseract-ocr/tesseract/wiki">исходного кода</a>,
то помещены в <code>/usr/local/bin</code> и <code>/usr/local/share/tessdata</code>.
Вы также можете сообщить VietOCR о расположении
<code>tessdata</code> через переменную <code>TESSDATA_PREFIX</code>:</p>
<blockquote>
<p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
</blockquote>
<p>Для других платформ, пожалуйста, обратитесь к странице <a href="https://github.com/tesseract-ocr/tesseract/wiki">
Tesseract Wiki</a>.</p>
<p>VietOCR также поддерживает загрузку и установку выбранных языковых пакетов
с помощью пункта меню <em>Загрузить языковые данные</em>. В зависимости от
расположения папки <code>tessdata</code>, вам может потребоваться запустить программу
от имени пользователя root или admin, что бы установить загруженные данные
в папку, находящуюся внутри системной, например, для Linux в <code>/usr</code>,
для Windows в <code>C:\Program Files</code>.</p>
<p>Поддержка сканирования в Windows обеспечивается библиотекой
Windows Image Acquisition версии 2.0.</p>
<p>В Linux для сканирования требуется установка пакетов SANE:</p>
<blockquote>
<p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
</blockquote>
<p>Поддержка PDF возможна через PDFBox.</p>
<p>Функциональность проверки орфографии доступна через Hunspell, чьи <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">
словари</a> (<code>.aff</code>, <code>.dic</code>) должны быть размещены
в папке <code>dict</code> VietOCR. <code>user.dic</code> - это файл в кодировке UTF-8,
который содержит список слов, выбранных пользователем, по одному слову в строке.</p>
<p>В Linux Hunspell и его словари можно установить с помощью Synaptic или <code>apt</code>
следующим образом:</p>
<blockquote><code>sudo apt-get install hunspell hunspell-en-us</code></blockquote>
<h3>ИНСТРУКЦИИ</h3>
<p>Чтобы запустить программу, наберите:</p>
<blockquote>
<p><code>java -jar VietOCR.jar</code></p>
</blockquote>
<p><b><u>Примечание</u></b>: Если вы столкнулись с сообщением о нехватки памяти,
запустите файл сценария <code>ocr</code> вместо использования .jar.</p>
<p>Языковой пакет вьетнамского языка был сгенерирован для шрифтов Times New Roman, Arial,
Verdana и Courier New. Таким образом, распознавание будет более успешным для
изображений с похожими глифами. Для распознавания изображений, глифы шрифтов
которых отличаются от поддерживаемых, обычно требуется <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">
обучение</a> Tesseract для создания другого языкового пакета специально для
этих шрифтов. Языковые пакеты для некоторых шрифтов VNI и TCVN3 (ABC) также
включены в последние версии.</p>
<p>Изображения, подлежащие распознаванию, должны быть отсканированы с разрешением
от 200 DPI (точек на дюйм) до 400 DPI в монохромном (чёрно-белом) или оттенках
серого. Сканирование с более высоким разрешением необязательно приведёт к
повышению точности распознавания, которая в настоящее время может превышать
97% для вьетнамского языка, а следующий выпуск Tesseract может повысить её
ещё больше. Тем не менее фактические показатели по-прежнему сильно зависят
от качества отсканированного изображения. Типичные настройки сканирования:
300 DPI и 1 bpp (бит на пиксель) в чёрно-белом формате или 8 бит в оттенках серого
в несжатом формате TIFF или PNG.</p>
<p>В <em>Режиме скриншота</em> обеспечивается лучшая скорость распознавания изображений
с низким разрешением, таких как снимки экрана, посредством масштабирования их до 300 DPI.</p>
<p>Помимо встроенного алгоритма постобработки текста, вы можете добавить свою схему
замены текста с помощью текстового файла <code>x.DangAmbigs.txt</code> в кодировке UTF-8,
где x - это код языка в ISO639-3. Поддерживаются как обычные текстовые замены, так и использование регулярных выражений.</p>
<p>Вы можете поместить параметры управления init-only и non-init в файлы
<code>tessdata/configs/tess_configs</code> и <code>tess_configvars</code> соответственно,
чтобы изменить поведение Tesseract.</p>
<p>Имеются встроенные инструменты для объединения нескольких изображений или файлов
PDF в один для удобства распознавания текста, или разделение TIFF и PDF файлов
на более мелкие, если они содержат слишком много страниц, что может привести к
нехватке памяти.</p>
<h3>ПОСТОБРАБОТКА</h3>
<p>Ошибки распознавания в целом можно разделить на три категории. Многие ошибки
связаны с регистром символов, например: hOa, nhắC — которые легко исправляются
при использовании популярных Unicode-текстовых редакторов. Другие - являются
результатом процесса оптического распознавания символов, например, пропущенные
диакритические знаки, неправильные буквы одинаковой формы и т. д. — huu – hưu,
mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Их также легко можно исправить используя
программы проверки орфографии. Встроенная функция постобработки может помочь
исправить многие из вышеупомянутых ошибок.</p>
<p>Ошибки последней категории труднее всего обнаружить, поскольку они являются
семантическими, что означает, что слова являются действительными элементами
словаря, но неверны в контексте, например: tinh – tình, vân – vấn. Эти ошибки требуют,
чтобы редактор сам нашёл их в полученном тексте и вручную исправил в соответствии
с исходным изображением.</p>
<p>Далее приведены инструкции по исправлению первых двух категорий ошибок OCR
используя встроенный функционал:</p>
<ol style="margin-top: 0in" start="1" type="1">
<li>Группы строк. Строки должны быть сгруппированы по абзацам, к которым они принадлежат,
так после распознавания символов каждая строка становится отдельным 1-строчным
абзацем. Используйте <i>Удалить разрывы строк</i> в меню <i>Формат</i>.
Обратите внимание, что эта операция может не понадобиться для стихов.</li>
<li>Выберите <i>Изменить регистр</i>, также расположенный в меню <i>Формат</i>,
выберите из <i>Предложенных вариантов</i> необходимый, чтобы исправить большинство
ошибок при определении регистра. Оставшиеся ошибки исправьте вручную.</li>
<li>Исправьте опечатки с помощью встроенной <i>Проверки орфографии</i>.</li>
</ol>
<p>С помощью описанного выше процесса можно устранить большинство распространенных
ошибок. Оставшихся семантических ошибок не так много, но для их исправления
требуется участие человека, чтобы сделать текст похожим на исходный
отсканированный документ и, при желании, не содержащий ошибок.</p>
<p>Если есть вопросы, обратитесь на <a href="http://sourceforge.net/projects/vietocr/forums">
Форум VietOCR</a>.</p>
<hr>
</div>
</body>
</html>