-
Notifications
You must be signed in to change notification settings - Fork 17
/
readme_cs.html
122 lines (122 loc) · 9.14 KB
/
readme_cs.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>VietOCR - Uživatelské rozhraní Java pro Tesseract OCR</title>
</head>
<body>
<div class="Section1">
<h2 align="center">VietOCR</h2>
<h3>POPIS</h3>
<p><a href="http://vietocr.sourceforge.net">VietOCR</a> je rozhraní Java pro <a href="http://code.google.com/p/tesseract-ocr/">
systém rozpoznávání znaků Tesseract</a>, poskytující podporu rozpoznávání znaků pro běžné
formáty obrázků a vícestranové obrázky. Program obsahuje funkci dalšího zpracování,
která pomáhá při opravování chyb, které se pravidelně objavují při procesu rozpoznávání, a
tak se zvyšuje míra přesnosti výsledku. Program je též možné použít jako konzolovou
aplikaci, kterou je možné spustit z příkazového řádku.</p>
<p>Podporováno je nyní i dávkové zpracování. Program sleduje nové obrázkové soubory
ve sledované složce a automaticky je zpracuje pomocí OCR systému a výstup uloží
do výstupní složky.</p>
<h3>SYSTÉMOVÉ POŽADAVKY</h3>
<p><a href="https://www.oracle.com/java/technologies/downloads/">Java Runtime
Environment 8</a> or later. On Windows, <a href="https://docs.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist">Microsoft Visual C++ 2022 Redistributable Package</a> is also required.</p>
<h3>INSTALACE</h3>
<p>Tesseract Windows executable is bundled with the program. Additional <a href="https://github.com/tesseract-ocr/tessdata">
language data packs</a> for Tesseract, whose names start with ISO639-3 codes,
should be placed into the <code>tessdata</code> subdirectory.</p>
<p>V Ubuntu jsou Tesseract a jeho jazyková data součástí Graphics (universe) repository.
Můžete je nainstalovat pomocí Synaptic anebo příkazu:</p>
<blockquote>
<p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie</code></p>
</blockquote>
<p>The files will be placed in <code>/usr/bin</code> and <code>/usr/share/tesseract-ocr/tessdata</code>,
respectively. On the other hand, if Tesseract is built and installed from the <a href="https://github.com/tesseract-ocr/tesseract/wiki">source</a>,
they will be placed in <code>/usr/local/bin</code> and <code>/usr/local/share/tessdata</code>.
You can also let VietOCR know the location
of <code>tessdata</code> via the environment variable <code>TESSDATA_PREFIX</code>:</p>
<blockquote>
<p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
</blockquote>
<p>For other platforms, please consult <a href="https://github.com/tesseract-ocr/tesseract/wiki">
Tesseract Wiki</a> page.</p>
<p>VietOCR also provides support for downloading and installing selected language packs
via <em>Download Language Data</em> menu item. Depending on the location of the
<code>tessdata</code> folder, you may be required to run the program as root or
admin to be able to install the downloaded data into the folder if it is inside
a system folder, such as in <code>/usr</code> on Linux or <code>C:\Program Files</code>
on Windows.</p>
<p>Scanning support on Windows is provided via the Windows Image
Acquisition Library v2.0.</p>
<p>Podpora PDF je dostupná přes projekt PDFBox. Po jeho instalaci se, prosím, ujistěte, že sdílená knihovna
(<tt>gsdll32.dll</tt> anebo <tt>libgs.so</tt>) je v cestě (PATH), případně nastavte
patřičnou proměnnou prostředí. Ve Windows přidejte následující řetězec hodnotě <tt>Path</tt></p>
<blockquote>
<p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
</blockquote>
<p>PDF support is possible via PDFBox.</p>
<p>Spellcheck functionality is available through Hunspell, whose <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">
dictionary</a> files (<code>.aff</code>, <code>.dic</code>) should be placed
in <code>dict</code> folder of VietOCR. <code>user.dic</code> is an UTF-8-encoded
file which contains a list of custom words, one word per line.</p>
<p>On Linux, Hunspell and its dictionaries can be installed by Synaptic or <code>apt</code>,
as follows:</p>
<blockquote><code>sudo apt-get install hunspell hunspell-en-us</code></blockquote>
<h3><tt>java -jar VietOCR.jar</tt></h3>
<p><b></b></p>
<blockquote>
<p><code>java -jar VietOCR.jar</code></p>
</blockquote>
<p><b><u>Note</u></b>: If you encounter out-of-memory exception, run <code>ocr</code>
script file instead of using the .jar.</p>
<p>The Vietnamese language data were generated for Times New Roman, Arial, Verdana,
and Courier New fonts. Therefore, the recognition would have better success rate
for images having similar font glyphs. OCRing images that have font glyphs look
different from the supported fonts generally will require <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">
training</a> Tesseract to create another language data pack specifically for
those typefaces. Language data for some VNI and TCVN3 (ABC) fonts have also been
bundled in latest versions.</p>
<p>Images to be OCRed should be scanned at resolution from at least 200 DPI (dot per
inch) to 400 DPI in monochrome (black&white) or grayscale. Scanning at higher
resolutions will not necessarily result in better recognition accuracy, which currently
can be higher than 97% for Vietnamese, and the next release of Tesseract may improve
it even further. Even so, the actual rates still depend greatly on the quality of
the scanned image. The typical settings for scanning are 300 DPI and 1 bpp (bit
per pixel) black&white or 8 bpp grayscale uncompressed TIFF or PNG format.</p>
<p>DALŠÍ ZPRACOVÁNÍ</p>
<p>In addition to the built-in text postprocessing algorithm, you can add your own
custom text replacement scheme via a UTF-8-encoded tab-delimited text file named <code>x.DangAmbigs.txt</code>,
where x is the ISO639-3 language code. Both plain and Regex text replacements are supported.</p>
<p>You can put init-only and non-init control parameters in <code>tessdata/configs/tess_configs</code>
and <code>tess_configvars</code> files, respectively, to modify Tesseract's
behaviour.</p>
<p>Some built-in tools are provided to merge several images or PDF files into a single
one for convenient OCR operations, or to split a TIFF or PDF file into smaller ones
if it contains too many pages, which can cause out-of-memory exceptions.</p>
<h3>Poslední skupinou jsou chyby, které je těžké zjistit, protože jsoú to sémantické
chyby, což znamená, že daná slova se nacházejí ve slovníku, ale jsou chybná z hlediska
souvislosti napr. „cíp“ — „cip“ a pod. Tyto chyby si žádají, aby je opravil opravce
ručně podle původního obrázku.</h3>
<p>Další chyby jsou způsobeny procesem rozpoznávání - například chybějící diakritická
znaménka, zaměněné znaky („1“ — „l“). Takové chyby je možné poměrně lehce opravit
pomocí ověření pravopisu - kontroly překlepů (spellechecker). Vestavěné funkce pro
další zpracování vám mohou pomoci s výše uvedeným chybami.</p>
<p>Seskupení řádků. Řádky je potřeba seskupit tak, aby odpovídaly odstavcům, ke
kterým patří (1 odstavec = 1 řádek). Použijte na to funkci <i>Odstranit zalomení řádků</i>,
která se nachází v nabídce <i>Formát</i>. Taková operace není potřebná pro básně.</p>
<p>Zde jsou pokyny, jak opravit první dvě skupiny chyb vzniklých při rozpoznávání s
pomocí zabudovaných funkcí:</p>
<ol style="margin-top: 0in" start="1" type="1">
<li>Seskupení řádků. Řádky je potřeba seskupit tak, aby odpovídali odstavcům, ke kterým
patří (1 odstavec = 1 řádek). Použijte na to funkci <i>Odstranit zalomení řádků</i>,
která se nachází v nabídce <i>Formát</i>. Taková operace není potřebná pro básně.</li>
<li>Vyberte <i>Změnit velikost písmen</i>, z nabídky <i>Formát</i>, a potom <i>První
velké</i> na opravu chyb velikosti písmen. Následně opravte ostatní chyby velikosti
písmen (např. jména, názvy).</li>
<li>Pokud máte nějaké otázky, položte je ve <a href="http://sourceforge.net/projects/vietocr/forums">
fóru VietOCR</a>.</li>
</ol>
<p>-</p>
<p>-</p>
<hr>
</div>
</body>
</html>