-
Notifications
You must be signed in to change notification settings - Fork 17
/
readme_it.html
80 lines (80 loc) · 9.16 KB
/
readme_it.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>VietOCR - Un'interfaccia grafica in java per Tesseract OCR</title>
</head>
<body>
<div class="Section1">
<h2 align="center">VietOCR</h2>
<h3>DESCRIZIONE</h3>
<p><a href="http://vietocr.sourceforge.net">VietOCR</a> è un'interfaccia grafica per<a href="https://github.com/tesseract-ocr">Tesseract OCR engine</a>, fornisce supporto per il riconoscimento dei caratteri per i formati immagine più comuni. Il programma dispone di software di post-elaborazione che aiuta a correggere gli errori che susseguono nel processo di riconoscimento, aumentando il grado di precisione del risultato. Il programma può anche funzionare come applicazione console, eseguendo i comandi tramite linea di comando.</p>
<p>L'elaborazione in batch è ora supportata. Il programma controlla una cartella per
ricercare il file della nuova immagine, che elabora automaticamente attraverso il
motore OCR, e salva i risultati in una cartella di output.</p>
<h3>REQUISITI DEL SISTEMA</h3>
<p><a href="https://www.oracle.com/java/technologies/downloads/">Java Runtime Environment 8</a> o superiore. On Windows, <a href="https://docs.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist">Microsoft Visual C++ 2022 Redistributable Package</a> is also required.</p>
<h3>INSTALLAZIONE</h3>
<p>Tesseract eseguibile di Windows è fornito assieme al programma. Un <a href="https://github.com/tesseract-ocr/tessdata"> Pacchetto dati lingua</a> per Tesseract, il cui nome inizia con il codice ISO639-3, dovrebbe essere inserito nella sottocartella <code>tessdata</code>.</p>
<p>Per Linux, Tesseract ed i suoi pacchetti di dati linguistici si trovano nella cartella (universo) Grafica . Possono essere installati tramite Synaptic o con il seguente comando:</p>
<blockquote>
<p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita</code></p>
</blockquote>
<p>I file saranno inseriti in <code>/usr/bin</code> e <code>/usr/share/tesseract-ocr/tessdata</code>, rispettivamente. D'altra parte, se Tesseract è costruito e installato dai file<a href="https://github.com/tesseract-ocr/tesseract/wiki"></a><a href="https://github.com/tesseract-ocr/tesseract/wiki">sorgenti </a>, saranno messi in <code>/usr/local/bin</code> e <code>/usr/local/share/tessdata</code>. È anche possibile lasciare che VietOCR riconosca automaticamente la posizione della cartella <code>tessdata</code> tramite la variabile <code>TESSDATA_PREFIX</code>:</p>
<blockquote>
<p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
</blockquote>
<p>Per altre piattaforme consultare la pagina <a href="https://github.com/tesseract-ocr/tesseract/wiki">Tesseract Wiki</a>.</p>
<p>VietOCR fornisce anche il supporto per il download e l'installazione di Pacchetti Lingue selezionati attraverso <em>Download Pacchetti Dati</em> che si trova nel menù. A seconda della posizione della cartella <code>tessdata</code>, potrebbe essere necessario eseguire il programma come root o admin per essere in grado di installare i dati scaricati, come ad esempio in <code>/usr</code> su Linux o <code>C:\Program Files</code> in Windows.</p>
<p>Il supporto per lo scnnering viene fornito da Windows Image Acquisition Library v2.0.</p>
<p>Su Linux, la scansione richiede l'installazione di pacchetti di SANE:</p>
<blockquote>
<p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
</blockquote>
<p>Il supporto PDF è disponibile con PDFBox.</p>
<p>La funzionalità di controllo ortografico è disponibile attraverso Hunspell, il cui <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">dizionario</a> (<code>.aff</code>, <code>.dic</code>) deve essere posto nella cartella <code>dict</code> di VietOCR. <code>user.dic</code> è un file criptato UTF-8 che contiene una lista di parole predefinite, una per linea.</p>
<p>Su Linux, Hunspell ed i suoi dizionari possono essere installati da Synaptic o <code>apt</code>, come segue:</p>
<blockquote><code>sudo apt-get install hunspell hunspell-en-us myspell-it</code></blockquote>
<h3>ISTRUZIONI</h3>
<p>Per lanciare il programma:</p>
<blockquote>
<p><code>java -jar VietOCR.jar</code></p>
</blockquote>
<p><b><u>Note</u></b>: Se si verificano errori di out-of-memory , eseguire lo script<code>ocr</code> invece di utilizzare il .jar.</p>
<p>I dati nella lingua vietnamita sono stati generati per Times New Roman, Arial, Verdana, e font Courier New. Pertanto, il riconoscimento risulta migliore per le immagini che hanno le grafie di caratteri simili. Per le immagini OCR che hanno grafia dei caratteri diversi dai caratteri supportati generalmente bisognerà <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">creare</a> un altro pacchetto di lingua dati appositamente per quei caratteri tipografici. Dati linguistici per alcune tipografie VNI e TCVN3 (ABC) sono stati anche aggiunti nelle ultime versioni.</p>
<p>Le immagini da acquisire devono essere scansionate ad una risoluzione di almeno 200 dpi fino a 400 DPI in modo monocromatico (bianco e nero) o in scala di grigi. La scansione a risoluzioni più elevate non necessariamente si traduce in una migliore precisione del riconoscimento, che attualmente può essere superiore al 97% per i linguaggi Vietnamiti, e che per la prossima versione di Tesseractsono previsti miglioramenti. Anche così, i risulatati effettivi dipendono ancora molto dalla qualità del dell'immagine acquisita. Le impostazioni tipiche per la scansione sono 300 DPI e 1 bpp (bit per pixel ) in bianco e nero oppure in scala di grigi a 8 bpp tramite immagini TIFF o PNG.</p>
<p>La modalità <em>Screenshot</em> offre risultati migliori per immagini con risoluzione più bassa, come serigrafie, che vengono riscalate a 300 DPI.</p>
<p>Oltre all' algoritmo integrato di post-elaborazione del testo, è possibile aggiungere il proprio schema personalizzato del testo tramite un file di testo denominato UTF-8-encoded tab-delimited <code>x.DangAmbigs.txt</code>, dove x è il codice ISO639-3 della lingua. Entrambe le sostituzioni di testo normale e Regex sono supportati.</p>
<p>Alcuni strumenti integrati sono forniti per unire più immagini o file PDF in un unico documento. Altre per comode operazioni di OCR, o per dividere un file PDF in qdocumenti più piccoli se è troppo grande, che può causare rallentamenti al programma.</p>
<h3>POST ELABORAZIONE</h3>
<p>Gli errori di riconoscimento possono generalmente essere classificati in tre categorie.
Molti degli errori sono legati ai caratteri maiuscoli e minuscoli - per esempio:
mamma, mAmma - che possono essere facilmente corretti da editor di testo Unicode.
Molti altri errori sono il risultato del processo OCR, ad esempio mancano segni
diacritici, lettere sbagliate con forme simili, ecc - cane - canè, patata - pataca,
scur0 - scuro, la - 1a, è - é. Questi possono anche essere facilmente corretti dai
programmi di controllo ortografico. La funzione di post elaborazione può aiutare
a correggere gli errori elencati sopra.</p>
<p>L'ultima categoria di errori è la più difficile da rilevare perché sono errori di
semantica, il che significa che le parole sono voci valide nel dizionario, ma sono
sbagliate in quel determinato contesto - ad esempio, ce - c'è, fa - fà. Questi errori
devono essere corretti manualmente attraverso il confronto con l'immagine originale.</p>
<p>Di seguito sono riportate le istruzioni su come correggere le prime due categorie
di errori OCR utilizzando le funzionalità implementate:</p>
<ol style="margin-top: 0in" start="1" type="1">
<li>Gruppo linee. Le linee devono essere raggruppate al paragrafo a cui appartengono,
una volta eseguito l'OCR, ogni riga diventa un carattere di separazione all'interno
del paragrafo. Utilizzare <i>Rimuovere le interruzioni di riga</i> che si trova
sotto la voce <i>Formato</i> del menu. Si noti che questa operazione potrebbe non
essere necessaria per le poesie.</li>
<li>Selezionare <i>Modifica carattere</i>, che si trova nel menù <i>Formato</i> scegliere
<i>Carattere Frase</i> per correggere la maggior parte degli errori riguardanti
il carattere delle lettere.</li>
<li>Correggere gli errori di ortografia con l'opzione <i>Controlla Ortografia</i>.</li>
</ol>
<p>Attraverso il processo sopra citato, la maggior parte degli errori comuni possono essere eliminati. I restanti errori semantici sono di norma pochi, ma richiedono un redattore umano per essere corretti attraverso il confronto con l'immagine originale.</p>
<p>Se hai qualche domanda scrivila sul <a href="http://sourceforge.net/projects/vietocr/forums">
Forum di VietOCR</a>.</p>
<hr>
</div>
</body>
</html>