Unbeantwortete Themen | Aktive Themen Aktuelle Zeit: Sa 20. Okt 2018, 11:47



Auf das Thema antworten  [ 6 Beiträge ] 
ORC Probleme mit Tesseract 
Autor Nachricht

Registriert: Mo 14. Mär 2016, 08:35
Beiträge: 24
Hallo,

leider hat die ILS Nürnberg die Schriftart ihrer Faxe geändert. Seit diesem Zeitpunkt kann Tesseract die Schriftzeichen nur noch schlecht erkennen.

Gibt es eine Möglichkeit Tesseract an die neue Schriftart zu gewöhnen?

Schöne Grüße und schon mal Danke.


Mo 9. Jul 2018, 08:22
Profil

Registriert: Sa 10. Feb 2018, 16:26
Beiträge: 12
Ich habe Tesseract wieder zu akzeptablen Ergebnissen gebracht. Dazu habe ich ein deutsches Dictionary hinzugefügt, und den Aufruf dahingehend erweitert, dass das deutsche Dictionary verwendet werden soll. Das funktioniert dann zum größten Teil, allerdings kommt es bei "Mitteiler" oder auch "Patient" noch zu Fehlerkennungen, da in der neuen Schriftart manchen Buchstaben zusammenkleben.

Das habe ich dann dahingend umschifft, als dass ich den Parser erweitert habe. Der sucht nun vor der Behandlung des Faxes nach diesen fehlerhaften Treffern und ersetzt sie durch die korrekten Werte.

Damit läuft die Erkennung wieder sauber. In der Hoffnung, dass da nicht wieder dran geschraubt wird in den kommenden Wochen.

Grüße


Mo 23. Jul 2018, 14:13
Profil

Registriert: Mo 14. Mär 2016, 08:35
Beiträge: 24
Danke für die Unterstützung.

Habe mittlerweile eine ähnliche Lösung gefunden.
Ich habe auch ein Deutsches Wörterbuch eingebunden, allerdings habe ich dann bei Fehlerkennung (bei uns war es Bemerkung) einfach in der Configuration eine Regel erstellt. Damit läuft es jetzt auch wunderbar.

Um das Wörterbuch einzubinden habe ich einfach die Datei eng.trained ersetzt durch das deutsche Wörterbuch.

Laut ILS resultiert das Problem aus dem Update der Faxsoftware.


Mo 23. Jul 2018, 15:31
Profil

Registriert: Sa 10. Feb 2018, 16:26
Beiträge: 12
Ja, da wurde wohl Faxware durch DAVID Fax ersetzt. Die Qualität war vorher besser.


Mo 23. Jul 2018, 16:05
Profil

Registriert: Sa 23. Apr 2016, 17:40
Beiträge: 12
Hallo,

bei uns im Leitstellenbereich Straubing haben wir das selbe Problem. Nach Rücksürache mit der ILS haben sie ihr System geupdated.

Könnte jemand seine Lösung hier hochladen, beim Einbinden neuer .traineddata-Dateien wertet bei uns das Fax nicht mehr aus (werd wohl nicht die richtigen Dateien für die Tesseract-Version gefunden haben).

Schonmal vielen Dank im Voraus!


Do 26. Jul 2018, 10:15
Profil

Registriert: Sa 23. Apr 2016, 17:40
Beiträge: 12
Servus,

ich hab eine funktionierend Datei gefunden. Sie ist unten angehängt.
Einfach nur mit der Bestehenden ersetzen.


Dateianhänge:
eng-traineddata.zip [978.37 KiB]
28-mal heruntergeladen
Do 26. Jul 2018, 10:47
Profil
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Auf das Thema antworten   [ 6 Beiträge ] 

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste


Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
cron
Powered by phpBB® Forum Software © phpBB Group
Designed by ST Software for PTF.
Deutsche Übersetzung durch phpBB.de