Unbeantwortete Themen | Aktive Themen Aktuelle Zeit: Di 22. Aug 2017, 09:13



Auf das Thema antworten  [ 15 Beiträge ]  Gehe zu Seite 1, 2  Nächste
PDF als Alarmqelle 
Autor Nachricht

Registriert: So 31. Aug 2014, 14:58
Beiträge: 22
Hallo alle zusammen,

es ist für die Zukunft ja vorgesehen das AW auch PDF`s verarbeiten kann, da es viele Nutzer gibt die Faxe z.B. über die FritzBox empfangen. Da ich auch zu diesen Nutzern gehöre habe ich das ganze mal durchgetestet und bin auf ein paar Probleme gestoßen. Es wurde auf die naheliegende Lösung mit Konvertierung per Postscript zurückgegriffen. Allerdings musste ich feststellen das die Texterkennung darunter leidet.
Mit der Software Foldermill konnte ich schon etwas bessere Ergebnisse erreichen, aber ist ein bisschen viel zusätzliche Software.

Nun kam in mir die Frage auf, warum konvertieren und nicht die in das PDF eingebettete Bilddatei direkt nutzen.

ich habe das ganze noch mal mit pdfimages.exe aus Xpdf probiert. Die BPM Datei kann von Tesseract gelesen werden und die Erkennung scheint mir wesentlich besser zu funktionieren. Zumindest für PDFs einer Fritzbox ist diese Lösung vielleicht die bessere.

Mit freundlichem Gruß
Martin


Do 31. Dez 2015, 16:01
Profil
Benutzeravatar

Registriert: Di 22. Sep 2015, 15:02
Beiträge: 115
Hallo,

zu erst mal würde mich kurz interessieren, ob du PostScript direkt genutzt hast, oder eine selbst kompilierte Version von AW aus Github? Ich habe dort letzten Sommer den PDF-Support für das Alarmfax eingebaut, eben weil wir auch den "Umweg" über die Fritz.Box gehen. Bei uns hat dort die Texterkennung immer wunderbar funktioniert.

Der Grund warum ich es damals mit Postscript gelöst habe war, weil ich keinen schnellen weg gefunden habe das Bild zu extrahieren ohne zusätzliche Software zu nutzen. So erschien mir dieser Weg am einfachsten bzw. zuverlässigsten, da es dazu bereits eine sehr zuverlässige Library gibt.

Mittlerweile tendiere ich dazu, dir zuzustimmen und es ebenfalls über das extrahieren der Bilder aus dem PDF zu machen. Dies sollte jedoch nicht über ein externes Programm, sondern C# intern gehen. Das ganze funktioniert in einem derzeitigen Pull-Request ganz gut (hier zu sehen, die Bilder werden aus dem PDF ausgelesen um sie zu drucken).
Das ganze hat nur den haken, dass in PDF die Bilder in unterschiedlichen Dateitypen gespeichert werden können. Die benutzte Library (https://github.com/gheeres/PDFSharp.Extensions) unterstützt dabei leider kein "ccittFaxDecode", welcher beim Fax benutzt wird. Es gibt zwar einen Pull request, dieser wurde aber seit über einem Jahr nicht bearbeitet.
Vllt. könnte man das ganze forken. Ich werde es mir die Tage mal etwas genauer ansehen.

Grüße und'n guten Rutsch,
F4lcon


Do 31. Dez 2015, 17:12
Profil

Registriert: So 31. Aug 2014, 14:58
Beiträge: 22
Hallo F4icon,

Wenn es dich interessiert kannst du dir die Dateien ansehen die ich im Briefkasten abgelegt habe.
Bei der Texterkennung gab es hauptsächlich den Fehler das: als = interpretiert wurde.

Habe die Next Version von github compiliert.


Do 31. Dez 2015, 18:21
Profil
Benutzeravatar

Registriert: Di 22. Sep 2015, 15:02
Beiträge: 115
Danke, aber auf den Briefkasten habe ich keinen Zugriff ;)
Ja, dieses Problem hatten wir auch, es kommt mir dahingegend also sehr bekannt vor.
Wir haben es gelöst, indem wir eine neue Version von Tesseract (3.03) benutzt haben. Das mit dem Bild extrahieren klingt da aber sehr gut, wenn es bessere Ergebnisse liefert.

Danke,
F4lcon


Do 31. Dez 2015, 19:06
Profil

Registriert: So 31. Aug 2014, 14:58
Beiträge: 22
Ich habe das ganze jetzt mal integriert und es funktioniert sehr gut.
Ich gehe mal davon aus das alle FritzBoxen die PDFs gleich erzeugen, also sollte das auch bei anderen FritzBox PDFs funktionieren.

Allerdings entsprechen meine Programmierkenntnisse nicht annähernd den hohen Standarts des Projekts, gerade was Robustheit und Logging angeht. Falls dennoch jemand Interesse daran hat stelle ich meinen Code natürlich gerne zur Verfügung.

Gruß Martin


Mo 4. Jan 2016, 00:12
Profil
OpenFireSource-Team
Benutzeravatar

Registriert: So 18. Nov 2012, 21:57
Beiträge: 2640
Gerne kannst du uns deinen Code einfach mal zur Verfügung stellen. Gemeinsam finden sich da sicher Lösungen.
LG
Flo

_________________
Projektleitung
--------
Kein Support via PN!


Mi 6. Jan 2016, 11:57
Profil

Registriert: Mo 28. Okt 2013, 21:38
Beiträge: 137
Da ich auch der Meinung bin, dass PDF Unterstützung beim Empfang wichtig ist habe ich auch das ganze mal ausgetestet.
Wenn ich ein Leitstellen-TIF in PDF umwandle habe ich auch das Problem mit den : und =

Kann man vielleicht noch die Trainigsdatei optimieren?


Mi 6. Jan 2016, 13:32
Profil

Registriert: So 31. Aug 2014, 14:58
Beiträge: 22
Hallo FlorianOlching,

hab es im Briefkasten abgelegt.


Mi 6. Jan 2016, 15:36
Profil

Registriert: Mi 30. Dez 2015, 17:51
Beiträge: 40
Hallo zusammen,

da ich über den Jahreswechsel ein wenig Zeit hatte habe ich mich auch mal generell an die Software Alarmworkflow gemacht. Da wir die Faxe auch über eine FritzBox (7490) erhalten, habe ich das gleiche Problem. Ich habe hier im Forum keine Lösung dafür gefunden und mich daher auch mal etwas umgesehen. Dabei bin ich auf folgendes Projekt gestoßen:

http://www.codeproject.com/Articles/32274/How-To-Convert-PDF-to-Image-Using-Ghostscript-API

Hier wird per DllImport direkt mittels GhostScript DLL konvertiert. (Ggf. müsste man rechtlich klären ob diese dll benutzt werden darf!)

Die Ergebnisse der Konvertierung und die anschließende Erkennung über die Alarmworkflow beiliegende tesseract OCR brachten in meinem Fall beste Ergebnisse. Ich habe allerdings erst etwa ein Dutzend Faxe getestet. Mit dem Testtool des Projektes lässt sich das aber relativ schnell testen.

Ich habe das mal kurzerhand in die Fax-Alarmquelle integriert und die Konvertierung quasi der eigentlichen Prozessierung vorgeschaltet. Das hat den Vorteil dass man am restlichen workflow nichts ändern muss.
Alles aber nur mal rudimentär um zu testen ob es überhaupt funktioniert.

Gruß
Patrick


Mi 6. Jan 2016, 18:17
Profil
Benutzeravatar

Registriert: Di 22. Sep 2015, 15:02
Beiträge: 115
ks91 hat geschrieben:
Kann man vielleicht noch die Trainigsdatei optimieren?

Meines Wissens nein. Wir haben da auch Ewigkeiten rum gerätselt und als Lösung blieb eben nur ein Tesseract Upgrade.

Ich habe mir in den letzten Tagen die PDFSharp.Extensions genauer angeschaut und muss meinen vorherigen Post etwas korrigieren. Es unterstützt "ccittFaxDecode"-Images, der Pull-Request bezieht sich auf die ccitt group 3 compression. Diese wird aber beim Fax der Fritz.Box benötigt.
Desweiteren ist es mir nicht gelungen, das Bild über C# zu extrahieren. Ich bekomme leider nur einen "EOL-Error". Wer sich mit dem TIFF-Format etwas besser, kann sich dort gerne mal austoben. Dann würden wir kein externes Programm dazu benötigen.

Auch pdfimages.exe hab ich mir etwas genauer angeschaut. Wie hast du das Problem dort mit einem mehrseitigen Alarmfax gelöst? Dann würden zwei Bilder entstehen ;)


Mi 6. Jan 2016, 18:57
Profil
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Auf das Thema antworten   [ 15 Beiträge ]  Gehe zu Seite 1, 2  Nächste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast


Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
Powered by phpBB® Forum Software © phpBB Group
Designed by ST Software for PTF.
Deutsche Übersetzung durch phpBB.de