Extrahieren Sie Text aus PDF- und Bilddateien

Haben Sie ein PDF -Dokument, aus dem Sie den gesamten Text extrahieren möchten? Was ist mit Bilddateien eines gescannten Dokuments, das Sie in bearbeitbaren Text umwandeln möchten? Dies sind einige der häufigsten Probleme, die mir bei der Arbeit mit Dateien am Arbeitsplatz aufgefallen sind.

In diesem Artikel werde ich über verschiedene Möglichkeiten sprechen, wie Sie versuchen können, Text aus einer PDF -Datei oder einem Bild zu extrahieren. Ihre Extraktionsergebnisse variieren je nach Art und Qualität des Textes im PDF oder Bild. Außerdem variieren Ihre Ergebnisse je nach verwendetem Tool. Probieren Sie daher am besten so viele der folgenden Optionen wie möglich aus, um die besten Ergebnisse zu erzielen.

Text aus Bild oder PDF extrahieren

Der einfachste und schnellste Einstieg ist, einen Online- PDF -Textextraktionsdienst auszuprobieren. Diese sind normalerweise kostenlos und können Ihnen genau das geben, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis hervorragenden Ergebnissen verwendet habe:

PDF extrahieren

auszugpdf

ExtractPDF ist ein kostenloses Tool zum Extrahieren von Bildern, Text und Schriftarten aus einer PDF -Datei. Die einzige Einschränkung besteht darin, dass die maximale Größe für die PDF -Datei 10 MB beträgt. Das ist ein bisschen klein; Wenn Sie also eine größere Datei haben, probieren Sie einige der anderen Methoden unten aus. Wählen Sie Ihre Datei aus und klicken Sie dann auf die Schaltfläche Datei senden . (Send file)Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes sehen, wenn Sie auf die Registerkarte Text klicken .

Texte herunterladen

Es ist auch ein netter zusätzlicher Vorteil, dass es auch Bilder aus der PDF -Datei extrahiert, falls Sie diese brauchen! Insgesamt funktioniert das Online-Tool großartig, aber ich bin auf ein paar PDF -Dokumente gestoßen, die mir lustige Ergebnisse liefern. Der Text wird gut extrahiert, aber aus irgendeinem Grund wird er nach jedem Wort einen Zeilenumbruch haben! Kein großes Problem für eine kurze PDF -Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn Ihnen das passiert, probieren Sie das nächste Tool aus.

Online-OCR

Online-OCR funktionierte normalerweise bei Dokumenten, die mit (Online OCR)ExtractPDF nicht richtig konvertiert wurden , daher ist es eine gute Idee, beide Dienste auszuprobieren, um zu sehen, welche Ihnen eine bessere Ausgabe liefern. Online-OCR hat auch einige nettere Funktionen, die sich für jeden als nützlich erweisen können, der eine große PDF -Datei hat, die nur Text auf ein paar Seiten und nicht das gesamte Dokument konvertieren muss.

Das erste, was Sie tun möchten, ist, ein kostenloses Konto zu erstellen. Es ist ein bisschen ärgerlich, aber wenn Sie das kostenlose Konto nicht erstellen, wird es Ihr PDF nur teilweise konvertieren und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochzuladen, können Sie mit einem Konto bis zu 100 MB pro Datei hochladen.

Online-OCR

Wählen Sie zuerst eine Sprache und dann die gewünschten Ausgabeformate für die konvertierte Datei aus. Sie haben ein paar Optionen und Sie können mehr als eine auswählen, wenn Sie möchten. Unter Mehrseitiges Dokument können Sie (Multipage document)Seitenzahlen(Page numbers) auswählen und dann nur die Seiten auswählen, die Sie konvertieren möchten. Dann wählen Sie die Datei aus und klicken auf Konvertieren(Convert) !

Online-OCR-Dokumente

Nach der Konvertierung werden Sie zum Abschnitt Dokumente(Documents) weitergeleitet (wenn Sie angemeldet sind), wo Sie sehen können, wie viele freie Seiten Sie noch haben, und Links zum Herunterladen Ihrer konvertierten Dateien. Es sieht so aus, als hätten Sie nur 25 Seiten pro Tag kostenlos zur Verfügung. Wenn Sie also mehr als das benötigen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.

Online OCR hat beim Konvertieren meiner (Online OCR)PDFs(PDF) hervorragende Arbeit geleistet, da es das tatsächliche Layout des Textes beibehalten konnte. In meinem Test habe ich ein Word - Dokument mit Aufzählungszeichen, verschiedenen Schriftgrößen usw. in ein PDF konvertiert . Dann habe ich es mit Online OCR wieder in das Word -Format konvertiert und es war zu etwa 95 % identisch mit dem Original. Das ist ziemlich beeindruckend für mich.

Und wenn Sie ein Bild in Text umwandeln möchten, kann Online OCR dies genauso einfach tun wie Text aus PDF - Dateien extrahieren.

Kostenlose Online-OCR

Da wir über Bild-zu-Text- OCR gesprochen haben, möchte ich eine weitere gute Website erwähnen, die wirklich gut mit Bildern funktioniert. Free Online OCR war sehr gut und sehr genau beim Extrahieren von Text aus meinen Testbildern. Ich habe mit meinem iPhone ein paar Fotos von Seiten aus Büchern, Broschüren usw. gemacht und war überrascht, wie gut es den Text konvertieren konnte.

kostenlose Online-OCR

Wählen Sie Ihre Datei aus und klicken Sie dann auf die Schaltfläche Hochladen . (Upload)Auf dem nächsten Bildschirm gibt es ein paar Optionen und eine Vorschau des Bildes. Sie können es zuschneiden, wenn Sie nicht das Ganze per OCR erfassen möchten. (OCR)Klicken Sie dann einfach auf die OCR -Schaltfläche und Ihr konvertierter Text wird unter der Bildvorschau angezeigt. Es hat auch keine Einschränkungen, was wirklich schön ist.

Zusätzlich zu den Online-Diensten gibt es zwei Freeware- PDF -Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird, um die Konvertierungen durchzuführen. Bei Online-Diensten benötigen Sie immer eine Internetverbindung(Internet) , und das ist möglicherweise nicht für jeden möglich. Allerdings ist mir aufgefallen, dass die Qualität der Konvertierungen aus den Freeware-Programmen deutlich schlechter war als die der Webseiten.

A-PDF-Textextraktor

A-PDF Text Extractor ist Freeware, die Text aus (A-PDF Text Extractor)PDF - Dateien ziemlich gut extrahiert . Nachdem Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen , um Ihre (Open)PDF -Datei auszuwählen . Klicken Sie dann auf Text extrahieren, um den Vorgang zu starten .(Extract)

apdf-Extraktor

Es fragt Sie nach einem Speicherort für die Textausgabedatei und beginnt dann mit dem Extrahieren. Sie können auch auf die Schaltfläche Option klicken , mit der Sie nur bestimmte Seiten zum Extrahieren und den Extraktionstyp auswählen können. Die zweite Option ist interessant, weil sie den Text in verschiedenen Layouts extrahiert und es sich lohnt, alle drei auszuprobieren, um zu sehen, welche die beste Ausgabe liefern.

PDF2Text-Pilot

PDF2Text Pilot  macht einen guten Job beim Extrahieren von Text. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen das Beste. Bei einigen PDFs funktionierte es gut , aber bei den meisten gab es zahlreiche Probleme.

pdf2text

Klicken Sie einfach auf Dateien hinzufügen(Add Files) und dann auf Konvertieren(Convert) . Klicken Sie nach Abschluss der Konvertierung auf Durchsuchen(Browse) , um die Datei zu öffnen. Ihre Laufleistung wird mit diesem Programm variieren, also erwarten Sie nicht viel.

Es ist auch erwähnenswert, dass Sie wirklich viel bessere Ergebnisse erzielen können, wenn Sie sich in einer Unternehmensumgebung befinden oder eine Kopie von Adobe Acrobat von der Arbeit in die Hände bekommen können. (Adobe Acrobat)Acrobat ist natürlich nicht kostenlos, aber es bietet Optionen zum Konvertieren von PDF in das Word- , Excel- und HTML -Format. Es leistet auch die beste Arbeit, die Struktur des Originaldokuments beizubehalten und komplizierten Text zu konvertieren.



About the author

Wenn es um Technologie geht, ist nichts wichtiger als Genauigkeit und Qualität. Wir bei Microsoft sind stolz auf unsere Fähigkeit, unseren Kunden das bestmögliche Erlebnis zu bieten. Unsere Windows- und iOS-Produkte gehören zu den innovativsten der Branche, und wir arbeiten ständig daran, sie zu verbessern. Unsere fehlerfreien PDFs sind ein weiterer Grund, warum unsere Produkte so erfolgreich sind. Wir wissen, dass Qualitätskontrolle bei Arbeitsabläufen und Kommunikation unerlässlich ist, deshalb achten wir sehr darauf, dass alle unsere PDFs fehlerfrei sind. Und schließlich verstehen wir als Gadget-Liebhaber, dass es immer eine Schlüsselpriorität ist, das Leben einfacher zu machen. Wir stellen sicher, dass alle unsere Lumia-Geräte mit Funktionen wie NFC und CarPlay ausgestattet sind, damit Sie Dateien ganz einfach mit Freunden und Familie teilen können. Mit diesen Fähigkeiten



Related posts