Extrahieren Sie Text aus PDF- und Bilddateien
Haben Sie ein PDF -Dokument, aus dem Sie den gesamten Text extrahieren möchten? Was ist mit Bilddateien eines gescannten Dokuments, das Sie in bearbeitbaren Text umwandeln möchten? Dies sind einige der häufigsten Probleme, die mir bei der Arbeit mit Dateien am Arbeitsplatz aufgefallen sind.
In diesem Artikel werde ich über verschiedene Möglichkeiten sprechen, wie Sie versuchen können, Text aus einer PDF -Datei oder einem Bild zu extrahieren. Ihre Extraktionsergebnisse variieren je nach Art und Qualität des Textes im PDF oder Bild. Außerdem variieren Ihre Ergebnisse je nach verwendetem Tool. Probieren Sie daher am besten so viele der folgenden Optionen wie möglich aus, um die besten Ergebnisse zu erzielen.
Text aus Bild oder PDF extrahieren
Der einfachste und schnellste Einstieg ist, einen Online- PDF -Textextraktionsdienst auszuprobieren. Diese sind normalerweise kostenlos und können Ihnen genau das geben, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis hervorragenden Ergebnissen verwendet habe:
PDF extrahieren
ExtractPDF ist ein kostenloses Tool zum Extrahieren von Bildern, Text und Schriftarten aus einer PDF -Datei. Die einzige Einschränkung besteht darin, dass die maximale Größe für die PDF -Datei 10 MB beträgt. Das ist ein bisschen klein; Wenn Sie also eine größere Datei haben, probieren Sie einige der anderen Methoden unten aus. Wählen Sie Ihre Datei aus und klicken Sie dann auf die Schaltfläche Datei senden . (Send file)Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes sehen, wenn Sie auf die Registerkarte Text klicken .
Es ist auch ein netter zusätzlicher Vorteil, dass es auch Bilder aus der PDF -Datei extrahiert, falls Sie diese brauchen! Insgesamt funktioniert das Online-Tool großartig, aber ich bin auf ein paar PDF -Dokumente gestoßen, die mir lustige Ergebnisse liefern. Der Text wird gut extrahiert, aber aus irgendeinem Grund wird er nach jedem Wort einen Zeilenumbruch haben! Kein großes Problem für eine kurze PDF -Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn Ihnen das passiert, probieren Sie das nächste Tool aus.
Online-OCR
Online-OCR funktionierte normalerweise bei Dokumenten, die mit (Online OCR)ExtractPDF nicht richtig konvertiert wurden , daher ist es eine gute Idee, beide Dienste auszuprobieren, um zu sehen, welche Ihnen eine bessere Ausgabe liefern. Online-OCR hat auch einige nettere Funktionen, die sich für jeden als nützlich erweisen können, der eine große PDF -Datei hat, die nur Text auf ein paar Seiten und nicht das gesamte Dokument konvertieren muss.
Das erste, was Sie tun möchten, ist, ein kostenloses Konto zu erstellen. Es ist ein bisschen ärgerlich, aber wenn Sie das kostenlose Konto nicht erstellen, wird es Ihr PDF nur teilweise konvertieren und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochzuladen, können Sie mit einem Konto bis zu 100 MB pro Datei hochladen.
Wählen Sie zuerst eine Sprache und dann die gewünschten Ausgabeformate für die konvertierte Datei aus. Sie haben ein paar Optionen und Sie können mehr als eine auswählen, wenn Sie möchten. Unter Mehrseitiges Dokument können Sie (Multipage document)Seitenzahlen(Page numbers) auswählen und dann nur die Seiten auswählen, die Sie konvertieren möchten. Dann wählen Sie die Datei aus und klicken auf Konvertieren(Convert) !
Nach der Konvertierung werden Sie zum Abschnitt Dokumente(Documents) weitergeleitet (wenn Sie angemeldet sind), wo Sie sehen können, wie viele freie Seiten Sie noch haben, und Links zum Herunterladen Ihrer konvertierten Dateien. Es sieht so aus, als hätten Sie nur 25 Seiten pro Tag kostenlos zur Verfügung. Wenn Sie also mehr als das benötigen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.
Online OCR hat beim Konvertieren meiner (Online OCR)PDFs(PDF) hervorragende Arbeit geleistet, da es das tatsächliche Layout des Textes beibehalten konnte. In meinem Test habe ich ein Word - Dokument mit Aufzählungszeichen, verschiedenen Schriftgrößen usw. in ein PDF konvertiert . Dann habe ich es mit Online OCR wieder in das Word -Format konvertiert und es war zu etwa 95 % identisch mit dem Original. Das ist ziemlich beeindruckend für mich.
Und wenn Sie ein Bild in Text umwandeln möchten, kann Online OCR dies genauso einfach tun wie Text aus PDF - Dateien extrahieren.
Kostenlose Online-OCR
Da wir über Bild-zu-Text- OCR gesprochen haben, möchte ich eine weitere gute Website erwähnen, die wirklich gut mit Bildern funktioniert. Free Online OCR war sehr gut und sehr genau beim Extrahieren von Text aus meinen Testbildern. Ich habe mit meinem iPhone ein paar Fotos von Seiten aus Büchern, Broschüren usw. gemacht und war überrascht, wie gut es den Text konvertieren konnte.
Wählen Sie Ihre Datei aus und klicken Sie dann auf die Schaltfläche Hochladen . (Upload)Auf dem nächsten Bildschirm gibt es ein paar Optionen und eine Vorschau des Bildes. Sie können es zuschneiden, wenn Sie nicht das Ganze per OCR erfassen möchten. (OCR)Klicken Sie dann einfach auf die OCR -Schaltfläche und Ihr konvertierter Text wird unter der Bildvorschau angezeigt. Es hat auch keine Einschränkungen, was wirklich schön ist.
Zusätzlich zu den Online-Diensten gibt es zwei Freeware- PDF -Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird, um die Konvertierungen durchzuführen. Bei Online-Diensten benötigen Sie immer eine Internetverbindung(Internet) , und das ist möglicherweise nicht für jeden möglich. Allerdings ist mir aufgefallen, dass die Qualität der Konvertierungen aus den Freeware-Programmen deutlich schlechter war als die der Webseiten.
A-PDF-Textextraktor
A-PDF Text Extractor ist Freeware, die Text aus (A-PDF Text Extractor)PDF - Dateien ziemlich gut extrahiert . Nachdem Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen , um Ihre (Open)PDF -Datei auszuwählen . Klicken Sie dann auf Text extrahieren, um den Vorgang zu starten .(Extract)
Es fragt Sie nach einem Speicherort für die Textausgabedatei und beginnt dann mit dem Extrahieren. Sie können auch auf die Schaltfläche Option klicken , mit der Sie nur bestimmte Seiten zum Extrahieren und den Extraktionstyp auswählen können. Die zweite Option ist interessant, weil sie den Text in verschiedenen Layouts extrahiert und es sich lohnt, alle drei auszuprobieren, um zu sehen, welche die beste Ausgabe liefern.
PDF2Text-Pilot
PDF2Text Pilot macht einen guten Job beim Extrahieren von Text. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen das Beste. Bei einigen PDFs funktionierte es gut , aber bei den meisten gab es zahlreiche Probleme.
Klicken Sie einfach auf Dateien hinzufügen(Add Files) und dann auf Konvertieren(Convert) . Klicken Sie nach Abschluss der Konvertierung auf Durchsuchen(Browse) , um die Datei zu öffnen. Ihre Laufleistung wird mit diesem Programm variieren, also erwarten Sie nicht viel.
Es ist auch erwähnenswert, dass Sie wirklich viel bessere Ergebnisse erzielen können, wenn Sie sich in einer Unternehmensumgebung befinden oder eine Kopie von Adobe Acrobat von der Arbeit in die Hände bekommen können. (Adobe Acrobat)Acrobat ist natürlich nicht kostenlos, aber es bietet Optionen zum Konvertieren von PDF in das Word- , Excel- und HTML -Format. Es leistet auch die beste Arbeit, die Struktur des Originaldokuments beizubehalten und komplizierten Text zu konvertieren.
Related posts
So kombinieren oder führen Sie mehrere Textdateien zusammen
Bester kostenloser alternativer PDF-Viewer zu Adobe Reader
Konvertieren Sie einen Windows-PC mit Hyper-V in eine virtuelle Maschine
So ändern Sie die Farbe des Ordnersymbols in Windows
Das beste kostenlose Defragmentierungstool für Windows ist es selbst
So entfernen Sie das Passwort aus PDF mit kostenloser Software oder Online-Tool
Erfassen Sie Screenshots in definierten Zeitintervallen automatisch in Windows
So brennen, kopieren und sichern Sie eine CD oder DVD
10 praktische Tools, die Sie auf Ihrem USB-Flash-Laufwerk behalten können
So extrahieren Sie Symbole aus EXE-, DLL-, OCX- und CPL-Dateien
5 VR-Anwendungen, die keine Spiele sind
Die beste Open-Source-Software, die Sie verwenden sollten
Formatieren Sie eine SD-Karte auf einfache Weise
ImBatch ist eine kostenlose Batch-Bildverarbeitungssoftware für Windows-PCs
4 kostenlose Tools zum Entfernen doppelter Dateien und Fotos
Schnelleres Kopieren großer Dateien über das Netzwerk mit TeraCopy
HoneyView Review: Kostenlose schnelle Bildbetrachter-Software für Windows 10
So identifizieren Sie Musik oder Songs anhand des Klangs
Die 7 besten Apps zum Öffnen von JAR-Dateien unter Windows
So heften Sie Text und Bild an den Verlauf der Zwischenablage in Windows 11/10 an