So extrahieren Sie Tabellen aus PDF-Dokumenten
Dieser Artikel zeigt Ihnen, wie Sie Tabellen aus PDF-Dokumenten extrahieren(extract tables from PDF documents) . Möglicherweise haben Sie viele PDF -Dateien mit mehreren Tabellen, die Sie separat verwenden möchten. Das Kopieren und Einfügen dieser Tabellen ist keine gute Option, da es möglicherweise nicht die erwartete Ausgabe liefert. Daher benötigen Sie einige andere einfache Optionen, mit denen Sie Tabellen aus einer (Copying)PDF -Datei extrahieren und diese Tabellen als separate Dateien speichern können.
Die meisten dieser Tools zum Extrahieren von PDF-Tabellen(PDF table extractor tools) können nicht helfen, wenn die PDF -Tabelle gescannt wird. In einem solchen Fall sollten Sie das PDF zunächst durchsuchbar machen(make the PDF searchable) und dann diese Optionen ausprobieren.
Extrahieren Sie Tabellen aus PDF-Dokumenten
In diesem Beitrag haben wir 2 kostenlose Online-Dienste und 3 kostenlose Software hinzugefügt, um Tabellen aus einer PDF -Datei zu extrahieren:
- PDF zu XLS
- PDFtoExcel.com
- Tabula
- ByteScout PDF-Multitool
- Sejda PDF-Desktop.
1] PDF zu XLS
PDF to XLS ist eine der besten Optionen zum Extrahieren von Tabellen aus PDF . Es hat zwei Funktionen, die es praktisch machen. Sie können Tabellen aus 20 PDF- Dokumenten zusammen abrufen. Außerdem erfolgt die Extraktion der PDF -Tabelle automatisch. Es generiert die Ausgabe als XLSX - Datei. Wenn eine PDF -Datei mehrere Tabellen enthält, wird jede Tabelle separat in verschiedenen Blättern der XLSX -Ausgabedatei gespeichert.
Öffnen Sie die Startseite(Open the homepage) dieses Dienstes. Ziehen Sie danach PDF(PDF) - Dateien per Drag & Drop oder verwenden Sie die Schaltfläche DATEIEN HOCHLADEN(UPLOAD FILES) . Jedes hochgeladene PDF wird automatisch in eine Datei im XLSX-Format konvertiert. Wenn die Ausgabedateien fertig sind, können Sie sie einzeln herunterladen oder eine ZIP -Datei herunterladen, die alle Ausgabedateien enthält.
2] PDFtoExcel.com
Der PDFtoExcel.com(PDFtoExcel.com) -Dienst kann Tabellen aus einer PDF -Datei auf einmal extrahieren, unterstützt jedoch mehrere Plattformen zum Hochladen von PDF -Dateien . Es unterstützt OneDrive- , Desktop- , Google Drive- und Dropbox- Plattformen zum Hochladen von PDF -Dateien . Außerdem ist der Konvertierungsprozess automatisch.
Diese Service-Homepage ist hier(here) . Wählen Sie dort eine Upload-Option aus, um PDF hinzuzufügen . Danach werden automatisch PDF -Dateien in Excel -Dateien ( XLSX ) hochgeladen und konvertiert. Wenn die Ausgabe fertig ist, erhalten Sie den Download-Link zum Speichern der Ausgabedatei mit PDF -Tabelle(n).
Hinweis: Obwohl dieser Dienst erwähnt, dass er auch Tabellen aus gescannten (Note: )PDF -Dateien extrahieren kann , hat er bei mir nicht funktioniert. Sie können es immer noch für gescannte PDFs(PDF) versuchen .
3] Tabelle
Tabula ist eine leistungsstarke Software, die in einer (Tabula)PDF -Datei vorhandene Tabellen automatisch erkennt und Sie diese Tabellen dann als TSV- , JSON- oder CSV -Datei speichern lässt. Sie können die Option auswählen, separate CSV - Dateien für jede PDF -Tabelle zu speichern oder alle Tabellen in einer einzigen CSV -Datei zu speichern.
Klicken Sie hier , um diesen (click here)Open-Source- PDF-Tabellenextraktor herunterzuladen . Es erfordert auch Java(requires Java) , um es erfolgreich auszuführen und zu verwenden.
Extrahieren Sie die heruntergeladene ZIP -Datei und führen Sie die Datei tabula.exe aus(tabula.exe) . Es öffnet sich eine Seite in Ihrem Standardbrowser. Wenn die Seite nicht geöffnet wird, fügen Sie http://localhost:8080 in Ihrem Browser hinzu und drücken Sie die Eingabetaste(Enter) .
Jetzt sehen Sie die Benutzeroberfläche, in der Sie die Option Durchsuchen verwenden können, um eine (Browse)PDF -Datei hinzuzufügen . Drücken Sie danach die Schaltfläche Importieren . (Import)Wenn das PDF hinzugefügt wird, können Sie PDF -Seiten auf seiner Oberfläche sehen.
Verwenden Sie die Schaltfläche „ Tabellen automatisch erkennen“, um alle in dieser (Autodetect Tables)PDF -Datei vorhandenen Tabellen automatisch hervorzuheben . Sie können eine Tabelle auch manuell hervorheben, indem Sie eine bestimmte Tabelle auswählen. Wenn Sie möchten, können Sie auch ausgewählte Tabellen(remove selected tables) Ihrer Wahl entfernen.
Dadurch können Sie nur die gewünschten Tabellen speichern. Wenn PDF - Tabellen hervorgehoben sind, klicken Sie auf die Schaltfläche „Vorschau und Export der extrahierten Daten “.(Preview & Export Extracted Data)
Verwenden Sie schließlich das Dropdown-Menü im oberen Teil, um ein Ausgabeformat auszuwählen, und klicken Sie auf die Schaltfläche Exportieren . (Export)Dadurch werden PDF -Tabellen in der von Ihnen ausgewählten Ausgabeformatdatei gespeichert.
4] ByteScout PDF-Multitool
Wie der Name schon sagt, enthält diese Software mehrere Tools. Es verfügt über Tools wie PDF in mehrseitiges TIFF konvertieren(convert PDF to multipage TIFF) , PDF- Dokument drehen(rotate PDF document) , PDF nicht durchsuchbar machen, PDF (make PDF unsearchable)optimieren(optimize PDF) , ein Bild zu PDF hinzufügen(add an image to PDF) und mehr. Die PDF(PDF) -Tabellenerkennungsfunktion ist ebenfalls vorhanden, was ziemlich großartig ist. Der Vorteil dieses Tools ist, dass Sie auch Tabellen aus gescannten PDFs extrahieren(extract tables from scanned PDF) können . Sie können Tabellen auf mehreren Seiten erkennen und diese Tabellen dann als Datei im CSV- , XLS- , XML- , TXT- oder JSON -Format extrahieren. Vor der Extraktion können Sie auch einen Seitenbereich festlegen(page range)um Tabellen nur von bestimmten Seiten zu extrahieren.
Sie können diese Software hier(here) herunterladen . Es ist nur für die nicht-kommerzielle Nutzung kostenlos(free for non-commercial use) . Führen Sie nach der Installation diese Software aus und verwenden Sie die Option „ Dokument öffnen “, um ein (Open Document)PDF hinzuzufügen . Klicken Sie danach auf das Werkzeug Tabellen erkennen(Detect tables) , wie im Bild oben hervorgehoben. Dieses Tool ist in der Kategorie Datenextraktion vorhanden.(Data Extraction)
Es öffnet sich ein Feld, in dem Sie Bedingungen zum Erkennen von Tabellen festlegen können. Sie können beispielsweise eine Mindestanzahl von Spalten, Zeilen, Mindestzeilenumbrüche zwischen Tabellen festlegen, den Tabellenerkennungsmodus auf gerahmte oder randlose Tabelle einstellen usw. Verwenden Sie Optionen oder behalten Sie die Standardeinstellungen bei.
Drücken Sie danach die Schaltfläche Nächste Tabelle erkennen(Detect next table) in diesem Feld. Es wird eine Tabelle auf der aktuellen Seite identifizieren und auswählen. Auf diese Weise können Sie zu einer anderen Seite wechseln und weitere Tabellen erkennen.
Wenn Sie fertig sind, verwenden Sie die Schaltfläche Weiter zum Extrahieren(Proceed to extraction) und wählen Sie das Ausgabeformat aus. Schließlich können Sie Optionen verwenden, um die Tabellen der aktuellen Seite zu speichern oder einen Seitenbereich zu definieren und die Ausgabe zu speichern.
Das Tool liefert eine zufriedenstellende Ausgabe. Aber manchmal erkennt es möglicherweise andere Inhalte in PDF und ist möglicherweise nicht in der Lage, Tabellen aus mehreren Seiten zu extrahieren. In diesem Fall sollten Sie es verwenden, um Tabellen einzeln abzurufen und zu speichern.
5] Sejda PDF-Desktop
Sejda PDF Desktop ist auch eine Mehrzwecksoftware. Es kann PDF optimieren oder komprimieren(compress PDF) , Wasserzeichen zu PDF hinzufügen, Einschränkungen aus PDF entfernen , (remove restrictions from PDF)PDF -Dokument bearbeiten usw. Der kostenlose Plan hat jedoch Einschränkungen. Im kostenlosen Plan können nur 3 Aufgaben pro Tag erledigt werden. Außerdem beträgt die PDF- Größenbeschränkung 50 MB oder 10 Seiten(10 pages) .
Sie können das PDF-zu-Excel -Konvertierungstool verwenden, um (PDF to Excel)PDF - Tabellen zu extrahieren . Es erkennt automatisch die Tabellen in PDF - Seiten und lässt Sie diese Tabellen als XLSX oder CSV speichern .
Der Download-Link ist hier(here) . Verwenden Sie nach der Installation das PDF - zu - Excel -Tool von der Hauptschnittstelle aus. Nachdem Sie dieses Werkzeug ausgewählt haben, verwenden Sie die Schaltfläche PDF-Dateien auswählen. (Choose PDF files)Dem kostenlosen Plan kann nur ein PDF hinzugefügt werden.
Wenn die PDF -Datei hinzugefügt wird, werden die Schaltflächen „ PDF in CSV(Convert PDF to CSV) konvertieren“ und „PDF in Excel konvertieren(Convert PDF to Excel) “ angezeigt. Verwenden Sie eine Schaltfläche und dann können Sie die Ausgabe an der gewünschten Stelle auf Ihrem PC speichern.
Das Tool zur Erkennung von PDF -Tabellen ist gut. Sie müssen Tabellen nicht manuell erkennen. Manchmal kann es jedoch anderen Textinhalt als PDF -Tabelle enthalten und in der Ausgabe speichern. Aber die Gesamtergebnisse sind gut.
Das ist alles.
Dies sind einige gute Tools, um Tabellen aus PDF zu extrahieren . Tabula -Software ist effektiver als andere Tools. Trotzdem können Sie alle Tools ausprobieren und prüfen, welche helfen.
Ähnliches liest:(Similar reads:)
- Anhänge aus PDF extrahieren(Extract attachments from PDF)
- Markierten Text aus PDF extrahieren(Extract highlighted text from PDF) .
Related posts
Document Converter: Konvertieren Sie DOC-, PDF-, DOCX-, RTF-, TXT- und HTML-Dateien
Was ist eine PPS-Datei? Wie konvertiert man PPS in PDF in Windows 11/10?
PDF-Text verschwindet beim Bearbeiten oder Speichern von Dateien in Windows 11/10
Die besten kostenlosen PDF-Editor-Online-Tools, die Cloud-basiert sind
Kostenloser PDF-Editor Online-Tool zum Bearbeiten von PDF-Dateien - PDF Yeah
So speichern Sie Webseiten als PDF in Chrome oder Firefox
Schwärzen Sie PDFs mit kostenloser PDF-Schwärzungssoftware und -diensten
Laden Sie den Windows Command Reference PDF Guide von Microsoft herunter
PDF24 Creator ist ein kostenloser PDF Creator zum Erstellen, Konvertieren und Zusammenführen von PDF-Dateien
7-PDF Website Converter: Konvertieren Sie Webseiten in PDF
Konvertieren Sie Word-, PowerPoint- und Excel-Dokumente mit Google Docs in PDF
Wie kann man hervorgehobenen Text aus PDF als Textdatei extrahieren?
Zeigen Sie Bilder und PDF-Dokumente schnell über den PRIMA Rapid Image Viewer an
So speichern Sie E-Mails als PDF in Google Mail und Outlook
Vergleichen Sie PDF-, HTML-, PPT- usw. Dokumente online mit diesen kostenlosen Tools
LightPDF ist ein umfassendes Online-PDF-Editor-Tool für alle Ihre PDF-Anforderungen
So konvertieren Sie ein PDF-Dokument in ein mehrseitiges TIFF-Bild in Windows
So konvertieren Sie Dokumente mit Google Docs über einen Browser in PDF
So konvertieren Sie Excel-Dateien online mit Google Drive in PDF
So konvertieren Sie Dokumente mit CutePDF für Windows 10 in PDF