Szöveg kibontása PDF- és képfájlokból
Van egy PDF - dokumentuma, amelyből ki szeretné bontani az összes szöveget? Mi a helyzet a beolvasott dokumentum képfájljaival, amelyeket szerkeszthető szöveggé szeretne konvertálni? Ezek a leggyakoribb problémák, amelyeket a munkahelyen tapasztaltam, amikor fájlokkal dolgozom.
Ebben a cikkben több különböző módszerről fogok beszélni, amelyek segítségével megpróbálhat szöveget kivonni PDF -ből vagy képből. A kivonatolás eredménye a PDF(PDF) -fájlban vagy a képben található szöveg típusától és minőségétől függően változhat . Ezenkívül az eredmények a használt eszköztől függően változnak, ezért a legjobb eredmény elérése érdekében a legjobb, ha az alábbi lehetőségek közül a legtöbbet kipróbálja.
Szöveg kibontása képből vagy PDF-ből
A kezdés legegyszerűbb és leggyorsabb módja egy online PDF -szövegkivonó szolgáltatás kipróbálása. Ezek általában ingyenesek, és pontosan azt nyújtják, amit keresel anélkül, hogy bármit is telepítenie kellene a számítógépére. Íme kettő, amit nagyon jótól kiválóig használtam:
PDF kibontása
Az ExtractPDF(ExtractPDF) egy ingyenes eszköz a képek, szövegek és betűtípusok PDF - fájlból való kiemelésére. Az egyetlen korlátozás az, hogy a PDF -fájl maximális mérete 10 MB. Ez egy kicsit kicsi; így ha nagyobb a fájlja, próbálja ki az alábbi módszerek valamelyikét. Válassza ki a fájlt, majd kattintson a Fájl küldése(Send file) gombra. Az eredmények általában nagyon gyorsak, és látnia kell a szöveg előnézetét, amikor a Szöveg(Text) fülre kattint.
Az is jó plusz előny, hogy a PDF(PDF) fájlból is kivonja a képeket, ha szükséged van rájuk! Összességében az online eszköz nagyszerűen működik, de belefutottam néhány PDF - dokumentumba, amelyek vicces eredményeket adnak. A szöveget jól kivonatolja, de valamiért minden szó után sortörés lesz! Nem jelent nagy problémát egy rövid PDF -fájl, de minden bizonnyal probléma a sok szöveget tartalmazó fájlok esetében. Ha ez megtörténik Önnel, próbálja ki a következő eszközt.
Online OCR
Az online OCR(Online OCR) általában azoknál a dokumentumoknál működött, amelyek nem konvertáltak megfelelően az ExtractPDF segítségével(ExtractPDF) , ezért érdemes mindkét szolgáltatást kipróbálni, hogy megtudja, melyik ad jobb eredményt. Az online OCR(Online OCR) -nek van néhány szebb funkciója is, amelyek hasznosak lehetnek bárki számára, akinek nagy PDF - fájlja van, és csak néhány oldalon kell szöveget konvertálnia a teljes dokumentum helyett.
Az első dolog, amit tennie kell, az, hogy hozzon létre egy ingyenes fiókot. Ez kissé bosszantó, de ha nem hozza létre az ingyenes fiókot, akkor a PDF -fájlt csak részben konvertálja , nem pedig a teljes dokumentumot. Ezenkívül ahelyett, hogy csak egy 5 MB-os dokumentumot tölthetne fel, egy fiókkal fájlonként legfeljebb 100 MB-ot tölthet fel.
Először válasszon nyelvet, majd válassza ki a konvertált fájlhoz kívánt kimeneti formátumok típusát. Van néhány lehetőséged, és ha szeretnél, egynél többet is választhatsz. A Többoldalas dokumentum(Multipage document) alatt kiválaszthatja az Oldalszámokat(Page numbers) , majd csak a konvertálni kívánt oldalakat. Ezután válassza ki a fájlt, és kattintson a Konvertálás(Convert) gombra !
Az átalakítás után a Dokumentumok(Documents) szakaszba kerül (ha be van jelentkezve), ahol láthatja, hogy hány szabad oldala van még, és linkeket találhat a konvertált fájlok letöltéséhez. Úgy tűnik, csak napi 25 oldala van ingyen, így ha ennél többre van szüksége, akkor vagy várnia kell egy kicsit, vagy több oldalt kell vásárolnia.
Az online OCR(Online OCR) kiváló munkát végzett a PDF -eim konvertálásával , mert meg tudta őrizni a szöveg tényleges elrendezését. A tesztem során vettem egy Word -dokumentumot, amely felsorolásjeleket, különböző betűméreteket stb. használt, és PDF formátumba konvertáltam(PDF) . Aztán Online OCR -rel konvertáltam vissza Word formátumba, és körülbelül 95%-ban megegyezett az eredetivel. Ez elég lenyűgöző számomra.
Ráadásul, ha egy képet szöveggé szeretne konvertálni, az Online OCR ezt ugyanolyan egyszerűen megteheti, mint a szöveg kivonatolása PDF - fájlokból.
Ingyenes online OCR
Mivel a képről szövegre OCR(OCR) - ről beszéltünk , hadd említsek meg egy másik jó webhelyet, amely nagyon jól működik képeken. Az ingyenes online OCR(Free Online OCR) nagyon jó és nagyon pontos volt, amikor szöveget vontam ki a tesztképeimből. Készítettem pár fotót az iPhone-omról könyvek, brosúrák stb. oldalairól, és meglepődtem, hogy milyen jól képes konvertálni a szöveget.
Válassza ki a fájlt, majd kattintson a Feltöltés(Upload) gombra. A következő képernyőn van néhány lehetőség és a kép előnézete. Levághatod, ha nem akarod az egészet OCR -rel leírni. (OCR)Ezután kattintson az OCR gombra, és a konvertált szöveg megjelenik a kép előnézete alatt. Nincsenek korlátai, ami nagyon jó.
Az online szolgáltatásokon kívül két ingyenes PDF konverterről szeretnék említést tenni arra az esetre, ha a számítógépen helyileg futó szoftverre lenne szüksége a konvertáláshoz. Az online szolgáltatások esetén mindig szüksége lesz internetkapcsolatra(Internet) , és ez nem biztos, hogy mindenki számára lehetséges. Azonban észrevettem, hogy az ingyenes programok konverzióinak minősége lényegesen rosszabb volt, mint a webhelyeké.
A-PDF szövegkivonó
Az A-PDF Text Extractor(A-PDF Text Extractor) egy ingyenes szoftver, amely meglehetősen jó munkát végez a szöveg PDF - fájlokból történő kinyerésében. Miután letöltötte és telepítette, kattintson a Megnyitás(Open) gombra a PDF - fájl kiválasztásához. Ezután kattintson a Szöveg kibontása(Extract) gombra a folyamat elindításához.
Kérni fog egy helyet a szöveges kimeneti fájl tárolására, majd megkezdi a kicsomagolást. Kattintson az Opció(Option) gombra is, amely lehetővé teszi, hogy csak bizonyos oldalakat és a kibontás típusát válasszon ki. A második lehetőség azért érdekes, mert különböző elrendezésekben bontja ki a szöveget, és érdemes mindhárommal próbálkozni, hogy megtudja, melyik ad a legjobb eredményt.
PDF2Text Pilot
A PDF2Text Pilot(PDF2Text Pilot) jól végzi a szöveg kibontását. Nincsenek választási lehetőségei; csak hozzáad fájlokat vagy mappákat, konvertál, és reméli a legjobbat. Néhány PDF(PDFs) -nél jól működött , de többségüknél számos probléma volt.
Csak kattintson a Fájlok hozzáadása(Add Files) , majd a Konvertálás(Convert) gombra . Ha az átalakítás befejeződött, kattintson a Tallózás(Browse) gombra a fájl megnyitásához. A futásteljesítmény változhat a program használatával, ezért ne számíts sokra.
Azt is érdemes megemlíteni, hogy ha vállalati környezetben tartózkodik, vagy a munkahelyén kézbe veheti az Adobe Acrobat egy példányát , akkor valóban sokkal jobb eredményeket érhet el. Az Acrobat(Acrobat) nyilvánvalóan nem ingyenes, de van lehetősége PDF -nek Word , Excel és HTML formátumba konvertálására. Ezenkívül ez teszi a legjobb munkát az eredeti dokumentum szerkezetének megőrzésében és a bonyolult szöveg konvertálásában.
Related posts
Több szöveges fájl egyesítése vagy egyesítése
A legjobb ingyenes alternatív PDF-nézegető az Adobe Readerhez
Konvertálja a Windows PC-t virtuális géppé a Hyper-V segítségével
A mappaikon színének megváltoztatása a Windows rendszerben
A legjobb ingyenes töredezettség-mentesítő eszköz a Windows számára maga
HTML-kód a szöveg kép köré fonni
Gyorsan megtekintheti a képeket és a PDF-dokumentumokat a PRIMA Rapid Image Viewer segítségével
Másoljon gyorsabban nagy fájlokat a hálózaton keresztül a TeraCopy segítségével
Gyorsan megtekintheti a keresési előzményeket a Windows összes böngészőjében
Konvertálja a Windows könyvtárat HTML-listává
A Kindle asztali alkalmazás: jó?
Képernyőképek automatikus rögzítése meghatározott időközönként a Windows rendszerben
Mappa hozzárendelése meghajtóbetűjelhez a Windows rendszerben
Ingyenes online OCR-webhelyek és szolgáltatások szövegek képből való kinyeréséhez
Két mappa valós időben történő szinkronizálása a Windows rendszerben
Ikonok kibontása EXE, DLL, OCX és CPL fájlokból
ISO képfájlok létrehozása, felszerelése és írása ingyenesen
Fájlok megosztása számítógépek, okostelefonok és táblagépek között
Formázza meg az SD-kártyát az Easy Way módon
6 ingyenes Blu-ray lemezíró szoftveralkalmazás