Szöveg kibontása PDF- és képfájlokból

Van egy PDF - dokumentuma, amelyből ki szeretné bontani az összes szöveget? Mi a helyzet a beolvasott dokumentum képfájljaival, amelyeket szerkeszthető szöveggé szeretne konvertálni? Ezek a leggyakoribb problémák, amelyeket a munkahelyen tapasztaltam, amikor fájlokkal dolgozom.

Ebben a cikkben több különböző módszerről fogok beszélni, amelyek segítségével megpróbálhat szöveget kivonni PDF -ből vagy képből. A kivonatolás eredménye a PDF(PDF) -fájlban vagy a képben található szöveg típusától és minőségétől függően változhat . Ezenkívül az eredmények a használt eszköztől függően változnak, ezért a legjobb eredmény elérése érdekében a legjobb, ha az alábbi lehetőségek közül a legtöbbet kipróbálja.

Szöveg kibontása képből vagy PDF-ből

A kezdés legegyszerűbb és leggyorsabb módja egy online PDF -szövegkivonó szolgáltatás kipróbálása. Ezek általában ingyenesek, és pontosan azt nyújtják, amit keresel anélkül, hogy bármit is telepítenie kellene a számítógépére. Íme kettő, amit nagyon jótól kiválóig használtam:

PDF kibontása

kivonatpdf

Az ExtractPDF(ExtractPDF) egy ingyenes eszköz a képek, szövegek és betűtípusok PDF - fájlból való kiemelésére. Az egyetlen korlátozás az, hogy a PDF -fájl maximális mérete 10 MB. Ez egy kicsit kicsi; így ha nagyobb a fájlja, próbálja ki az alábbi módszerek valamelyikét. Válassza ki a fájlt, majd kattintson a Fájl küldése(Send file) gombra. Az eredmények általában nagyon gyorsak, és látnia kell a szöveg előnézetét, amikor a Szöveg(Text) fülre kattint.

szöveg letöltése

Az is jó plusz előny, hogy a PDF(PDF) fájlból is kivonja a képeket, ha szükséged van rájuk! Összességében az online eszköz nagyszerűen működik, de belefutottam néhány PDF - dokumentumba, amelyek vicces eredményeket adnak. A szöveget jól kivonatolja, de valamiért minden szó után sortörés lesz! Nem jelent nagy problémát egy rövid PDF -fájl, de minden bizonnyal probléma a sok szöveget tartalmazó fájlok esetében. Ha ez megtörténik Önnel, próbálja ki a következő eszközt.

Online OCR

Az online OCR(Online OCR) általában azoknál a dokumentumoknál működött, amelyek nem konvertáltak megfelelően az ExtractPDF segítségével(ExtractPDF) , ezért érdemes mindkét szolgáltatást kipróbálni, hogy megtudja, melyik ad jobb eredményt. Az online OCR(Online OCR) -nek van néhány szebb funkciója is, amelyek hasznosak lehetnek bárki számára, akinek nagy PDF - fájlja van, és csak néhány oldalon kell szöveget konvertálnia a teljes dokumentum helyett.

Az első dolog, amit tennie kell, az, hogy hozzon létre egy ingyenes fiókot. Ez kissé bosszantó, de ha nem hozza létre az ingyenes fiókot, akkor a PDF -fájlt csak részben konvertálja , nem pedig a teljes dokumentumot. Ezenkívül ahelyett, hogy csak egy 5 MB-os dokumentumot tölthetne fel, egy fiókkal fájlonként legfeljebb 100 MB-ot tölthet fel.

online ocr

Először válasszon nyelvet, majd válassza ki a konvertált fájlhoz kívánt kimeneti formátumok típusát. Van néhány lehetőséged, és ha szeretnél, egynél többet is választhatsz. A Többoldalas dokumentum(Multipage document) alatt kiválaszthatja az Oldalszámokat(Page numbers) , majd csak a konvertálni kívánt oldalakat. Ezután válassza ki a fájlt, és kattintson a Konvertálás(Convert) gombra !

online ocr dokumentumok

Az átalakítás után a Dokumentumok(Documents) szakaszba kerül (ha be van jelentkezve), ahol láthatja, hogy hány szabad oldala van még, és linkeket találhat a konvertált fájlok letöltéséhez. Úgy tűnik, csak napi 25 oldala van ingyen, így ha ennél többre van szüksége, akkor vagy várnia kell egy kicsit, vagy több oldalt kell vásárolnia.

Az online OCR(Online OCR) kiváló munkát végzett a PDF -eim konvertálásával , mert meg tudta őrizni a szöveg tényleges elrendezését. A tesztem során vettem egy Word -dokumentumot, amely felsorolásjeleket, különböző betűméreteket stb. használt, és PDF formátumba konvertáltam(PDF) . Aztán Online OCR -rel konvertáltam vissza Word formátumba, és körülbelül 95%-ban megegyezett az eredetivel. Ez elég lenyűgöző számomra.

Ráadásul, ha egy képet szöveggé szeretne konvertálni, az Online OCR ezt ugyanolyan egyszerűen megteheti, mint a szöveg kivonatolása PDF - fájlokból.

Ingyenes online OCR

Mivel a képről szövegre OCR(OCR) - ről beszéltünk , hadd említsek meg egy másik jó webhelyet, amely nagyon jól működik képeken. Az ingyenes online OCR(Free Online OCR) nagyon jó és nagyon pontos volt, amikor szöveget vontam ki a tesztképeimből. Készítettem pár fotót az iPhone-omról könyvek, brosúrák stb. oldalairól, és meglepődtem, hogy milyen jól képes konvertálni a szöveget.

ingyenes online ocr

Válassza ki a fájlt, majd kattintson a Feltöltés(Upload) gombra. A következő képernyőn van néhány lehetőség és a kép előnézete. Levághatod, ha nem akarod az egészet OCR -rel leírni. (OCR)Ezután kattintson az OCR gombra, és a konvertált szöveg megjelenik a kép előnézete alatt. Nincsenek korlátai, ami nagyon jó.

Az online szolgáltatásokon kívül két ingyenes PDF konverterről szeretnék említést tenni arra az esetre, ha a számítógépen helyileg futó szoftverre lenne szüksége a konvertáláshoz. Az online szolgáltatások esetén mindig szüksége lesz internetkapcsolatra(Internet) , és ez nem biztos, hogy mindenki számára lehetséges. Azonban észrevettem, hogy az ingyenes programok konverzióinak minősége lényegesen rosszabb volt, mint a webhelyeké.

A-PDF szövegkivonó

Az A-PDF Text Extractor(A-PDF Text Extractor) egy ingyenes szoftver, amely meglehetősen jó munkát végez a szöveg PDF - fájlokból történő kinyerésében. Miután letöltötte és telepítette, kattintson a Megnyitás(Open) gombra a PDF - fájl kiválasztásához. Ezután kattintson a Szöveg kibontása(Extract) gombra a folyamat elindításához.

apdf kivonó

Kérni fog egy helyet a szöveges kimeneti fájl tárolására, majd megkezdi a kicsomagolást. Kattintson az Opció(Option) gombra is, amely lehetővé teszi, hogy csak bizonyos oldalakat és a kibontás típusát válasszon ki. A második lehetőség azért érdekes, mert különböző elrendezésekben bontja ki a szöveget, és érdemes mindhárommal próbálkozni, hogy megtudja, melyik ad a legjobb eredményt.

PDF2Text Pilot

A PDF2Text Pilot(PDF2Text Pilot) jól végzi  a szöveg kibontását. Nincsenek választási lehetőségei; csak hozzáad fájlokat vagy mappákat, konvertál, és reméli a legjobbat. Néhány PDF(PDFs) -nél jól működött , de többségüknél számos probléma volt.

pdf2text

Csak kattintson a Fájlok hozzáadása(Add Files) , majd a Konvertálás(Convert) gombra . Ha az átalakítás befejeződött, kattintson a Tallózás(Browse) gombra a fájl megnyitásához. A futásteljesítmény változhat a program használatával, ezért ne számíts sokra.

Azt is érdemes megemlíteni, hogy ha vállalati környezetben tartózkodik, vagy a munkahelyén kézbe veheti az Adobe Acrobat egy példányát , akkor valóban sokkal jobb eredményeket érhet el. Az Acrobat(Acrobat) nyilvánvalóan nem ingyenes, de van lehetősége PDF -nek Word , Excel és HTML formátumba konvertálására. Ezenkívül ez teszi a legjobb munkát az eredeti dokumentum szerkezetének megőrzésében és a bonyolult szöveg konvertálásában.



About the author

iOS fejlesztő vagyok, több mint 10 éves tapasztalattal. Alkalmazások fejlesztésére specializálódtam iPhone és iPad készülékekre. Tapasztalattal rendelkezem felhasználói folyamatok felépítésében, egyéni fejlesztési készletek (CDK) létrehozásában, valamint különféle alkalmazásfejlesztési keretrendszerekkel való munkában. Korábbi munkám során az Apple App Store kezelését segítő eszközöket is kifejlesztettem, amelyek egy termékkezelő eszközt és egy alkalmazásbeküldő eszközt is tartalmaznak.



Related posts