Jos olet opiskelija tai työhösi liittyy paljon kuvien ja PDF-tiedostojen käsittelyä, olisit jossain vaiheessa tuntenut tarvetta poimia tekstiä kuvasta tai asiakirjasta.
Onneksi tekstin purkaminen mahdollistaa tämän. Ja on olemassa useita työkaluja, joita voit käyttää tähän. gImageReader on yksi monista työkaluista. Se on ilmainen käyttää ja toimii sekä kuvatiedostojen että PDF-dokumenttien kanssa.
Sukellaanpa tutustumaan gImageReaderiin yksityiskohtaisesti ja katsomaan, kuinka voit käyttää sitä tekstin poimimiseen kuvista ja PDF-tiedostoista.
Mikä on gImageReader?
gImageReader on sovellus, jonka avulla voit poimia tekstiä kuvista ja PDF-tiedostoista Linuxissa. Se on pohjimmiltaan graafinen käyttöliittymä tai käyttöliittymä Tesseact OCR -moottori, an avoin lähdekoodi Hewlett-Packardin kehittämä moottori, jota pidetään yhtenä parhaista saatavilla olevista OCR-moottoreista.
gImageReaderin avulla voit helposti ja melko tarkasti poimia tekstiä kuvista tai PDF-dokumenteista muutamalla yksinkertaisella napsautuksella. Voit sitten viedä puretun tekstin teksti- tai PDF-tiedostoon myöhempää käyttöä varten.
gImageReaderin ominaisuudet
gImageReader sisältää seuraavat ominaisuudet:
- Tuo PDF-dokumentteja ja kuvia eri lähteistä (levy, skannauslaitteet, leikepöytä ja kuvakaappaus)
- Eräkäsittely kuvista tai asiakirjoista, eli poimi tekstiä useista kuvista tai asiakirjoista kerralla
- Tunnista tekstinpätkät tavalliseksi tekstiksi tai hOCR-asiakirjoiksi
- Sisäänrakennettu oikeinkirjoituksen tarkistus
- Automaattinen tekstialueen tunnistus
- Peruskuvan/asiakirjan muokkaus
- Tallenna tulos tekstitiedostona
Kuinka asentaa gImageReader Linuxiin
gImageReader on saatavilla osoitteessa useimmat suuret Linux-distrot. Mutta ennen kuin jatkat sen asennusta, sinun on asennettava Tesseract OCR -moottori järjestelmääsi.
Voit tehdä tämän avaamalla Ohjelmistohallinta järjestelmässäsi ja etsi tesserakti. Kun se palauttaa tulosluettelon, asenna tesserakti-ocr ja tesseract-ocr-eng paketteja. Voit myös asentaa paketin komentorivipakettien hallintaohjelmien avulla, jos olet tyytyväinen päätteeseen.
Tämän jälkeen katso asennusohjeet seuraavissa osissa asentaaksesi gImageReader tietokoneellesi.
Jos käytät Debiania tai Ubuntua, avaa pääte ja asenna gImageReader suorittamalla alla olevat komennot:
sudo add-apt-arkisto ppa: sandromani/gimagereader
sudo apt-saada päivittää
sudo apt Asentaa gimagereader
Fedora, CentOS tai Red Hat Enterprise Linux (RHEL):
sudo dnf Asentaa gimagereader-qt
Päällä Arch Linux tai Manjaro:
sudo pacman -S gimagereader
openSUSE-käyttäjät voivat asentaa gImageReaderin käyttämällä:
sudo zypper Asentaa gimagereader
Jos käytät jotain muuta Linux-distroa, voit rakentaa gImageReaderin lähteestä noudattamalla ohjeita osoitteessa gImageReaderin GitHub.
gImageReaderin käyttäminen Linuxissa
gImageReader on melko helppokäyttöinen ja toimii kaikenlaisten kuvatiedostojen sekä PDF-dokumenttien kanssa. Noudata alla olevia ohjeita poimiaksesi tekstiä kuvista tai PDF-tiedostoista Linuxissa.
Avaa sovellusvalikko ja etsi gImageReaderja käynnistä sovellus. Lyö Maksimoida -painiketta gImageReader-ikkunassa avataksesi sen koko näytön näkymään.
Napsauta nyt Lisää kuvia -painiketta työkalupalkin vasemmassa ruudussa ja käytä tiedostoselainta valitaksesi kuvat tai PDF-tiedostot, joista haluat poimia tekstiä.
Klikkaus Ok tuodaksesi kuvan (kuvat) tai PDF-tiedostot gImageReaderiin. Tai jos haluat poimia tekstiä näytöllä näkyvästä, napsauta vieressä olevaa avattavaa valikkoa Lisää kuvia -painiketta ja valitse Ota Screenshot. gImageReader ottaa kuvakaappauksen näytön sisällöstä.
Kun olet lisännyt kuvan gImageReaderiin, napsauta Vaihda tulostusruutua -painiketta (jossa on muistilehtiökuvake) tuodaksesi esiin tulosteen. Tässä näkyy kuvista tai PDF-tiedostoista poimimasi teksti.
Riippuen siitä, miten haluat edetä, sinulla on nyt mahdollisuus tunnistaa kuvan tai PDF: n teksti automaattisesti tai manuaalisesti. Voit tehdä tämän automaattisesti napsauttamalla Tunnista asettelu automaattisesti -painiketta, ja se korostaa kaikki valitun kuvan tai PDF-dokumentin tekstilohkot.
Napauta tämän jälkeen Tunnista valinta > Nykyinen sivu aloittaaksesi tekstin purkuprosessin.
Vaihtoehtoisesti voit valita tekstin manuaalisesti viemällä hiiren sen tekstin päälle, jonka haluat poimia, ja piirtämällä hiusristikon avulla laatikko sen alueen ympärille, josta haluat poimia tekstin. Paina sitten Tunnista valinta -painiketta jatkaaksesi.
Jos se on PDF-dokumentti ja haluat poimia tekstiä eri sivuilta, napauta Plus (+) -painiketta sivujen kääntämiseksi.
Palaa takaisin painamalla Miinus (-) -painiketta. Valitse sitten teksti, jonka haluat purkaa, ja paina Tunnista valinta painiketta sen purkamiseksi.
Vaikka se on harvinaista, gImageReader saattaa joskus palauttaa puretun tekstin muulla kielellä kuin englanniksi. Kun näin tapahtuu, napauta yksinkertaisesti vieressä olevaa pudotusvalikkopainiketta Tunnista valinta -painiketta ja valitse jokin englanninkielisistä vaihtoehdoista.
Lopuksi tallentaaksesi puretun tekstin napsauta Tallenna tulos -painiketta. Tämä tuo esiin Tallenna-ikkunan. Anna tässä tiedostolle nimi ja paina Ok.
Mitä muuta voit tehdä gImageReaderilla?
Kuten aiemmin mainittiin, gImageReader antaa sinulle myös mahdollisuuden muokata tiettyjä tuotujen kuvien tai asiakirjojen ominaisuuksia, kuten niiden kirkkautta, kontrastia ja resoluutiota. Lisäksi voit tarvittaessa myös kääntää värejä tai kääntää kuvia tai asiakirjoja.
Useimmat näistä vaihtoehdoista voivat osoittautua hyödyllisiksi, kun kuvan tai asiakirjan teksti ei ole gImageReaderin luettavissa ja estää siksi työkalua tunnistamasta tekstiä.
Pääset johonkin näistä muokkausvaihtoehdoista napsauttamalla Kuvasäätimet -painiketta, ja se paljastaa minityökalupalkin päätyökalupalkin alapuolella. Valitse täältä sopivat painikkeet suorittaaksesi kuvan tai asiakirjan haluamasi muokkaustoiminnon.
Tekstin purkaminen Linuxissa on helppoa gImageReaderin avulla
Tekstin purkaminen vaatii usein oikean työkalun: sellaisen, joka käyttää luotettavaa ja tarkkaa OCR-moottoria mahdollistaa sen, että se tunnistaa tekstin kuvassa tai asiakirjassa tehokkaasti, joten voit purkaa sen tehokkaasti ilman mitään hässäkkä.
gImageReader tekee tämän hienosti taustalla käyttämänsä Tesseract OCR -moottorin ansiosta. Kun otetaan huomioon sen helppokäyttöisyys, gImageReader on epäilemättä yksi parhaista Linuxille saatavilla olevista tekstinpoistotyökaluista.
Vaihtoehtoisesti, jos etsit yksinkertaisempaa ratkaisua, voit tutustua TextSnatcheriin, joka on nopea ja melko helppokäyttöinen.