Ang isa sa mga bagay na madalas na nabigo sa akin ay ang kawalan ng kakayahang madaling kopyahin ang teksto sa labas ng mga imahe at ilang mga file na PDF (hal. Na maaaring nilikha mula sa mga na-scan na dokumento). Sa kabutihang palad, sa paglipas ng oras ng mga solusyon ng software ay binuo upang matugunan ang isyung ito, na nagpapahintulot para sa makabuluhang pag-iimpok ng oras na kung hindi man mano-mano ang ginugol na pagkopya at muling pag-type ng teksto. Sa tip ngayon, sasabihin ko ang tungkol sa isang libreng tool ng software na tinatawag na Capture2Text na gumagamit ng isang Optical Character Recognition (OCR) algorithm na magbibigay-daan sa iyo upang makuha ang teksto mula sa mga imahe at mga file na PDF.
Pag-install at Setup
Upang magsimula, magtungo sa pahina ng SourceForge ng proyekto at i-download ang pinakabagong bersyon ng Capture2Text. Ang software ay nagmumula bilang isang archive ng zip at sa oras na hindi kasama ang isang dedikadong installer. Kapag nai-download, i-unzip ang archive at ilunsad ang Capture2Text.exe file. Ito ay ilulunsad ang software at maglagay ng isang icon sa system tray:
Una, ang nais mong gawin ay ang pag-setup ng mga kagustuhan ng software, partikular na kung saan ang mga maiinit na susi (o mga shortcut) upang magamit upang simulan at ihinto ang pagkuha:
Sa aking kaso, pinili kong gamitin ang mga "Windows + q" key upang simulan ang pagkuha at ang "Enter" upang ihinto ito. Maaari mong ayusin ang mga pagpipiliang ito sa kung ano ang pinakamahusay para sa iyo. Tandaan na ang "Windows + s" key ay madalas na ginagamit para sa pagkuha ng screen (halimbawa ng mga programa tulad ng Microsoft One Tandaan).
Sa susunod na tab, ang mga pagpipilian ng OCR ay maaaring mai-configure kasama ang input wika (kasalukuyang pitong wika ay suportado) at kung gagamitin ang pre-processing ng OCR upang mapabuti ang kawastuhan (lubos na inirerekomenda). Sa wakas, sa tab na Output, bukod sa iba pang mga pagpipilian ay mapipili ng isa kung i-save lamang ang nakunan na teksto sa clipboard o kung ilulunsad ang isang hiwalay na window ng popup.
Paggamit ng Software
Kapag ang software ay naka-install at na-configure, maaari mong simulan ang paggamit nito sa pamamagitan ng iyong pagsisimulang makuha ang mainit na kumbinasyon ng key. Gamit ang iyong mouse, piliin ang lugar sa imahe na kasama ang teksto na nais mong makuha. Upang ihinto ang pagkuha, pindutin lamang ang mainit na key na pinili mo upang itigil ang pagkuha. Pagkatapos ay makopya ang teksto sa alinman sa clipboard, isang output popup window, o pareho. Ang isang halimbawa ay makikita sa ibaba.
Mula sa aking mabilis na pagsubok ng tool na may mga imahe, natagpuan ko ang katumpakan nito na maging disente. Malinaw, may mga limitasyon sa mga tool tulad nito at OCR sa pangkalahatan. Halimbawa, ang mabagong binagong teksto (napaka-mapang-uyam, nakapagpapahiwatig, o moderno) ay maaaring hindi masyadong gumana, at kung minsan ay hindi man. Gayundin, sa ilang mga kaso makakatulong ito upang maiayos ang mga sukat ng pagkuha ng kahon o i-play kasama ang zoom sa imahe mismo upang makakuha ng isang mas tumpak na resulta.
Kapag ang pagkuha ng teksto mula sa na-scan na mga dokumento sa PDF ay tama, tama na may ilang pangwakas na pagbabago sa pangkalahatan ay kinakailangan pa rin sa nakuha na output (depende sa kalidad ng paunang pag-scan). Gayundin, napansin ko na ang software ay maaaring tumagal ng ilang segundo upang maiproseso, lalo na kapag hiniling na i-convert ang malaking dami ng teksto.
Na ang lahat ay sinabi, pangkalahatang sa palagay ko ang tool ay isang mahusay na trabaho, lalo na dahil malayang magagamit ito - hinihikayat ko kayong subukan ito.
Addendum 11/16/2015:
Bilang isa pang pagpipilian, para sa mga may Google account, posible ring gamitin ang mga kakayahan ng OCR ng Google sa pamamagitan ng pag-upload ng isang file sa iyong Google Drive (mas maraming mga detalye ay matatagpuan dito). Bukod dito, mayroon ding isang plugin ng OCR na magagamit para sa mga gumagamit ng Google Chrome na tinawag na Copyfish na maaaring nais mong suriin din.