Foxyball
12.09.2022 19:43:27 24918Linux извличане на текст от изображение и PDF файлове
В Linux средата има няколко много добри софтуерни инструмента, които могат да се използват за тази цел. Една от многобройните програми от подобен род е gImageReader.Това е безплатно приложение, което работи с най-различни формати на изображенията, както и с PDF документи.
Какво представлява gImageReader?
Накратко gImageReader е приложение, което дава възможност за извличане на текстовете от снимки, изображения и PDF файлове в Linux среда.Това е безплатен OCR софтуер с отворен код, който е един от най-добрите механизми за разпознаване на текст.
С помощта на gImageReader е възможно лесното и достатъчно точно извличане на текстовете от изображенията и PDF документи.
Основни възможности на gImageReader:
- Импортиране на PDF документи и най-различни снимки и изображения от различни източници – диск, скенер, клипборд и скрийншотове
- Пакетна обработка на изображенията и и документите – тоест, няколко документа или изображения едновременно
- Разпознаване на различните текстови фрагменти като обикновен текст или hOCR документи
- Вградена проверка на правописа
- Автоматично определяне на различните области с текст
- Базово редактиране на изображенията и документите
- Запазване на полученото във вид на стандартен текстови документ
Инсталиране на gImageReader
gimagereader e достъпен в почти всички дистрибуции. Но за неговата работа е необходимо да бъде инсталиран механизмът за разпознаване на текст Tesseract.
В софтуерения мениджър на съответната Linux дистрибуция да се потърси думата tesseract и да се инсталира tessaract-ocr , tessaract-ocr-eng и разбира се tessaract-ocr-bul за български език.
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader
sudo dnf install gimagereader-qt
sudo pacman -S gimagereader
Коментари
Остави коментар
Моля, първо влезте във вашия профил Вход.