Удобное распознавание текста в Linux

Несмотря на то, что в Linux вполне себе существуют командные утилиты для распознавания текста (gocr, cuneiform, tesseract) мне нехватало удобного интерфейса чтобы хоть как-то заменить Fine Reader, пока не нашел GTK утилиту ocrfeeder.

Утиль позволяет самому размечать область распознавания (может и автоматически, но не очень хорошо это делает), распознавать несколько страниц, экспортировать в опенофисовский формат, в PDF и т.п.



Утилита сама находит поддерживаемые OCR движки, можно подправить аргументы командной строки (чтобы, например, выбрать язык), можно самому сделать несколько вариантов выбора OCR движков с разными параметрами.

Мониторинг изменения файлов с помощью fspy

Нашел неплохую консольную утилиту fspy, которая позволяет рекурсивно отслеживать изменения в файлах (или просто когда происходит доступ), поддерживает множество фильтров и финтифлюшек,

Например для того, чтобы посмотреть какие события происходят в корневой файловой системе, рекурсивно со вложенностью на 1 уровень:

fspy -R 1 /


Получаем вывод:

[Tue May 28 19:34:16 2013] file was accessed:/dev/ptmx]

Распаковка и упаковка xlsx и docx

Форматы xlsx и docx являются по сути своей обычными zip файлами с наборами xml внутри.

Как распаковать я думаю и так понятно, а вот упаковать так, чтобы при открытии офис не выдавал ошибку можно с помощью 7z в консоли так:

7z a -tzip файл.xlsx -mx0 ./директория/*

Chrome обжора?

Хотите знать сколько памяти потребляет ваш любимый Chrome? Вот вам однострочничек. Цитирую для ленивых:

Chrome sucks
$ ps -e -m -o user,pid,args,%mem,rss | grep Chrome | perl -ne 'print "$1\n" if / (\d+)$/' | ( x=0;while read line; do (( x += $line )); done; echo $((x/1024)) );

How much memory is chrome sucking?

Beets: песни с тэгами и стихами

О способах упорядочивания мультимедийных коллекций сказано немало. Сегодня я установил еще одну утилиту для этих целей: beets. Это не музыкальный проигрыватель, а «упорядочиватель» файлов, который, опираясь на размещенную в Интернете базу данных, максимально насыщает mp3-файлы тэгами и даже подтягивает слова песен, что очень актуально сейчас для меня как для интенсивно «прокачивающего» английский.

Попутно утилита правильно переименовывает файлы. Например, подборка песен группы Scorpions до обработки beets выглядела так:

( Читать дальше )

Легковесный SpaceFM для GTK

Нашел интересный форк файлового менеджера pcmanfm — SpaceFM. Даже несмотря на наличие пакетов установка подразумевает сборку из исходников, зависимостей не слижком много, все установятся автоматически с пакетом. Есть поддержка GTK3, полная русификация и поддержка нескольких панелей.


Консольный проигрыватель для файлов flac

Использование консоли не исключает прослушивания музыки, причем порой не менее комфортного, чем в GUI-режиме. Широко известны, например программы mpg123, ogg123. А вот с форматом flac дела обстоят похуже. Нет для него толковы консольных проигрывателей. Хотя его поддерживают mplayer (он вполне себе консольный, если что), а также пакет ffmpeg, в состав которого входит, и плейер, это продукты очень громоздки. Чтобы не тратить на них ресурсы, я написал однострочник-алиас, опирающийся на стандартную утилиту кодирования/декодирования пакета flac.

alias flac='ls -1 *.flac | while read l ; do flac -d -o - "$l" | aplay ; done'


Сижу уже минут 20 слушаю музыку, работает!

Запускать из директории, в которой находятся прослушиваемые файлы.

Качественное преобразование svg в pdf

Перепробовал несколько способов конвертирования svg в pdf в linux. Самым качественным для меня по результатам оказался вот такой способ с использованием векторного редактора inkscape:

1. Упрощаем svg, убирая все лишнее:

inkscape file.svg --export-plain-svg=file-plain.svg


2. Конвертируем в pdf:

inkscape file-plain.svg --export-pdf=file.pdf

Вакансия: инженер по облачным системам

Внимание!

Обязательным является только первый из перечисленных навыков.
Если у Вас нет одного или нескольких навыков из этого списка, но Вы готовы приложить все усилия для получения этих навыков, то компания готова Вас обучать
Поэтому не скромничайте, приходите на собеседование

Направление работы:

Проектирование, реализация и поддержка частных и публичных облачных систем

Пожелания к кандидату:

( Читать дальше )
  • 18 декабря 2012, 15:40
  • Tim
  • 4

Читаем комиксы формата cbr на PocketBook 912

Столкнулся с проблемой чтения cbr файлов с комиксами на своем pocketbook'е, недолгое гугление показало что такие файлы можно распаковать обычным rarом и в нем будут обычные jpg файлы. Распаковываем все в кучу. Другая проблема — цветные высококонтрастные комиксы очень плохо отображаются на черно-белом экране читалки.

Рекурсивно преобразовать все jpg файлы в черно-белые и сделать их более бледными под экран читалки можно одной вот такой командой:

find . -iname "*.jpg" -exec convert -colorspace Gray -brightness-contrast 20x5 {} ./{} \;


Результат вот такой: