Rowscope: Рентген для "Войны и мира"

В новостной ленте Linuxcenter.ru — сообщение об интересной программе — Rowscope. Она предназначена

… для чтения больших (объемом больше 1 Гб) текстовых файлов… Программа работает быстро – для открытия файла больше 1 Гб требуется всего несколько секунд (файл будет доступен для чтения полностью, а не блоками). Для облегчения работы с файлом доступна возможность поиска строк или на основе регулярных выражений… Среди других основных возможностей программы:

* GUI никогда не блокируется, даже во время поиска;
* Rowscope никогда не «монополизирует» процессор;
* программе не требуется большой объем памяти;
* пользователь в любой момент может остановить приложение, даже во время анализа текстового файла.


Припомнив случаи, когда действительно было необходимо проанализировать многомегабайтный текст, а такие ламерские инструменты, как M$-Word при этом откровенно захлебывались, решил скачать. Не пожалел, интересная вещь.

Прежде всего порадовало, что программа написана на Java. Оснащена универсальным инсталлятором (тоже на Java), позволяющим установить Rowscope хоть на Windows, хоть на Linux. Насчет того, что крупный текст считывается полностью, авторы вышепроцитированной статьи приврали: считывается таки блоками по нажатию на кнопочку. А вот фильтрует текст с помощью регулярных выражений преотлично, причем русские буквы можно использовать в обычном порядке. В этом сила реализации regexp в Java. Sed или Perl нужно еще умудриться заставить работать с интернациональными языками. На днях видел, например, способ подсчета и сортировки вхождения тех или иных слов в обширных текстах с помощью сложной команды на bash (awk, tr, sort и т.п.), только вот с русским языком такие решения не работают.

Вот пример: все строки из песен группы «Аквариум», где встречается слово «вода» во всевозможных падежах (объем текста — более 300000 знаков).



Хороший инструмент для лингвистов, историков и прочих гуманитариев. С его помощью можно также анализировать тексты на плагиат, грамотность, и т.п.
  • +12
  • 09 июля 2010, 01:41
  • yababay

Комментарии (2)

RSS свернуть / развернуть
+
0
Bay !
avatar

Markony

  • 09 июля 2010, 10:51
+
0
Классно
По уму сделали работу с большими текстовыми файлами
avatar

Sergei_T

  • 09 июля 2010, 11:21

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.