Get wordTabulator at SourceForge.net English Русский

wordTabulator

SoftPedia

Программа wordTabulator предназнчена для текстового анализа. С ее помощью можно сгенерировать индекс текстовых элементов, содержащихся в заданной совокупности текстов. Текстовыми элементами могут быть:

Формат текстовых элементов определяется самим пользователем: состав символов, длина, разделители. Программа может обрабатывать тексты как в ANSII 1-байтовой кодировке, так и в многобайтной кодировке UTF-8. Первоначально программа была разработана для обработки исключительно русскоязычных текстов, но также может быть с успехом использована для обработки текстов на других языках. Например, на Украинском, Исландском, Шведском и так далее. Определение языка текстов достаточно формальное. По сути это кириллица и не-кириллица.

WordTabulator корректно обрабатывает любые кириллические тексты с учетом упраздненных букв русского алфавита (по реформе 1918 года): І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица). Программа также корректно обрабатывает диакритические символы для европейских и скандинавских языков (grave, acute, tilde, diaeresis и т.д.). Текст в UTF-8 может содержать абсолютно любые символы - даже древне-египетские или китайские иероглифы. Как дополнительная возможность программа в большинстве случаев может корректно выделять сокращения, такие как С.Ш.А. или а.б.в.

Исходные тексты могут определяться как совокупность обычных текстовых файлов или HTML/XML/SGML документов. В последнем случае программа может отделять полезный контент от разметки. Более того, можно обрабатывать только определенный контент внутри заданных парных тегов. Или наоборот пропускать такой контент при обработке.

Дополнительно можно анализировать два корпуса текстов на сходство или различие.

Для русскоязычных текстов поиск может осуществляться по словам в нормализованном виде с учетом правил морфологии. Также поиск может осуществляться с помощью регулярных выражений.

Результом работы программы является индекс найденных текстовых элементов. Индекс может генерироваться в формате HTML и содержать частоты каждого элемента и ссылки на оригинальный контент. Или быть в виде текстового списка. Элементы индекса могут быть упорядочены по алфавиту, частоте или значению.

wordTabulator является бесплатным ПО с открытым кодом. Консольный модуль табулятора первоначально был написан на языке Icon и позднее мигрирован на Unicon. Графический интерфейс первоначально был разработан с помощью Delphi 7 и позднее мигрирован на открытую платформу Lazarus.

wordTabulator был рожден в 1997 как любительская программа и затем широко использовался в проекте Русская Виртуальная Библиотека. Последние несколько лет wordTabulator был инкорпорирован в состав другого моего проекта, xMarkup.

Прежняя версия табулятора при этом достаточно долго не обновлялась. Последняя версия была выпущена еще в 2012 году и затем слегка модернизирована в 2016.

Новая версия табулятора в составе xMarkup приобрела новую функциональность, например, возможность графической визуализации результатов. Однако, вопрос создания нового графичсекого интерфейса до сих пор не решен.

Руководство пользователя.

Загрузка:

Дата последнего обновления: 2020-09-19
© Сергей Логичев, 1997-2020