English | Русский |
Программа wordTabulator предназнчена для текстового анализа. С ее помощью можно сгенерировать индекс текстовых элементов, содержащихся в заданной совокупности текстов. Текстовыми элементами могут быть:
WordTabulator корректно обрабатывает любые кириллические тексты с учетом упраздненных букв русского алфавита (по реформе 1918 года): І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица). Программа также корректно обрабатывает диакритические символы для европейских и скандинавских языков (grave, acute, tilde, diaeresis и т.д.). Текст в UTF-8 может содержать абсолютно любые символы - даже древне-египетские или китайские иероглифы. Как дополнительная возможность программа в большинстве случаев может корректно выделять сокращения, такие как С.Ш.А. или а.б.в.
Исходные тексты могут определяться как совокупность обычных текстовых файлов или HTML/XML/SGML документов. В последнем случае программа может отделять полезный контент от разметки. Более того, можно обрабатывать только определенный контент внутри заданных парных тегов. Или наоборот пропускать такой контент при обработке.
Дополнительно можно анализировать два корпуса текстов на сходство или различие.
Для русскоязычных текстов поиск может осуществляться по словам в нормализованном виде с учетом правил морфологии. Также поиск может осуществляться с помощью регулярных выражений.
Результом работы программы является индекс найденных текстовых элементов. Индекс может генерироваться в формате HTML и содержать частоты каждого элемента и ссылки на оригинальный контент. Или быть в виде текстового списка. Элементы индекса могут быть упорядочены по алфавиту, частоте или значению.
wordTabulator является бесплатным ПО с открытым кодом. Консольный модуль табулятора первоначально был написан на языке Icon и позднее мигрирован на Unicon. Графический интерфейс первоначально был разработан с помощью Delphi 7 и позднее мигрирован на открытую платформу Lazarus.
wordTabulator был рожден в 1997 как любительская программа и затем широко использовался в проекте Русская Виртуальная Библиотека. Последние несколько лет wordTabulator был инкорпорирован в состав другого моего проекта, xMarkup.Прежняя версия табулятора при этом достаточно долго не обновлялась. Последняя версия была выпущена еще в 2012 году и затем слегка модернизирована в 2016.
Новая версия табулятора в составе xMarkup приобрела новую функциональность, например, возможность графической визуализации результатов. Однако, вопрос создания нового графичсекого интерфейса до сих пор не решен.
Загрузка:
Дата последнего обновления: 2020-09-19 | |
© Сергей Логичев, 1997-2020 |