Перейти к содержанию

Автоматическое выделение ключевых слов в тексте


Рекомендуемые сообщения

Нет, так слишком перегруженно получится... И денег будет стоить немало ;-)

 

Если мне, например, нужен минимум упомянутых функций, то именно он мне и нужен. А вот предусмотреть возможность подключения дополнительных модулей для расширения функциональности - будет явно не лишним.

 

Коперник Десктоп попробовал. Минусы те же: много функций, которые мне не нужны (пусть даже и бесплатно), необходимость использования copy-paste (пальцы и так натренированы на клавиатуре).

 

Нашел вот макрос для Ворда (это даже целый пакет). Стоит $9.5. Выделяет, считает. Но опят многовато лишнего, хотя думаю связаться с разработчиками. Называется WFilter:

 

***Для Microsoft Word 97-2003*** Надстройка содержит следующие инструменты: Универсальный фильтр текста позволяет показать, скрыть, выделить цветом или мультивыделением фрагменты текста по множеству условий. Например, можно показать только текст заданного стиля, формата или только предложения, содержащие заданное слово, а остальной текст спрятать. ***Совместно с групповыми автозакладками можно организовать фильтрацию текста по именованным фрагментам. Например, если присвоить группе закладок имя «Главное», а затем создать в этой группе закладки для важных по смыслу фрагментов, то вы сможете с помощью фильтра показать только группу закладок «Главное» и спрятать весь остальной текст. Таких групп закладок можно может быть несколько, что позволяет создать с помощью фильтрации условный вывод текста – показывать, прятать или выделять нужные группы именованных фрагментов текста. ***Текстовая нумерация абзацев в отличие от нумерации с помощью формата Список, позволяет нумеровать только види­мые абзацы, а скрытые пропускать, кроме того номера можно как угодно редактировать. Например, с помощью текстовой нумерации можно поменять порядок следования абзацев на обратный, для этого нумеруем абзацы номерами с лидирующими нулями, сортируем по убыванию и удаляем нумерацию.

 

http://www.mso-tools.com/wfilter/ru/

 

TextMarker только что скачал, сейчас испробую.

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 24
  • Создана
  • Последний ответ

Новая версия.

Добавлен контекст и подсчёт статистики.

 

То mamoed: лучше если прога занимается своим делом с наименьшем количеством функций необходимых для фунциклирования. Но все Ваши пожелания готов учесть. В порядке очереди. style_emoticons/default/smile3.gif

 

--Если мне, например, нужен минимум упомянутых функций, то именно он мне и нужен. А вот предусмотреть возможность подключения дополнительных модулей для расширения функциональности - будет явно не лишним. -- Это класс программа с модулями. Мечта. Пока не выходит. Поэтому лучше много разных полезных инструментов делающие своё дело. А так Download New Version style_emoticons/default/smile1.gif

 

То Иоанн: Можно и это, Однако style_emoticons/default/smile18.gif здесь уже не Word нужен а база данных, в принципе я думаю не так сложно это реализовать, но с какой эффективносью я не знаю.

 

По пунктам:

-- возможность одновременной обработки группы файлов или/и директории - можно реализовать, и в принципе не сложно, но только мне кажется группу файлов надо обрабатывать для более глубокого анализа или нет ?

 

-- статистика следования слов; - Требуются пояснения. Т.е какие слова наиболее часто следуют за искомым ? Или в глобальном смысле по всему документу.

 

-- одновременное использование всего функционала на выбранном объекте/объектах -- Расплывчато и офигенно муторно. Можно но это надо представлять весь объём функционала. Наиболее эффективно использовать БД, но к выделению текста в Ворде ??? Не знаю, что бы использовать возможности Ворда нужно писать AddIn как я писал выше, но он же и ограничевает применение этим самым Вордом.

 

-- формирование внутреннего справочника синони мов, синонимичных выражений и связанных выражений (конструкций): -- не знаю не лингвист, даже с какой стороны подойти, но это к БД уверен.

 

-- выдача отчета (Ворд, Эксель). - пожалуй самое элементарное, если знать как делается всё вышеизложенное.

 

Потому жду подробностей. Т.к. БД это вещь. style_emoticons/default/smile1.gif Можно поломать голову в свободное время.

 

-- Если немного расширить ее функционал, получится вполне востребованный продукт -- Боюсь ограниченного применения, мне легче писать то что комуто нужно, потому как функционал измеряется спецификой работы и моего взгляда новичка на данную тему. А до готового проукта, как я его понимаю - как до Пекина раком.

 

То Kanaris:

 

- статистика использования слов (всех в тексте);

- статистика использования символов ( в т.ч. знаки препинания и пробелы);

- статистика соседства выбранных слов (с какими словами по соседству находится исследуемое слово и как часто).

 

Это тоже не Word, во всяком случае это напряжно, не для этого он, в БД это реализуется горазда проще (на первый взгляд).

 

-- Есть еще интересные функции, но они не так просты в реализации. -- Выкладывай, можно покумекать.

 

То Всем. А вообще востребованность таких продуктов существует ? Т.к. щас просто пишу от безработья и тоски. Много полазил по форуму посмотрел Cronos, FindResults, Quintur'у и Copernic, Archivarius 3000 и др. понял, что лучше писать самому и под конкретные задачи. Знаешь как это работает. style_emoticons/default/smile1.gif

 

Посмотрите новую версию на глюки и применительность.

С уважением LexaMG. style_emoticons/default/smile14.gif

Ссылка на комментарий
Поделиться на другие сайты

-- возможность одновременной обработки группы файлов или/и директории - можно реализовать, и в принципе не сложно, но только мне кажется группу файлов надо обрабатывать для более глубокого анализа или нет ?

Имеется в виду ситуация когда одна и та же функция должна быть применена к нескольким файлам или ко всем файлам в одной директории. Например изучая несколько файлов одного автора, исследуя ряд описаний и т.п.

 

-- статистика следования слов; - Требуются пояснения. Т.е какие слова наиболее часто следуют за искомым ? Или в глобальном смысле по всему документу.

Проще на примере. Нужно понять в связке с какими словами используются термины А, Б и В. Это может иметь несколько вариантов:

- какие слова стоят непосредственно перед и после ислледуемых (с возможностью выбора "до" или "после" или и то и другое), при этом слова из одной буквы не учитываются, а любой (или по выбору) знак препинания после исследуемого слова запрещает присоединение к создаваемой совокупности следующего за ним слова;

- какие слова используются в рамках одного предложения с исследуемым словом;

- какие сущности используются в рамках одного предложения с исследуемым словом. Сущность - имена собственные (названия и имена), даты, профессионализмы.

 

-- одновременное использование всего функционала на выбранном объекте/объектах -- Расплывчато и офигенно муторно. Можно но это надо представлять весь объём функционала. Наиболее эффективно использовать БД, но к выделению текста в Ворде ??? Не знаю, что бы использовать возможности Ворда нужно писать AddIn как я писал выше, но он же и ограничевает применение этим самым Вордом.

Да - наверно не стоит заморачиваться.

 

-- формирование внутреннего справочника синони слов, синонимичных выражений и связанных выражений (конструкций): -- не знаю не лингвист, даже с какой стороны подойти, но это к БД уверен.

Эта функция нужна для расширения возможностей предложенных Канарисом:

- статистика использования слов (всех в тексте);

 

 

 

Ссылка на комментарий
Поделиться на другие сайты

LexaMG, огромное спасибо! Теперь с Вашей программой уже можно вполне успешно работать.

Выскажу несколько замечаний к тому, что говорили другие.

 

1. Обработка группы файлов. Лично для меня было бы полезней, если можно было составить несколько шаблонов с ключевыми словами и условиями их выделения - а потом последовательно натравливать программу на разные файлы.

Это позволит анализировать , например, мониторинги СМИ с привязкой к разным временным интервалам - в зависимости от времени и ситуации там доминируют разные ньюсмейкеры, а такой подход позволит последовательно отслеживать частоту упоминания.

 

2. Ключевых слов может быть много. Неплохо бы ввести выделение не только цветом шрифта, но и фоновое. А также выделение жирным шрифтом и курсивом.

 

3. Экспорт статистики в Эксель.

 

4. Обработка файлов RTF.

Ссылка на комментарий
Поделиться на другие сайты

А если надо подсчитать частоту упоминания вообще всех слов в тексте, то можно использовать, например, программу URS (Unique Record Set Management utility). Взять ее можно здесь: http://www.noolab.ru. Но она тоже неудобная, к сожалению, и давно не обновлялась.

 

Описание:

Утилита для обработки различных массивов текстовой информации, посредством разбиения ее на лингвистические единицы, построения частотных словарей, и операций с последними. Одной из главных функций утилиты является выделение из текстов (на русском или английском языке) встречающихся в них слов с подсчетом частоты их встречаемости. Может использоваться при проведении разного рода лингвистических исследований, построении словарных баз данных и других работах с множествами словарных элементов.

 

Если уважаемый LexaMG добавит в свою программу такую функцию, будет очень даже нелишним. Например, можно просто добавить кнопку на панель инструментов - подсчитать все слова с автоматическим показом статистики в существующем формате и последующим экспортом в Эксель.

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...