Автоматическое выделение ключевых слов в тексте

Опубликовано 3 августа, 200619 г

Автор

Нет, так слишком перегруженно получится... И денег будет стоить немало ;-)

Если мне, например, нужен минимум упомянутых функций, то именно он мне и нужен. А вот предусмотреть возможность подключения дополнительных модулей для расширения функциональности - будет явно не лишним.

Коперник Десктоп попробовал. Минусы те же: много функций, которые мне не нужны (пусть даже и бесплатно), необходимость использования copy-paste (пальцы и так натренированы на клавиатуре).

Нашел вот макрос для Ворда (это даже целый пакет). Стоит $9.5. Выделяет, считает. Но опят многовато лишнего, хотя думаю связаться с разработчиками. Называется WFilter:

***Для Microsoft Word 97-2003*** Надстройка содержит следующие инструменты: Универсальный фильтр текста позволяет показать, скрыть, выделить цветом или мультивыделением фрагменты текста по множеству условий. Например, можно показать только текст заданного стиля, формата или только предложения, содержащие заданное слово, а остальной текст спрятать. ***Совместно с групповыми автозакладками можно организовать фильтрацию текста по именованным фрагментам. Например, если присвоить группе закладок имя «Главное», а затем создать в этой группе закладки для важных по смыслу фрагментов, то вы сможете с помощью фильтра показать только группу закладок «Главное» и спрятать весь остальной текст. Таких групп закладок можно может быть несколько, что позволяет создать с помощью фильтрации условный вывод текста – показывать, прятать или выделять нужные группы именованных фрагментов текста. ***Текстовая нумерация абзацев в отличие от нумерации с помощью формата Список, позволяет нумеровать только видимые абзацы, а скрытые пропускать, кроме того номера можно как угодно редактировать. Например, с помощью текстовой нумерации можно поменять порядок следования абзацев на обратный, для этого нумеруем абзацы номерами с лидирующими нулями, сортируем по убыванию и удаляем нумерацию.

http://www.mso-tools.com/wfilter/ru/

TextMarker только что скачал, сейчас испробую.

Опубликовано 4 августа, 200619 г

Новая версия.

Добавлен контекст и подсчёт статистики.

То mamoed: лучше если прога занимается своим делом с наименьшем количеством функций необходимых для фунциклирования. Но все Ваши пожелания готов учесть. В порядке очереди. style_emoticons/default/smile3.gif

--Если мне, например, нужен минимум упомянутых функций, то именно он мне и нужен. А вот предусмотреть возможность подключения дополнительных модулей для расширения функциональности - будет явно не лишним. -- Это класс программа с модулями. Мечта. Пока не выходит. Поэтому лучше много разных полезных инструментов делающие своё дело. А так Download New Version style_emoticons/default/smile1.gif

То Иоанн: Можно и это, Однако style_emoticons/default/smile18.gif здесь уже не Word нужен а база данных, в принципе я думаю не так сложно это реализовать, но с какой эффективносью я не знаю.

По пунктам:

-- возможность одновременной обработки группы файлов или/и директории - можно реализовать, и в принципе не сложно, но только мне кажется группу файлов надо обрабатывать для более глубокого анализа или нет ?

-- статистика следования слов; - Требуются пояснения. Т.е какие слова наиболее часто следуют за искомым ? Или в глобальном смысле по всему документу.

-- одновременное использование всего функционала на выбранном объекте/объектах -- Расплывчато и офигенно муторно. Можно но это надо представлять весь объём функционала. Наиболее эффективно использовать БД, но к выделению текста в Ворде ??? Не знаю, что бы использовать возможности Ворда нужно писать AddIn как я писал выше, но он же и ограничевает применение этим самым Вордом.

-- формирование внутреннего справочника синони мов, синонимичных выражений и связанных выражений (конструкций): -- не знаю не лингвист, даже с какой стороны подойти, но это к БД уверен.

-- выдача отчета (Ворд, Эксель). - пожалуй самое элементарное, если знать как делается всё вышеизложенное.

Потому жду подробностей. Т.к. БД это вещь. style_emoticons/default/smile1.gif Можно поломать голову в свободное время.

-- Если немного расширить ее функционал, получится вполне востребованный продукт -- Боюсь ограниченного применения, мне легче писать то что комуто нужно, потому как функционал измеряется спецификой работы и моего взгляда новичка на данную тему. А до готового проукта, как я его понимаю - как до Пекина раком.

То Kanaris:

- статистика использования слов (всех в тексте);

- статистика использования символов ( в т.ч. знаки препинания и пробелы);

- статистика соседства выбранных слов (с какими словами по соседству находится исследуемое слово и как часто).

Это тоже не Word, во всяком случае это напряжно, не для этого он, в БД это реализуется горазда проще (на первый взгляд).

-- Есть еще интересные функции, но они не так просты в реализации. -- Выкладывай, можно покумекать.

То Всем. А вообще востребованность таких продуктов существует ? Т.к. щас просто пишу от безработья и тоски. Много полазил по форуму посмотрел Cronos, FindResults, Quintur'у и Copernic, Archivarius 3000 и др. понял, что лучше писать самому и под конкретные задачи. Знаешь как это работает. style_emoticons/default/smile1.gif

Посмотрите новую версию на глюки и применительность.

С уважением LexaMG. style_emoticons/default/smile14.gif

Опубликовано 4 августа, 200619 г

-- возможность одновременной обработки группы файлов или/и директории - можно реализовать, и в принципе не сложно, но только мне кажется группу файлов надо обрабатывать для более глубокого анализа или нет ?

Имеется в виду ситуация когда одна и та же функция должна быть применена к нескольким файлам или ко всем файлам в одной директории. Например изучая несколько файлов одного автора, исследуя ряд описаний и т.п.

-- статистика следования слов; - Требуются пояснения. Т.е какие слова наиболее часто следуют за искомым ? Или в глобальном смысле по всему документу.

Проще на примере. Нужно понять в связке с какими словами используются термины А, Б и В. Это может иметь несколько вариантов:

- какие слова стоят непосредственно перед и после ислледуемых (с возможностью выбора "до" или "после" или и то и другое), при этом слова из одной буквы не учитываются, а любой (или по выбору) знак препинания после исследуемого слова запрещает присоединение к создаваемой совокупности следующего за ним слова;

- какие слова используются в рамках одного предложения с исследуемым словом;

- какие сущности используются в рамках одного предложения с исследуемым словом. Сущность - имена собственные (названия и имена), даты, профессионализмы.

-- одновременное использование всего функционала на выбранном объекте/объектах -- Расплывчато и офигенно муторно. Можно но это надо представлять весь объём функционала. Наиболее эффективно использовать БД, но к выделению текста в Ворде ??? Не знаю, что бы использовать возможности Ворда нужно писать AddIn как я писал выше, но он же и ограничевает применение этим самым Вордом.

Да - наверно не стоит заморачиваться.

-- формирование внутреннего справочника синони слов, синонимичных выражений и связанных выражений (конструкций): -- не знаю не лингвист, даже с какой стороны подойти, но это к БД уверен.

Эта функция нужна для расширения возможностей предложенных Канарисом:

- статистика использования слов (всех в тексте);

Опубликовано 5 августа, 200619 г

Автор

LexaMG, огромное спасибо! Теперь с Вашей программой уже можно вполне успешно работать.

Выскажу несколько замечаний к тому, что говорили другие.

1. Обработка группы файлов. Лично для меня было бы полезней, если можно было составить несколько шаблонов с ключевыми словами и условиями их выделения - а потом последовательно натравливать программу на разные файлы.

Это позволит анализировать , например, мониторинги СМИ с привязкой к разным временным интервалам - в зависимости от времени и ситуации там доминируют разные ньюсмейкеры, а такой подход позволит последовательно отслеживать частоту упоминания.

2. Ключевых слов может быть много. Неплохо бы ввести выделение не только цветом шрифта, но и фоновое. А также выделение жирным шрифтом и курсивом.

3. Экспорт статистики в Эксель.

4. Обработка файлов RTF.

Опубликовано 5 августа, 200619 г

Автор

А если надо подсчитать частоту упоминания вообще всех слов в тексте, то можно использовать, например, программу URS (Unique Record Set Management utility). Взять ее можно здесь: http://www.noolab.ru. Но она тоже неудобная, к сожалению, и давно не обновлялась.

Описание:

Утилита для обработки различных массивов текстовой информации, посредством разбиения ее на лингвистические единицы, построения частотных словарей, и операций с последними. Одной из главных функций утилиты является выделение из текстов (на русском или английском языке) встречающихся в них слов с подсчетом частоты их встречаемости. Может использоваться при проведении разного рода лингвистических исследований, построении словарных баз данных и других работах с множествами словарных элементов.

Если уважаемый LexaMG добавит в свою программу такую функцию, будет очень даже нелишним. Например, можно просто добавить кнопку на панель инструментов - подсчитать все слова с автоматическим показом статистики в существующем формате и последующим экспортом в Эксель.

Автоматическое выделение ключевых слов в тексте

Featured Replies

Топ авторов темы

Популярные дни

Для публикации сообщений создайте учётную запись или авторизуйтесь

Топ авторов темы

Популярные дни

Account

Navigation

Поиск

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)