Перейти к содержанию

Автоматическое выделение ключевых слов в тексте


Рекомендуемые сообщения

2 mamoed:

- Всякие выделения добавлю.

+ изменение размера шрифта.

 

Обработка группы файлов. Лично для меня было бы полезней, если можно было составить несколько шаблонов с ключевыми словами и условиями их выделения - а потом последовательно натравливать программу на разные файлы.

Это позволит анализировать , например, мониторинги СМИ с привязкой к разным временным интервалам - в зависимости от времени и ситуации там доминируют разные ньюсмейкеры, а такой подход позволит последовательно отслеживать частоту упоминания

-

Так я вроде так и сделал. Загрузить/сохранить выделяемые слова и их свойства?

 

Экспорт статистики в Эксель.

Нужен пример документа, можно Word/Excel

Обработка файлов RTF

А она с первой версии, там при открытии выбор файлы DOC/RTF

А если надо подсчитать частоту упоминания вообще всех слов в тексте, то можно использовать, например, программу URS (Unique Record Set Management utility).

Посмотрю.

подсчетом частоты их встречаемости

Это как понимать ? График, количество слов выбранных за условную единицу текста (напр. Предложение)?

2 Иоанн:

Вы более склоняетесь к обработке информации чем её выделении, как я посмотрю.

Имеется в виду ситуация когда одна и та же функция должна быть применена к нескольким файлам или ко всем файлам в одной директории. Например изучая несколько файлов одного автора, исследуя ряд описаний и т.п.

В принципе можно и добавить ничего сложного здесь нет, но будет загруженный отчёт, как мне кажется.

какие слова стоят непосредственно перед и после ислледуемых (с возможностью выбора "до" или "после" или и то и другое), при этом слова из одной буквы не учитываются, а любой (или по выбору) знак препинания после исследуемого слова запрещает присоединение к создаваемой совокупности следующего за ним слова;

В принципе теоретически это не очень сложно, практически не знаю ... Разбить текст на предложения, затем предложение на слова, установить исключения для точек (для слов и др. и т.д.), сделать выборку по словам с символами более 2х

какие слова используются в рамках одного предложения с исследуемым словом[

Если удасться грамотно разбить текст на предложения здесь проблем не должно быть, за исключением того, что разные слова могут иметь одинаковое значение, и могут использоваться различное написание одного и того же слова (напр. падеж)

какие сущности используются в рамках одного предложения с исследуемым словом. Сущность - имена собственные (названия и имена), даты, профессионализмы.

Сущность если вводит пользователь по маске, то ещё ничего. Если программа сама определяет склонение, падежи и прочее то это сложно, по крайней мере для меня.

формирование внутреннего справочника синони слов, синонимичных выражений и связанных выражений (конструкций)

Если пользователь сам определит какие слова из предложений являются конструкцией или синонимами то это возможно, но если всё переложить на машину ??? Я как понял по адресу noolab.ru этим и занимаются.

 

То Всем:

 

1. А какими характеристиками пользуетись Вы для анализа текста (например: количество знаков, частота слов ?)

2. Если делать отчёт то нужен хотя бы пример и см пункт 1.

3. Сколько отчёт в среднем страниц ?

 

С уважением. LexaMG. style_emoticons/default/smile14.gif

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 24
  • Создана
  • Последний ответ

С существующим вариантом программы возникли проблемы:

 

1. Не обрабатываются составные слова. Например, "Газпром-Сити". Если искать отдельно "Газпром" - выделяет, составное слово - нет.

 

2. Временами программа автоматически закрывается. Тестил на Windows 2000.

 

3. Если редактируемый файл уже открыт, то после отказа от редактирования программа закрывается

 

 

И вот еще: можно ли сделать так, чтобы выделение слов было регистронезависимым? Например, набрал "росукрэнерго" - а программа выделила бы и "Росукрэнерго", и "РосУкрЭнерго", и "РОСУКРЭНЕРГО"?

Ссылка на комментарий
Поделиться на другие сайты

Обновление.

 

То mamoed:

Не обрабатываются составные слова. Например, "Газпром-Сити". Если искать отдельно "Газпром" - выделяет, составное слово - нет.

Пока не разобрался но проблема ясна.

 

Временами программа автоматически закрывается. Тестил на Windows 2000.

Не знаю почему. У меня вроде работает без ошибок. Подробней опиши, когда вылетает.

 

Если редактируемый файл уже открыт, то после отказа от редактирования программа закрывается

Исправлено.

 

И вот еще: можно ли сделать так, чтобы выделение слов было регистронезависимым? Например, набрал "росукрэнерго" - а программа выделила бы и "Росукрэнерго", и "РосУкрЭнерго", и "РОСУКРЭНЕРГО"?

 

Добавил. Учитывать регистр букв.

Ссылка на комментарий
Поделиться на другие сайты

  • 2 недели спустя...

Потестировал последний вариант. Жаль, что пока не обрабатываются составные слова - надеюсь, что Вам удастся решить эту проблему.

Формы слова выделяются на ура - достаточно после значимой части слова ставить *

 

Нужен пример документа, можно Word/Excel

 

Какой именно пример?

Ссылка на комментарий
Поделиться на другие сайты

Отчёта, с требуемыми статистическими данными, сколько совпадений например. С составными словами пока нет времени заняться но обещаюсь сделать, там заковырка что в Ворде слова написанные через дефис являются не составными а отдельными. Попозже постараюсь исправить.

 

С уважением LexaMG

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...