LexaMG Опубликовано 6 августа, 2006 Поделиться Опубликовано 6 августа, 2006 2 mamoed: - Всякие выделения добавлю. + изменение размера шрифта. Обработка группы файлов. Лично для меня было бы полезней, если можно было составить несколько шаблонов с ключевыми словами и условиями их выделения - а потом последовательно натравливать программу на разные файлы. Это позволит анализировать , например, мониторинги СМИ с привязкой к разным временным интервалам - в зависимости от времени и ситуации там доминируют разные ньюсмейкеры, а такой подход позволит последовательно отслеживать частоту упоминания - Так я вроде так и сделал. Загрузить/сохранить выделяемые слова и их свойства? Экспорт статистики в Эксель. Нужен пример документа, можно Word/Excel Обработка файлов RTF А она с первой версии, там при открытии выбор файлы DOC/RTF А если надо подсчитать частоту упоминания вообще всех слов в тексте, то можно использовать, например, программу URS (Unique Record Set Management utility). Посмотрю. подсчетом частоты их встречаемости Это как понимать ? График, количество слов выбранных за условную единицу текста (напр. Предложение)? 2 Иоанн: Вы более склоняетесь к обработке информации чем её выделении, как я посмотрю. Имеется в виду ситуация когда одна и та же функция должна быть применена к нескольким файлам или ко всем файлам в одной директории. Например изучая несколько файлов одного автора, исследуя ряд описаний и т.п. В принципе можно и добавить ничего сложного здесь нет, но будет загруженный отчёт, как мне кажется. какие слова стоят непосредственно перед и после ислледуемых (с возможностью выбора "до" или "после" или и то и другое), при этом слова из одной буквы не учитываются, а любой (или по выбору) знак препинания после исследуемого слова запрещает присоединение к создаваемой совокупности следующего за ним слова; В принципе теоретически это не очень сложно, практически не знаю ... Разбить текст на предложения, затем предложение на слова, установить исключения для точек (для слов и др. и т.д.), сделать выборку по словам с символами более 2х какие слова используются в рамках одного предложения с исследуемым словом[ Если удасться грамотно разбить текст на предложения здесь проблем не должно быть, за исключением того, что разные слова могут иметь одинаковое значение, и могут использоваться различное написание одного и того же слова (напр. падеж) какие сущности используются в рамках одного предложения с исследуемым словом. Сущность - имена собственные (названия и имена), даты, профессионализмы. Сущность если вводит пользователь по маске, то ещё ничего. Если программа сама определяет склонение, падежи и прочее то это сложно, по крайней мере для меня. формирование внутреннего справочника синони слов, синонимичных выражений и связанных выражений (конструкций) Если пользователь сам определит какие слова из предложений являются конструкцией или синонимами то это возможно, но если всё переложить на машину ??? Я как понял по адресу noolab.ru этим и занимаются. То Всем: 1. А какими характеристиками пользуетись Вы для анализа текста (например: количество знаков, частота слов ?) 2. Если делать отчёт то нужен хотя бы пример и см пункт 1. 3. Сколько отчёт в среднем страниц ? С уважением. LexaMG. style_emoticons/default/smile14.gif Ссылка на комментарий Поделиться на другие сайты More sharing options...
mamoed Опубликовано 7 августа, 2006 Автор Поделиться Опубликовано 7 августа, 2006 С существующим вариантом программы возникли проблемы: 1. Не обрабатываются составные слова. Например, "Газпром-Сити". Если искать отдельно "Газпром" - выделяет, составное слово - нет. 2. Временами программа автоматически закрывается. Тестил на Windows 2000. 3. Если редактируемый файл уже открыт, то после отказа от редактирования программа закрывается И вот еще: можно ли сделать так, чтобы выделение слов было регистронезависимым? Например, набрал "росукрэнерго" - а программа выделила бы и "Росукрэнерго", и "РосУкрЭнерго", и "РОСУКРЭНЕРГО"? Ссылка на комментарий Поделиться на другие сайты More sharing options...
LexaMG Опубликовано 7 августа, 2006 Поделиться Опубликовано 7 августа, 2006 Обновление. То mamoed: Не обрабатываются составные слова. Например, "Газпром-Сити". Если искать отдельно "Газпром" - выделяет, составное слово - нет. Пока не разобрался но проблема ясна. Временами программа автоматически закрывается. Тестил на Windows 2000. Не знаю почему. У меня вроде работает без ошибок. Подробней опиши, когда вылетает. Если редактируемый файл уже открыт, то после отказа от редактирования программа закрывается Исправлено. И вот еще: можно ли сделать так, чтобы выделение слов было регистронезависимым? Например, набрал "росукрэнерго" - а программа выделила бы и "Росукрэнерго", и "РосУкрЭнерго", и "РОСУКРЭНЕРГО"? Добавил. Учитывать регистр букв. Ссылка на комментарий Поделиться на другие сайты More sharing options...
mamoed Опубликовано 17 августа, 2006 Автор Поделиться Опубликовано 17 августа, 2006 Потестировал последний вариант. Жаль, что пока не обрабатываются составные слова - надеюсь, что Вам удастся решить эту проблему. Формы слова выделяются на ура - достаточно после значимой части слова ставить * Нужен пример документа, можно Word/Excel Какой именно пример? Ссылка на комментарий Поделиться на другие сайты More sharing options...
LexaMG Опубликовано 17 августа, 2006 Поделиться Опубликовано 17 августа, 2006 Отчёта, с требуемыми статистическими данными, сколько совпадений например. С составными словами пока нет времени заняться но обещаюсь сделать, там заковырка что в Ворде слова написанные через дефис являются не составными а отдельными. Попозже постараюсь исправить. С уважением LexaMG Ссылка на комментарий Поделиться на другие сайты More sharing options...
Рекомендуемые сообщения
Заархивировано
Эта тема находится в архиве и закрыта для дальнейших ответов.