Перейти к содержанию

Обработка текстовой информации - ?


Рекомендуемые сообщения

GetNews интегрирован в "Семантический архив". его парсер - это и есть GetNews

 

Но я заканчиваю тестировать Аваланч. Посмотрите, что выложу. Будет отчет двух версий - той, что гребет все подряд по состоянию на сегодня и той, что гребет только изменения с прошлого раза. Не исключено, что он Вам понравится значительно больше, чем GetNews.

33212[/snapback]

 

 

А где можно подробней про этот Аваланч почитать?

Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе?

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 15
  • Создана
  • Последний ответ
А где можно подробней про этот Аваланч почитать?

Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе?

33216[/snapback]

Я обязательно дам ссылку на отчет на форуме. Размещу его на своем сайте и, скорее всего, на этом форуме тоже.

 

Ссылка на комментарий
Поделиться на другие сайты

Коллеги, хочу расширить тему обсуждения.

 

В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации.

 

Подскажите, как можно автоматизировать удаление файлов-дубликатов?

 

Ссылка на комментарий
Поделиться на другие сайты

Коллеги, хочу расширить тему обсуждения.

 

В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации.

 

Подскажите, как можно автоматизировать удаление файлов-дубликатов?

33368[/snapback]

А где Вы потом всю эту кучу обрабатываете?

По-моему даже в детском CROSе есть возможность с дублями бороться, а в профессиональных (извлекающих сущности и строющие семантические сети) это все намного лучше обустроенно и более эффективно работает.

Ссылка на комментарий
Поделиться на другие сайты

Коллеги,

а кто-нибудь может меня просветить, чем

пользуется компания "Центр управления знаниями" ("Михайлов и партнёры")

для подготовки ежедневных обзоров прессы? Судя по всему, это Интегрум

и/или Фактива. Или же ещё используются какие-то RSS-агрегаторы?

Как они добиваются такой оперативности в подготовке больших объёмов свежей текстовой информации?

33106[/snapback]

здесь ответ на ваш вопрос- http://www.kmcenter.ru/company/partners/

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...