Перейти к содержанию

Обработка текстовой информации - ?


Рекомендуемые сообщения

Коллеги,

а кто-нибудь может меня просветить, чем

пользуется компания "Центр управления знаниями" ("Михайлов и партнёры")

для подготовки ежедневных обзоров прессы? Судя по всему, это Интегрум

и/или Фактива. Или же ещё используются какие-то RSS-агрегаторы?

Как они добиваются такой оперативности в подготовке больших объёмов свежей текстовой информации?

 

Ссылка на комментарий
Поделиться на другие сайты

Если брать Россию, то обычно идет сочетание Интегрум+ВПС.

 

Не видел того, что делает Михайлов, поэтому точно не скажу. Но эти ресурсы для общих мониторингов подходят лучше всего - проверено электроникой ;-) Сами ими пользуемся - а объемы наши Михайлову не снились.

 

RSS-ленты есть не у каждого интернет-ресурса, гонят много пурги, которую надо отсеивать. Как вариант, раньше была программка GetNews, которая существенно облегчала извлечение информации из сети. Возможно, у Михайлова есть собственный программный продукт такого рода.

Ссылка на комментарий
Поделиться на другие сайты

Благодарю за инфу :-)

 

1. Если я не ошибаюсь, то ВПС- это www.wps.ru? Но они, судя по информации на их сайте, являются аналогом Центра управления знаниями, а не Интегрума. Или они тоже предоставляют платный доступ к своей БД прессы наряду с Интегрумом, Пабликом и Медиалогией?

 

2. Относительно GetNews.

Выигривает ли по своим функциональным возможностям GetNews 1.41

в сравнении с другими агрегаторами новостей:

FeedDemon 1.5

ActiveRefresh 2.5.3

NewsPiper 3.3.15

Abilon 2.5.3

A4news 1.0

mDigger (бывший Mobilizer)?

 

Почему Вы именно его упомянули? И самое главное, где его найти-то можно?

В свободном доступе только старая версия 1.26 лежит, и сайт разработчика не контачит :-(

 

Ссылка на комментарий
Поделиться на другие сайты

GetNews - это не классический аггрегатор. Программа умела работать с любыми интернет-сайтами, а не только с RSS-потоками. Если найду точное описание - скину. Да и сама программка у меня где-то была. Сейчас ее можно найти разве что на каких-нибудь ФТП-серверах - развития эта идея не получила. А жаль, я бы прикупил себе.

 

ВПС хорош тем, что может делать дайджесты по заказу. Довольно качественно и оперативно. Круг источников широк. И тут технология проста: основной объем упоминаний в СМИ они делают, а все остальное можно сделать через Интегрум или вручную. Скажем, нужно вам ежедневно собирать все упоминания Путина - что Вы будете делать? Создавать свою службу мониторинга или обратитесь к аутсорсерам вроде ВПС?

С Фактивой я не работал, ничего про них не скажу.

Ссылка на комментарий
Поделиться на другие сайты

GetNews - это не классический аггрегатор. Программа умела работать с любыми интернет-сайтами, а не только с RSS-потоками. Если найду точное описание - скину. Да и сама программка у меня где-то была. Сейчас ее можно найти разве что на каких-нибудь ФТП-серверах - развития эта идея не получила. А жаль, я бы прикупил себе.

33205[/snapback]

GetNews интегрирован в "Семантический архив". его парсер - это и есть GetNews

 

Но я заканчиваю тестировать Аваланч. Посмотрите, что выложу. Будет отчет двух версий - той, что гребет все подряд по состоянию на сегодня и той, что гребет только изменения с прошлого раза. Не исключено, что он Вам понравится значительно больше, чем GetNews.

Ссылка на комментарий
Поделиться на другие сайты

GetNews интегрирован в "Семантический архив". его парсер - это и есть GetNews

 

Но я заканчиваю тестировать Аваланч. Посмотрите, что выложу. Будет отчет двух версий - той, что гребет все подряд по состоянию на сегодня и той, что гребет только изменения с прошлого раза. Не исключено, что он Вам понравится значительно больше, чем GetNews.

33212[/snapback]

 

 

А где можно подробней про этот Аваланч почитать?

Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе?

Ссылка на комментарий
Поделиться на другие сайты

А где можно подробней про этот Аваланч почитать?

Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе?

33216[/snapback]

Я обязательно дам ссылку на отчет на форуме. Размещу его на своем сайте и, скорее всего, на этом форуме тоже.

 

Ссылка на комментарий
Поделиться на другие сайты

Коллеги, хочу расширить тему обсуждения.

 

В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации.

 

Подскажите, как можно автоматизировать удаление файлов-дубликатов?

 

Ссылка на комментарий
Поделиться на другие сайты

Коллеги, хочу расширить тему обсуждения.

 

В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации.

 

Подскажите, как можно автоматизировать удаление файлов-дубликатов?

33368[/snapback]

А где Вы потом всю эту кучу обрабатываете?

По-моему даже в детском CROSе есть возможность с дублями бороться, а в профессиональных (извлекающих сущности и строющие семантические сети) это все намного лучше обустроенно и более эффективно работает.

Ссылка на комментарий
Поделиться на другие сайты

Коллеги,

а кто-нибудь может меня просветить, чем

пользуется компания "Центр управления знаниями" ("Михайлов и партнёры")

для подготовки ежедневных обзоров прессы? Судя по всему, это Интегрум

и/или Фактива. Или же ещё используются какие-то RSS-агрегаторы?

Как они добиваются такой оперативности в подготовке больших объёмов свежей текстовой информации?

33106[/snapback]

здесь ответ на ваш вопрос- http://www.kmcenter.ru/company/partners/

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

×
×
  • Создать...