mamoed Опубликовано 19 сентября, 2007 Поделиться Опубликовано 19 сентября, 2007 GetNews интегрирован в "Семантический архив". его парсер - это и есть GetNews Но я заканчиваю тестировать Аваланч. Посмотрите, что выложу. Будет отчет двух версий - той, что гребет все подряд по состоянию на сегодня и той, что гребет только изменения с прошлого раза. Не исключено, что он Вам понравится значительно больше, чем GetNews. 33212[/snapback] А где можно подробней про этот Аваланч почитать? Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе? Ссылка на комментарий Поделиться на другие сайты More sharing options...
CI-KP Опубликовано 19 сентября, 2007 Поделиться Опубликовано 19 сентября, 2007 А где можно подробней про этот Аваланч почитать? Где Вы планируете опубликовать отчет и не могли бы Вы поместить ссылку на него в этом топе? 33216[/snapback] Я обязательно дам ссылку на отчет на форуме. Размещу его на своем сайте и, скорее всего, на этом форуме тоже. Ссылка на комментарий Поделиться на другие сайты More sharing options...
Медбрат Опубликовано 23 сентября, 2007 Автор Поделиться Опубликовано 23 сентября, 2007 Коллеги, хочу расширить тему обсуждения. В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации. Подскажите, как можно автоматизировать удаление файлов-дубликатов? Ссылка на комментарий Поделиться на другие сайты More sharing options...
Yury Опубликовано 24 сентября, 2007 Поделиться Опубликовано 24 сентября, 2007 Коллеги, хочу расширить тему обсуждения. В настоящий момент мы часть информации достаём из Интегрума по ключевым словам, а часть- из новостных рассылок. Каждая заметка из прессы складывается в отдельный файл на диске. При этом зачастую наблюдается дублирование информации. Подскажите, как можно автоматизировать удаление файлов-дубликатов? 33368[/snapback] А где Вы потом всю эту кучу обрабатываете? По-моему даже в детском CROSе есть возможность с дублями бороться, а в профессиональных (извлекающих сущности и строющие семантические сети) это все намного лучше обустроенно и более эффективно работает. Ссылка на комментарий Поделиться на другие сайты More sharing options...
Роман Опубликовано 24 сентября, 2007 Поделиться Опубликовано 24 сентября, 2007 Коллеги, а кто-нибудь может меня просветить, чем пользуется компания "Центр управления знаниями" ("Михайлов и партнёры") для подготовки ежедневных обзоров прессы? Судя по всему, это Интегрум и/или Фактива. Или же ещё используются какие-то RSS-агрегаторы? Как они добиваются такой оперативности в подготовке больших объёмов свежей текстовой информации? 33106[/snapback] здесь ответ на ваш вопрос- http://www.kmcenter.ru/company/partners/ Ссылка на комментарий Поделиться на другие сайты More sharing options...
Рекомендуемые сообщения
Заархивировано
Эта тема находится в архиве и закрыта для дальнейших ответов.