Перейти к содержанию

Собственная система поиска в сетевых СМИ


Рекомендуемые сообщения

Добрый день, уважаемое сообщество.

Так уж сложились звезды, что это мое первое сообщение на форуме, хотя присутствую я здесь давно.

Кратко обрисую пролему, которая здесь уже поднималась не раз: анализ информации из открытых источников. Хотя, точнее будет сказать - способы ее получения. Речь сейчас идет об интернете, с печатными СМИ - другая история.

Проблемы в этой области очень хорошо известны и испытаны "на собственной шкуре". Существует какое-то количество сетевых СМИ, достаточно известных и авторитетных, буквально забитых публикациями различного рода. Чтобы найти информацию об объекте, мы в первую очередь трясем изо всех сил яндексы, гуглы и иже с ними. НО: их базы далеко не полные, а количество информационного мусора частенько превышает все разумные нормы. Об "оперативности" их работы и говорить не стоит. Попытка штурма какого-то конкретного источника на предмет наличия информации об объекте посредством глобальных поисковых сервисов часто дает мизерные результаты. Далее - существуют новостные поисковые системы. Их использование уже дает некую гарантию определенного фильтра информации, ведь экспорт новостей настраивается вручную, к нему допускаются действительно проверенные сетевые СМИ. И оперативность на высоте - новости появляются в базе практически сразу после их публикации. Но, опять же, база не полная - кроме новостей, на сетевых ресурсах часто выходят статьи, не попадающие в экспортные ленты.

Где-то около года назад я столкнулся с подобной проблемой в условиях ведения информационной войны. Информация нужна была срочно, времени на установку и отладку специализированных программных средств не было. Кроме сбора информации, нужно было еще наладить и систему мониторинга, позволяющую оперативно отслеживать действия противника в информационном пространстве.

Нужно было найти способ поиска информации по базе данных, отличающейся а) полнотой информации; б) оперативностью. То, что я скажу сейчас, ни для кого секретом не будет: таким критериям соответствует база данных самого ресурса. Просто, как дважды два, но иногда путь к простым вещам оказывается намного сложнее их самих...

Алгоритм следующих действий: сделать подборку ведущих сетевых СМИ, занести линки их локальных поисков в избранное и периодически их опрашивать - вручную, конечно, параллельно с мониторингом по глобальному поиску и новостным поисковикам... Что было дальше, несложно догадаться - война завершилась (кстати, победой клиента), но у меня появилось странное ощущение тошноты при одном взгляде на папку в избранном под названием "Группа мониторинга" - причем состояние было вызвано явно не выпитым по случаю победы шампанским style_emoticons/default/smile1.gif

Во избежание повторений подобной ситуации был сделан вывод: автоматизировать систему, насколько это возможно. Тем, кто знаком с веб, принцип работы поисковика понятен, кто не знаком, объясню в двух словах: на самом деле программе, осуществляющей поиск, абсолютно все равно, откуда пришел запрос: с ее собственного сайта, с вашего, с локальной машины, или с робота ФСБ (В Украине СБУ). Главное - чтобы скрипт получил строку параметров, по которым и будет осуществляться поиск. Эти параметры (кроме скрытых, это отдельная тема) мы и вводим в форму запроса, после чего нажимаем кнопку "Искать" (или как она там называется), тем самым отдавая браузеру команду переслать данные программе (ее адрес прописан в специальном теге), которая их обрабатывает и результаты пересылает нам. Опять же, просто. И опять НО: каждый дизайнер извращается по-своему, и на выходе мы получаем полный калейдоскоп стилей - формы могут размещаться в разных местах, иметь разный размер, струтуру, цвет, запах и кардинально отличаться на ощупь :))) То есть, отыскать их на сайте может лишь уже привыкший к этому глаз, который после надцати подобных экспериментов посылает в мозг нгастырные сигналы на выработку рефлекса, схожего с русской народной болезнью "бодун". И это не говоря уже о том, что к каждой форме нужно прилепить комбинацию Ctrl+V...

В общем, я вспомнил описанный "барабанный" принцип получения запроса, и решение пришло сразу: а почему бы не сверстать самым простым способом - в HTML, лист с формами запросов? Это предельно просто - в исходном коде нужного сайта находим все необходимые параметры, прописываем их, а ненужное форматирование отправляем к чертям собачим, приводя все формы в одинаковый вид. Убил день (главным образом с непривычки), зато потом долго наслаждался простотой и удобством системы, пережившей уже не одну информационную войну. Но, опять же, но - приходилось каждый раз вставлять поисковые слова заново. Со временем система с двух десятков ресурсов выросла почти до 50, и навигация по формам стала занятием не из легких, поскольку все они верстались не по алфавиту, а по мере поступления и востребованности...

Пришлось лезть в изучение PHP - вследствие профессиональной паранойи не доверяю случаным найнятым программистам (втулит систему слежки и сбора поисковых запросов, как два пальца об асфальт, и что потом?? без знания РНР не разобраться).

В общем, пора прекращать затянувшееся вступление (хоть выговорился, наконец-то): я осилил эту задачу самостоятельно и выложил систему в открытый доступ (прятать или паролить нет смысла - любой, кто хоть раз это увидит, при условии элементарного занния принципов построения веба, легко сможет повторить). Здесь главное - идея и простота реализации. Вот ссылка на Систему поиска.

Ввести ключевое слово нужно только один раз - задать его, и формы запросов уже будут содержать комбинацию. Программа пока не поддерживает введение запросов в кавычках (безусловный поиск в большинстве поисковиков), но это мелочь, которую исправлю, как только дойдут руки. Естественно, что поиск осуществляется по СМИ Украины. Но абсолютно никаких препятсвий для добавления российских, европейских и американских, да хоть и китайских style_emoticons/default/smile1.gif сайтов.

Да, по поводу безопасности: как человек, который своими руками все это сделал, включая программный код (на самом деле простой), заявляю: никакого сбора информации система не производит. Она выполняет единственную функцию, для которой создана. Сайт не посылает кукисы (можно проверить), не собирает и не хранит IP посетителей, не ведет статистику запросов и не хранит поисковые слова. На сайте отсутствуют даже элементарные счетчики (хотя, честно говоря, хотелось бы знать статистику посещений, но конфиденциальность - незыблемый принцип). Объяснение, почему я уделяю много внимания теме безопасности, прост - наверняка здесь очень много людей, страдающих такой же паранойей, как и я сам style_emoticons/default/smile14.gif

Хотелось бы услышать Ваше мнение по поводу этой разработки. Допускаю, что идея не нова, в силу простоты и задумки, и реализации. Но мне ничего подобного в сети не попадалось.

Этот сервис, как я его назвал, сэкономил мне кучу времени и нервов. Возможно, вам он так же сослужит добрую службу. Кстати, система будет развиваться - я планирую ввести опцию глобального поиска, с формами запросов к ведущим поисковикам, добавить группы специализированных ресурсов, но в первую очередь - формы для серверов печатных СМИ. Сейчас я в стадии решения, как действовать дальше - развивать это самостотельно либо же привлечь коллективный разум. Склоняюсь к последнему style_emoticons/default/smile1.gif Для этого, собственно, и нужна Ваша оценка полезности и практичности.

Ссылка на комментарий
Поделиться на другие сайты

что то типа этого

_ttp://personal.novoteka.ru/main

 

Пример:

_ttp://public.novoteka.ru/search

 

поиск по бесплатным книгам в сети. Индексируются только сайты с бесплатными электронными книгами (никаких магазинов и т.д.) в базе около 40 самых достойных на мой взгляд сайтов по различной книжной тематике. Широко представлена классика, программирование, фото, дизайн, экология, физико-математическая и др. литература.

 

источник _ttp://weblinks.ru/

Ссылка на комментарий
Поделиться на другие сайты

Как я понял, система работает только по сайтам, которые обладают внутренним поисковиком.

Кстати, на некоторых вылетает по ошибке.

Для массированных мониторингов система не очень удобна. Много ручной работы.

 

Ссылка на комментарий
Поделиться на другие сайты

Сергей, вы верно подметили - только по сайтам с внутренним поисковиком. А вылетает на украинском Редтраме - пока не пойму, почему. Что много ручной работы - это точно, для массированных мониторингов не очень удобно. Но следует учесть обстоятельства, которые привели к созданию системы: зачастую клиент обращается к нам, когда его уже атаковали, и чаще всего - по одной (двум, трем) отловленным публикациям. Вот вам и ситуация: информационная война уже началась, каждая минута дорога. Первое, что нужно сделать - анализ, конечно. просчитать глубину и масштабы атаки. Сделать выводы по мотивам, выявить источник угрозы, слабые места, спрогнозировать сценарий дальнейшего развития событий, выработать план противодействия. А времени мало: глобальные поисковики не все проиндексировали, новостные не имеют полной базы данных. Мониториноовым агентствам нужно время для отчета. Мне лично в подобных ситуациях только это "чудо в перьях" и помогало. Почему чудо - да потому, что системой называть пока рано - это скорее такой себе опросник локальных поисковиков на ресурсах. Кстати, плюс - когда делаешь подборку своими руками, параллельно проходит предварительный анализ. Специфика нашей профессии такова - никогда не знаешь, какая картина сложится в итоге, и любая информация может оказаться ниточкой, дернув за которую...

AlbertR, спасибо за линки - полезно. Интересный проект - дать пользователям возможность настраивать паука. Здесь уже звучало не раз, но повторить не лишне: никакая программа не сравнится с ручной работой.

А поиск в интернете - это уже давно бизнес. Купить спайдера с анализатором - дорого, обслуживать - еще дороже. А мы искали выход из ситуации с минимальными затратами, в идеале - бесплатно. Получилось, кстати, почти бесплатно :0)

Ссылка на комментарий
Поделиться на другие сайты

Sniper

Симпатично.

 

Могу посоветовать еще продукт, который может Вам подойти, если сумма в 25 баксов не покажется разорительной

Загляните на http://www.getnewsgroup.com/. Там можно закачать trial программу GetNews для бесплатного тестирования.

 

В справке можно найти подробное описание составления запросов на страницы сайтов, и понять алгоритм их составления. Так что можно расширить зону сбора статей до сайтов, не имеющих собственного поисковика. Как говорится, "Скрипач - не нужен" :).

 

Несомненным удобством является то, что статьи приходят в "чистом виде", в заданном формате. Можно выставить опцию загрузки картинок к статье, можно убрать. Настраивается сортировка и отправка отфильтроанных новостей в специальные папки или они отсылаются по электронной почте. Собирает любые статьи и новости, включая ленты rss/

 

Что я рассазываю! - закачайте и смотрите help/ Он, как и интрфейс, русскоязычный. На базе этой программки легко организовать мониториг информации, а также дальнейшую обработку материалов другии программами, обеспечив связь с ними через почтовый трансфер.

 

Ссылка на комментарий
Поделиться на другие сайты

Господа, а кто нибудь с "Медиалогией" работал?

Если да то буду благодарен услышать мнения - минусы и плюсы, полезность для различных сфер деятельности.

Ссылка на комментарий
Поделиться на другие сайты

  • 2 месяца спустя...

О Медиалогии

Пользуюсь только поиском, поэтому говорить буду именно о нем.

База СМИ более или менее стандартная (по отношению к тому же Паблику, Интегруму или Фактиве). Что-то появляется уже с утра, но есть и такие публикации, которые добираются до тебя с запозданием.

Что нравится: можно не сидеть на сайте, а пересылать интересующие новости по мере их поступления на свою элетронную почту.

Существует несколько методов составления запроса. Один из них - выбор интересующей тебя компании из имеющейся базы (в базе каждая компания сопровождается определенной справочной информацией). Однако база не резиновая, поэтому там только достаточно крупные компании. Остальные - при составлении запроса вручную (с использованием операторов).

Что не нравится: количество символов при составлении ручного запроса ограничено (по крайней мере так было до недавнего времени). Поэтому если отрабатываешь много компаний, то одним запросом не обойтись. Отсюда некоторые неудобства. Во-первых, запросов несколько. Во-вторых, если в одной публикации попадаются компании из разных запросов, на почту получишь не одно, а несколько писем.

При поиске на сайте выкидывается лишь по десять публикаций. Если их за сотню, то придется перелистать десяток страниц.

 

Ну а в остальном вроде все устраивает.

Хотя его конек все же в составлении разного рода связей и отчетов. Думаю попробовать на досуге.

 

Да, если возвращаться к операторам, то мне в этом плане больше симпатичен Интегрум. Может потому, что именно с него я начинал

Ссылка на комментарий
Поделиться на другие сайты

  • 2 недели спустя...

2 sniper:

А если попытаться создать слёдующую схему запрос формируем -> отслаем запрос -> получаем ответы -> разгребаем ответы автоматически. Т.е. если предположить, что дизайн сайта - шаблон, т.е. все новости вставляются в этот шаблон и по шаблону, то вероятно возможно получение уже обработанной информации в виде текста, группы текстов, выданных внутренним поисковиком ?

 

По моему если такое удасться реализовать то:

+ быстрый доступ к ресурсам

+ Текст можно куда-нибудь сразу определить

- Долго мучатся с извлечением информации из шаблона в смысле разбирать итоги поиска (при первом подключении).

- При изменении дизайна сайта могут случиться накладки.

 

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

×
×
  • Создать...