Собственная система поиска в сетевых СМИ

Опубликовано 17 мая, 200620 г

Добрый день, уважаемое сообщество.

Так уж сложились звезды, что это мое первое сообщение на форуме, хотя присутствую я здесь давно.

Кратко обрисую пролему, которая здесь уже поднималась не раз: анализ информации из открытых источников. Хотя, точнее будет сказать - способы ее получения. Речь сейчас идет об интернете, с печатными СМИ - другая история.

Проблемы в этой области очень хорошо известны и испытаны "на собственной шкуре". Существует какое-то количество сетевых СМИ, достаточно известных и авторитетных, буквально забитых публикациями различного рода. Чтобы найти информацию об объекте, мы в первую очередь трясем изо всех сил яндексы, гуглы и иже с ними. НО: их базы далеко не полные, а количество информационного мусора частенько превышает все разумные нормы. Об "оперативности" их работы и говорить не стоит. Попытка штурма какого-то конкретного источника на предмет наличия информации об объекте посредством глобальных поисковых сервисов часто дает мизерные результаты. Далее - существуют новостные поисковые системы. Их использование уже дает некую гарантию определенного фильтра информации, ведь экспорт новостей настраивается вручную, к нему допускаются действительно проверенные сетевые СМИ. И оперативность на высоте - новости появляются в базе практически сразу после их публикации. Но, опять же, база не полная - кроме новостей, на сетевых ресурсах часто выходят статьи, не попадающие в экспортные ленты.

Где-то около года назад я столкнулся с подобной проблемой в условиях ведения информационной войны. Информация нужна была срочно, времени на установку и отладку специализированных программных средств не было. Кроме сбора информации, нужно было еще наладить и систему мониторинга, позволяющую оперативно отслеживать действия противника в информационном пространстве.

Нужно было найти способ поиска информации по базе данных, отличающейся а) полнотой информации; б) оперативностью. То, что я скажу сейчас, ни для кого секретом не будет: таким критериям соответствует база данных самого ресурса. Просто, как дважды два, но иногда путь к простым вещам оказывается намного сложнее их самих...

Алгоритм следующих действий: сделать подборку ведущих сетевых СМИ, занести линки их локальных поисков в избранное и периодически их опрашивать - вручную, конечно, параллельно с мониторингом по глобальному поиску и новостным поисковикам... Что было дальше, несложно догадаться - война завершилась (кстати, победой клиента), но у меня появилось странное ощущение тошноты при одном взгляде на папку в избранном под названием "Группа мониторинга" - причем состояние было вызвано явно не выпитым по случаю победы шампанским style_emoticons/default/smile1.gif

Во избежание повторений подобной ситуации был сделан вывод: автоматизировать систему, насколько это возможно. Тем, кто знаком с веб, принцип работы поисковика понятен, кто не знаком, объясню в двух словах: на самом деле программе, осуществляющей поиск, абсолютно все равно, откуда пришел запрос: с ее собственного сайта, с вашего, с локальной машины, или с робота ФСБ (В Украине СБУ). Главное - чтобы скрипт получил строку параметров, по которым и будет осуществляться поиск. Эти параметры (кроме скрытых, это отдельная тема) мы и вводим в форму запроса, после чего нажимаем кнопку "Искать" (или как она там называется), тем самым отдавая браузеру команду переслать данные программе (ее адрес прописан в специальном теге), которая их обрабатывает и результаты пересылает нам. Опять же, просто. И опять НО: каждый дизайнер извращается по-своему, и на выходе мы получаем полный калейдоскоп стилей - формы могут размещаться в разных местах, иметь разный размер, струтуру, цвет, запах и кардинально отличаться на ощупь :))) То есть, отыскать их на сайте может лишь уже привыкший к этому глаз, который после надцати подобных экспериментов посылает в мозг нгастырные сигналы на выработку рефлекса, схожего с русской народной болезнью "бодун". И это не говоря уже о том, что к каждой форме нужно прилепить комбинацию Ctrl+V...

В общем, я вспомнил описанный "барабанный" принцип получения запроса, и решение пришло сразу: а почему бы не сверстать самым простым способом - в HTML, лист с формами запросов? Это предельно просто - в исходном коде нужного сайта находим все необходимые параметры, прописываем их, а ненужное форматирование отправляем к чертям собачим, приводя все формы в одинаковый вид. Убил день (главным образом с непривычки), зато потом долго наслаждался простотой и удобством системы, пережившей уже не одну информационную войну. Но, опять же, но - приходилось каждый раз вставлять поисковые слова заново. Со временем система с двух десятков ресурсов выросла почти до 50, и навигация по формам стала занятием не из легких, поскольку все они верстались не по алфавиту, а по мере поступления и востребованности...

Пришлось лезть в изучение PHP - вследствие профессиональной паранойи не доверяю случаным найнятым программистам (втулит систему слежки и сбора поисковых запросов, как два пальца об асфальт, и что потом?? без знания РНР не разобраться).

В общем, пора прекращать затянувшееся вступление (хоть выговорился, наконец-то): я осилил эту задачу самостоятельно и выложил систему в открытый доступ (прятать или паролить нет смысла - любой, кто хоть раз это увидит, при условии элементарного занния принципов построения веба, легко сможет повторить). Здесь главное - идея и простота реализации. Вот ссылка на Систему поиска.

Ввести ключевое слово нужно только один раз - задать его, и формы запросов уже будут содержать комбинацию. Программа пока не поддерживает введение запросов в кавычках (безусловный поиск в большинстве поисковиков), но это мелочь, которую исправлю, как только дойдут руки. Естественно, что поиск осуществляется по СМИ Украины. Но абсолютно никаких препятсвий для добавления российских, европейских и американских, да хоть и китайских style_emoticons/default/smile1.gif сайтов.

Да, по поводу безопасности: как человек, который своими руками все это сделал, включая программный код (на самом деле простой), заявляю: никакого сбора информации система не производит. Она выполняет единственную функцию, для которой создана. Сайт не посылает кукисы (можно проверить), не собирает и не хранит IP посетителей, не ведет статистику запросов и не хранит поисковые слова. На сайте отсутствуют даже элементарные счетчики (хотя, честно говоря, хотелось бы знать статистику посещений, но конфиденциальность - незыблемый принцип). Объяснение, почему я уделяю много внимания теме безопасности, прост - наверняка здесь очень много людей, страдающих такой же паранойей, как и я сам style_emoticons/default/smile14.gif

Хотелось бы услышать Ваше мнение по поводу этой разработки. Допускаю, что идея не нова, в силу простоты и задумки, и реализации. Но мне ничего подобного в сети не попадалось.

Этот сервис, как я его назвал, сэкономил мне кучу времени и нервов. Возможно, вам он так же сослужит добрую службу. Кстати, система будет развиваться - я планирую ввести опцию глобального поиска, с формами запросов к ведущим поисковикам, добавить группы специализированных ресурсов, но в первую очередь - формы для серверов печатных СМИ. Сейчас я в стадии решения, как действовать дальше - развивать это самостотельно либо же привлечь коллективный разум. Склоняюсь к последнему style_emoticons/default/smile1.gif Для этого, собственно, и нужна Ваша оценка полезности и практичности.

Опубликовано 17 мая, 200620 г

что то типа этого

_ttp://personal.novoteka.ru/main

Пример:

_ttp://public.novoteka.ru/search

поиск по бесплатным книгам в сети. Индексируются только сайты с бесплатными электронными книгами (никаких магазинов и т.д.) в базе около 40 самых достойных на мой взгляд сайтов по различной книжной тематике. Широко представлена классика, программирование, фото, дизайн, экология, физико-математическая и др. литература.

источник _ttp://weblinks.ru/

Изменено 18 мая, 200620 г пользователем Albert R.

Опубликовано 19 мая, 200620 г

Как я понял, система работает только по сайтам, которые обладают внутренним поисковиком.

Кстати, на некоторых вылетает по ошибке.

Для массированных мониторингов система не очень удобна. Много ручной работы.

Опубликовано 24 мая, 200620 г

Автор

Спасибо за ответы.

Изменено 24 мая, 200620 г пользователем Sniper

Опубликовано 24 мая, 200620 г

Автор

Сергей, вы верно подметили - только по сайтам с внутренним поисковиком. А вылетает на украинском Редтраме - пока не пойму, почему. Что много ручной работы - это точно, для массированных мониторингов не очень удобно. Но следует учесть обстоятельства, которые привели к созданию системы: зачастую клиент обращается к нам, когда его уже атаковали, и чаще всего - по одной (двум, трем) отловленным публикациям. Вот вам и ситуация: информационная война уже началась, каждая минута дорога. Первое, что нужно сделать - анализ, конечно. просчитать глубину и масштабы атаки. Сделать выводы по мотивам, выявить источник угрозы, слабые места, спрогнозировать сценарий дальнейшего развития событий, выработать план противодействия. А времени мало: глобальные поисковики не все проиндексировали, новостные не имеют полной базы данных. Мониториноовым агентствам нужно время для отчета. Мне лично в подобных ситуациях только это "чудо в перьях" и помогало. Почему чудо - да потому, что системой называть пока рано - это скорее такой себе опросник локальных поисковиков на ресурсах. Кстати, плюс - когда делаешь подборку своими руками, параллельно проходит предварительный анализ. Специфика нашей профессии такова - никогда не знаешь, какая картина сложится в итоге, и любая информация может оказаться ниточкой, дернув за которую...

AlbertR, спасибо за линки - полезно. Интересный проект - дать пользователям возможность настраивать паука. Здесь уже звучало не раз, но повторить не лишне: никакая программа не сравнится с ручной работой.

А поиск в интернете - это уже давно бизнес. Купить спайдера с анализатором - дорого, обслуживать - еще дороже. А мы искали выход из ситуации с минимальными затратами, в идеале - бесплатно. Получилось, кстати, почти бесплатно :0)

Собственная система поиска в сетевых СМИ

Featured Replies

Для публикации сообщений создайте учётную запись или авторизуйтесь

Account

Navigation

Поиск

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)