Перейти к содержанию

Аваланч - программа для мониторинга Интернета


Рекомендуемые сообщения

Я еще в начале лета обещал выложить результаты тестирования программы для мониторинга Интернета Аваланч (Avalanche), созданной Андреем Масаловичем. При испытаниях прежней этой программы были выявлены недочеты, которые я счел серьезными (например, программа "спотыкалась" о некоторые сайты). Разработчики взялись ее полностью переделать. И переделали. Потом была работа по выявлению мелких шероховатостей, проявлявшихся в процессе тестового мониторинга Интернета.

Сейчас можно констатировать, что Аваланч (Avalanche) версии 2.0 показал себя с самой лучшей стороны. Я снабдил отчет пошаговыми скриншотами, показывающими, что делал Аваланч и как выглядят результаты его работы. Поскольку из-за скриншотов страница с отчетом "весит" около 2.5 МБ, я не стану ее всю выкладывать здесь, а дам только два скриншота и текст. Полностью весь материал вы можете увидеть на моем сайте Конкурентная разведка на странице со статьей Полевые испытания программы Аваланч (Avavlanche). Здесь те места в тексте, где на моем сайте размещены скриншоты, выделены так: <Скриншот>.

 

 

Полевые испытания программы Аваланч (Avalanche)

Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года

 

Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет.

 

Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям.

 

Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом.

 

Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы.

 

Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент.

 

В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция.

 

Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча.

 

Итак, приступим.

 

Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны)

 

http://ci-razvedka.ru/gif/Avakanche/Papka_avalanch.jpg

 

Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле.

 

http://ci-razvedka.ru/gif/Avakanche/Zapusk_Pauka.jpg

 

После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам.

 

<Скриншот>

 

Закончив работу ,паук сообщает об этом.

 

<Скриншот>

 

После этого окно с пауком надо закрыть, а окно самого Аваланча наоборот открыть (запустив файл Avalanche.exe). В главном окне Аваланча видны "Умные папки", по которым уже разложена принесенная пауков информация.

 

<Скриншот>

 

Если открыть "умные папки", то видно, что информация в них структурирована по дате.

 

<Скриншот>

 

В правой части окна видны страницы, которые Аваланч счел соответствующими критерисям поиска. Можно каждую из них открыть и просмотреть ее контент полностью

 

<Скриншот>

 

В левой колонке видно, что если изменений на странице нет, то Аваланч игнорирует такую страницу, принося в базу данных только изменения. Например, видно, что 08.10.07г. на странице "вакансии" компании "Рольф" изменений не было. Эти изменения были 13.09.07 и 19.09.07

 

<Скриншот>

 

Эти вакансии можно увидеть, также открыв каждый из источников на конкретную дату.

 

Вот вакансии компании "Рольф" на 13.09.07 (это первое посещение страницы, поэтому сравнивать было не с чем)

 

<Скриншот>

 

А вот та же страница от 19.09.07г., когда Аваланч обнаружил на ней изменения.

 

<Скриншот>

 

Как я уже говорил, Аваланч может просматривать не только конкретные страницы сайтов, но и страницы, которые формируются по запросу к поисковым машинам. Вот, например, страница Google по запросу Кузнецов Сергей Валентинович

 

<Скриншот>

 

На следующем скриншоте показана страница, которую Аваланч посетил по ссылке с первого результата в выдаче Гугла по запросу: foto.retranslator.ru

 

<Скриншот>

 

Проиллюстрирую настройку рубрики. Это способ получить выборку из имеющейся базы данных. Ниже приведен пример уже настроенной рубрики. По такому запросу можно получить все документы из базу данных, в который есть слова "автомобиль" и "Peugeot", и при этом не содержится слово "новый". Видно, что таких документов в базе нет

 

<Скриншот>

 

Продемонстрирую настройку новой рубрики. Пусть нас интересует запрос, по которому будут получены документы, где есть слова "Кузнецов" и "Burwell", но при этом нет слова "автор" (для тех, кто не в курсе, напомню, что господин Кузнецов - химик-технолог по образованию, известный в конкурентной разведке тем, что стер имя Helen Burwell с обложки ее книги "Конкурентная разведка через Интернет" и вписал на эту обложку себя). Выбор этого объекта для иллюстрации возможностей Аваланча был связан с тем, что информация об этом объекте не является конфиденциальной, а проверять работу программы можно только на реальных примерах, информация по которым поступает и из других источников. Иначе невозможно оценить полноту и точность работы программного продукта.

 

<Скриншот>

 

После создания новой рубрики производится рубрикация, чтобы получить из базы данных данные, рассортированные в соответствии с новыми потребностями пользователя.

 

<Скриншот>

 

По завершении рубрикации появляется соответствующая надпись.

 

<Скриншот>

 

Теперь, если обратиться к вновь созданной рубрике, станут доступны документы, отвечающие заданным требованиям. Они могут быть, как и раньше, открыты прямо в окне Аваланча.

 

<Скриншот>

 

Надо отметить, что чаще всего не возникает сложностей в сравнении старого и нового вариантов контента вэб-страницы, поскольку обычно их хорошо видно. Однако на практике встречаются и такие случаи, когда изменения неочевидны. Ярким примером может служить страница блога на Живом Журнале, когда на ней появляется одна новая гиперссылка, а при этом больше никаких изменений не происходит. Крайне трудно искать такие различия. В то же время, появление подобной гиперссылки может быть очень важным. При испытаниях Аваланча я работал в постоянном контакте с разработчиками этой программы. Хочу отметить, что они быстро и качественно исправляли те небольшие шероховатости, которые нам поначалу встречались. Я уже собирался писать отчет об испытаниях, когда столкнулся с проблемой, что по ссылке из Гугла Аваланч принес страницу блога, как изменившуюся, а я долго не мог увидеть этих изменений. Тогда разработчики Аваланча дали ссылку на программу стороннего разработчика Advanced Visual Compare (она запускается с файла avc12.exe). Программа сравнивает исходные коды вэб-страниц и показывает измененные, добавленные или удаленные элементы на странице.

 

<Скриншот>

 

Здесь следует сказать, что файлы хранятся в папке, в которой установлен Аваланч, в виде стандартных пар HTML-файла и txt-файла.

 

В ходе работы с Аваланчем обнаружился положительный побочный эффект такой формы хранения данных: они хорошо индексируются программой для поиска на персональном компьютере Яндекс Десктоп. За счет этого, помимо поиска с помощью встроенного поискового механизма Аваланча, можно искать информацию и с помощью Яндекс Десктоп, используя стандартный язык запросов Яндекса.

 

<Скриншот>

 

В программе Advanced Visual Compare в ыбираются два файла , которые будут сравниваться

 

<Скриншот>

 

А затем в исходном коде показано разными цветами, какие изменения произошли и где они находятся

 

<Скриншот>

 

Если есть сложности в прочтении исходного кода и привязке его к обычному виду страницы, то для решения этой проблемы можно воспользоваться любой программой, умеющей конвертировать исходный код страницы в ее обычный вид и наоборот. Я покажу это на примере Macromedia Dreamweaver. Скопируем весь исходный код, полученный в программе AVC,, не разбираясь, где есть изменения, а где нет, в Dreamweaver. Затем скопирауем толькоизмененную часть и с помощью CTRL+F найдем его в Dreamweaver'е.

 

<Скриншот>

 

После чего выберем режим "Design" и сможем увидеть, где этот выделенный в коде участок расположен на странице сайта, которую видит пользователь в своем браузере..

 

<Скриншот>

 

Заканчивая отчет о полевых испытаниях Аваланча, я хочу сказать, что считаю эту программу очень перспективной разработкой, рассчитанной на тех специалистов, которым необходимо автоматизировать мониторинг Интернета. На мой взгляд, Аваланч - следующий шаг для тех специалистов, которым требуется проводить объем работы, когда WebSite Watcher уже не удовлетворяет их потребностей. Аваланч значительно более автоматизирован, чем WebSite Watcher, а самое главное, он имеет собственную базу данных и простой в использовании механизм работы с ней.

 

Модификация программы, которая попала мне на испытания, является новой. В ней на моих глазах (и с удовольствием могу отметить, что во многом с моей подачи) были устранены многие недочеты, мешавшие использовать эту программу в работе - вроде зависания на отдельных типах сайтов, некорректное отображение некоторых кодировок или отсутствие возможности оперативно найти изменения на странице. Сейчас Аваланч избавился от этих проблем. У меня он работал стабильно, результаты приносил корректные. А опыт общения с разработчиком вселяет уверенность, что даже если выявятся какие-то особо редкие проблемы, они будут оперативно решены. Все вопросы непосредственно по программе, на мой взгляд, лучше адресовать разработчикам по адресу am [собака] inforus [точка] biz

 

Евгений Ющук,

 

08.10.2007 г.

 

Так случилось, что в этой ветке начали обсуждаться вопросы, далекие от темы Аваланча. Это нередко происходит на форумах.

Чтобы не отвлекать читателей флудом, я сюда перенес ссылку на пояснения разработчиков, которые они дали в ответ на вопросы, заданные в этом форуме и непосредственно им по электронной почте.

 

Андрей Масалович, как и обещал, разместил ответы на вопросы на отдельной странице. Под заголовком Avalanche 2.0: Ответы на вопросы.

Вы можете задавать разработчикам свои вопросы им по электронной почте или здесь и они обещали добавлять ответы на приведенную по ссылке страницу

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 389
  • Создана
  • Последний ответ

А что это реально работающий продукт?

Я думал это антиПиар какого-то Кузнецова...

АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!

 

Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним.

 

И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)?

Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус?

 

З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам...

Ссылка на комментарий
Поделиться на другие сайты

А что это реально работающий продукт?

Я думал это антиПиар какого-то Кузнецова...

АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!

34268[/snapback]

Не хотите не читайте, у нас уважаемый товарищъ свобода слова понимаш style_emoticons/default/smile12.gif

ПС: самый лучший способ проверить работоспособность софта это пощупать ручками.

Ссылка на комментарий
Поделиться на другие сайты

А что это реально работающий продукт?

34268[/snapback]

Да. а разве не видно?

 

Я думал это антиПиар какого-то Кузнецова...

34268[/snapback]

Если Вы на самом деле так так думали, то как объяснить Ваши следующие вопросы? :) Мне просто интересно. Расскажете?

 

P.S. Я не очень нарушу стройность Ваших рассуждений, если напомню, что там еще про автомобили BMW есть и про кадровую службу Рольфа? :)

 

 

АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!

34268[/snapback]

А автору чего именно, если не секрет?

Ваше мнение мне безусловно очень важно. Но только не понял, где переход на личности? В констатации факта, что мосье Кузнецов стер автора с обложки книги американского автора и вписал себя? Если да, то в чем здесь "переход на личности" заключается? Он на самом деле так поступил. У меня есть оригиналы, да и он сам это признал вообще-то. В приличных местах и в УК РФ это называется плагиатом, кстати. Так кому же позор?

Если же Ваш тонкий вкус оскорблен текстами, написанными на сайтах третьих лиц, найденных Аваланчем, то Вы кому ПОЗОР адресуете - мне, Аваланчу, авторам текстов? Если не сложно, поясните пожалуйста, раз уж сочли нужным высказать свое "фэ". Сказали "А" - скажите и "Б".

 

Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним.

34268[/snapback]

Мне кажется, для этого и существует курс по обучению пользователей. И инструкция.

 

И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)?

Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус?

34268[/snapback]

Я дам ссылку на этот форум разработчикам. Если они сочтут нужным, пусть ответят на возникающие вопросы сами. Или напишите им по электронной почте и потом расскажите результат здесь.

Давайте определимся сразу: меня интересовали возможности программы и я отобразил то, что лично мне было интересно с практической точки зрения. Я не занимаюсь рекламой Аваланча или его разработкой, поэтому никому ничего не должен. Это так, к сведению и во избежание дальнейших недоразумений.

 

З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам...

34268[/snapback]

Что Вы имеете в виду?

И кем "не принимается"? Кто у нас комиссия по приемке? Могу сказать, что я не теоретик в области тезаурусов. Мне надо решать практические задачи. И я их решаю. Аваланч позволяет решать их эффективнее, чем вручную и по некоторым параметрам эффективнее, чем WebSite Watcher. Кстати, напомню один важный момент: я протестировал самую простую по возможностям версию Аваланча. То, что делается для крупных предприятий и стоит соответственно, способно даже к самообучению, насколько я знаю. Но лично не пользовался, поэтому подробно рассказать не могу.

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...