Форум бизнес-разведчиков | Business intelligence forum: Аваланч - программа для мониторинга Интернета - Форум бизнес-разведчиков | Business intelligence forum

Перейти к содержимому

  • (54 Страниц)
  • +
  • 1
  • 2
  • 3
  • Последняя »
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему

Аваланч - программа для мониторинга Интернета Оценка: ***** 1 Голосов

#1 Пользователь офлайн   CI-KP 

  • .
  • Группа: Users
  • Сообщений: 7 334
  • Регистрация: 01 Январь 06

Отправлено 10 Октябрь 2007 - 20:51

Я еще в начале лета обещал выложить результаты тестирования программы для мониторинга Интернета Аваланч (Avalanche), созданной Андреем Масаловичем. При испытаниях прежней этой программы были выявлены недочеты, которые я счел серьезными (например, программа "спотыкалась" о некоторые сайты). Разработчики взялись ее полностью переделать. И переделали. Потом была работа по выявлению мелких шероховатостей, проявлявшихся в процессе тестового мониторинга Интернета.
Сейчас можно констатировать, что Аваланч (Avalanche) версии 2.0 показал себя с самой лучшей стороны. Я снабдил отчет пошаговыми скриншотами, показывающими, что делал Аваланч и как выглядят результаты его работы. Поскольку из-за скриншотов страница с отчетом "весит" около 2.5 МБ, я не стану ее всю выкладывать здесь, а дам только два скриншота и текст. Полностью весь материал вы можете увидеть на моем сайте Конкурентная разведка на странице со статьей Полевые испытания программы Аваланч (Avavlanche). Здесь те места в тексте, где на моем сайте размещены скриншоты, выделены так: <Скриншот>.


Полевые испытания программы Аваланч (Avalanche)
Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года

Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет.

Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям.

Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом.

Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы.

Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент.

В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция.

Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча.

Итак, приступим.

Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны)

user posted image

Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле.

user posted image

После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам.

<Скриншот>

Закончив работу ,паук сообщает об этом.

<Скриншот>

После этого окно с пауком надо закрыть, а окно самого Аваланча наоборот открыть (запустив файл Avalanche.exe). В главном окне Аваланча видны "Умные папки", по которым уже разложена принесенная пауков информация.

<Скриншот>

Если открыть "умные папки", то видно, что информация в них структурирована по дате.

<Скриншот>

В правой части окна видны страницы, которые Аваланч счел соответствующими критерисям поиска. Можно каждую из них открыть и просмотреть ее контент полностью

<Скриншот>

В левой колонке видно, что если изменений на странице нет, то Аваланч игнорирует такую страницу, принося в базу данных только изменения. Например, видно, что 08.10.07г. на странице "вакансии" компании "Рольф" изменений не было. Эти изменения были 13.09.07 и 19.09.07

<Скриншот>

Эти вакансии можно увидеть, также открыв каждый из источников на конкретную дату.

Вот вакансии компании "Рольф" на 13.09.07 (это первое посещение страницы, поэтому сравнивать было не с чем)

<Скриншот>

А вот та же страница от 19.09.07г., когда Аваланч обнаружил на ней изменения.

<Скриншот>

Как я уже говорил, Аваланч может просматривать не только конкретные страницы сайтов, но и страницы, которые формируются по запросу к поисковым машинам. Вот, например, страница Google по запросу Кузнецов Сергей Валентинович

<Скриншот>

На следующем скриншоте показана страница, которую Аваланч посетил по ссылке с первого результата в выдаче Гугла по запросу: foto.retranslator.ru

<Скриншот>

Проиллюстрирую настройку рубрики. Это способ получить выборку из имеющейся базы данных. Ниже приведен пример уже настроенной рубрики. По такому запросу можно получить все документы из базу данных, в который есть слова "автомобиль" и "Peugeot", и при этом не содержится слово "новый". Видно, что таких документов в базе нет

<Скриншот>

Продемонстрирую настройку новой рубрики. Пусть нас интересует запрос, по которому будут получены документы, где есть слова "Кузнецов" и "Burwell", но при этом нет слова "автор" (для тех, кто не в курсе, напомню, что господин Кузнецов - химик-технолог по образованию, известный в конкурентной разведке тем, что стер имя Helen Burwell с обложки ее книги "Конкурентная разведка через Интернет" и вписал на эту обложку себя). Выбор этого объекта для иллюстрации возможностей Аваланча был связан с тем, что информация об этом объекте не является конфиденциальной, а проверять работу программы можно только на реальных примерах, информация по которым поступает и из других источников. Иначе невозможно оценить полноту и точность работы программного продукта.

<Скриншот>

После создания новой рубрики производится рубрикация, чтобы получить из базы данных данные, рассортированные в соответствии с новыми потребностями пользователя.

<Скриншот>

По завершении рубрикации появляется соответствующая надпись.

<Скриншот>

Теперь, если обратиться к вновь созданной рубрике, станут доступны документы, отвечающие заданным требованиям. Они могут быть, как и раньше, открыты прямо в окне Аваланча.

<Скриншот>

Надо отметить, что чаще всего не возникает сложностей в сравнении старого и нового вариантов контента вэб-страницы, поскольку обычно их хорошо видно. Однако на практике встречаются и такие случаи, когда изменения неочевидны. Ярким примером может служить страница блога на Живом Журнале, когда на ней появляется одна новая гиперссылка, а при этом больше никаких изменений не происходит. Крайне трудно искать такие различия. В то же время, появление подобной гиперссылки может быть очень важным. При испытаниях Аваланча я работал в постоянном контакте с разработчиками этой программы. Хочу отметить, что они быстро и качественно исправляли те небольшие шероховатости, которые нам поначалу встречались. Я уже собирался писать отчет об испытаниях, когда столкнулся с проблемой, что по ссылке из Гугла Аваланч принес страницу блога, как изменившуюся, а я долго не мог увидеть этих изменений. Тогда разработчики Аваланча дали ссылку на программу стороннего разработчика Advanced Visual Compare (она запускается с файла avc12.exe). Программа сравнивает исходные коды вэб-страниц и показывает измененные, добавленные или удаленные элементы на странице.

<Скриншот>

Здесь следует сказать, что файлы хранятся в папке, в которой установлен Аваланч, в виде стандартных пар HTML-файла и txt-файла.

В ходе работы с Аваланчем обнаружился положительный побочный эффект такой формы хранения данных: они хорошо индексируются программой для поиска на персональном компьютере Яндекс Десктоп. За счет этого, помимо поиска с помощью встроенного поискового механизма Аваланча, можно искать информацию и с помощью Яндекс Десктоп, используя стандартный язык запросов Яндекса.

<Скриншот>

В программе Advanced Visual Compare в ыбираются два файла , которые будут сравниваться

<Скриншот>

А затем в исходном коде показано разными цветами, какие изменения произошли и где они находятся

<Скриншот>

Если есть сложности в прочтении исходного кода и привязке его к обычному виду страницы, то для решения этой проблемы можно воспользоваться любой программой, умеющей конвертировать исходный код страницы в ее обычный вид и наоборот. Я покажу это на примере Macromedia Dreamweaver. Скопируем весь исходный код, полученный в программе AVC,, не разбираясь, где есть изменения, а где нет, в Dreamweaver. Затем скопирауем толькоизмененную часть и с помощью CTRL+F найдем его в Dreamweaver'е.

<Скриншот>

После чего выберем режим "Design" и сможем увидеть, где этот выделенный в коде участок расположен на странице сайта, которую видит пользователь в своем браузере..

<Скриншот>

Заканчивая отчет о полевых испытаниях Аваланча, я хочу сказать, что считаю эту программу очень перспективной разработкой, рассчитанной на тех специалистов, которым необходимо автоматизировать мониторинг Интернета. На мой взгляд, Аваланч - следующий шаг для тех специалистов, которым требуется проводить объем работы, когда WebSite Watcher уже не удовлетворяет их потребностей. Аваланч значительно более автоматизирован, чем WebSite Watcher, а самое главное, он имеет собственную базу данных и простой в использовании механизм работы с ней.

Модификация программы, которая попала мне на испытания, является новой. В ней на моих глазах (и с удовольствием могу отметить, что во многом с моей подачи) были устранены многие недочеты, мешавшие использовать эту программу в работе - вроде зависания на отдельных типах сайтов, некорректное отображение некоторых кодировок или отсутствие возможности оперативно найти изменения на странице. Сейчас Аваланч избавился от этих проблем. У меня он работал стабильно, результаты приносил корректные. А опыт общения с разработчиком вселяет уверенность, что даже если выявятся какие-то особо редкие проблемы, они будут оперативно решены. Все вопросы непосредственно по программе, на мой взгляд, лучше адресовать разработчикам по адресу am [собака] inforus [точка] biz

Евгений Ющук,

08.10.2007 г.

Так случилось, что в этой ветке начали обсуждаться вопросы, далекие от темы Аваланча. Это нередко происходит на форумах.
Чтобы не отвлекать читателей флудом, я сюда перенес ссылку на пояснения разработчиков, которые они дали в ответ на вопросы, заданные в этом форуме и непосредственно им по электронной почте.

Андрей Масалович, как и обещал, разместил ответы на вопросы на отдельной странице. Под заголовком Avalanche 2.0: Ответы на вопросы.
Вы можете задавать разработчикам свои вопросы им по электронной почте или здесь и они обещали добавлять ответы на приведенную по ссылке страницу

Сообщение отредактировал CI-KP: 16 Октябрь 2007 - 11:24

Ющук Евгений Леонидович. Конкурентная разведка. www.razvedka-internet.ru ; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь (с)
0

#2 Пользователь офлайн   Albert R. 

  • Вырезано цензурой
  • Группа: Users
  • Сообщений: 2 066
  • Регистрация: 26 Август 05

Отправлено 11 Октябрь 2007 - 02:39

Мда..., сильный обзор. Спасибо Евгений. ГетНьюс нервно курит в сторонке. Я бы приобрёл. Есть желающие взять софт вскладчину?

0

#3 Пользователь офлайн   Yury 

  • Подозрительный тип
  • Группа: Members
  • Сообщений: 24
  • Регистрация: 26 Декабрь 05

Отправлено 11 Октябрь 2007 - 04:41

А что это реально работающий продукт?
Я думал это антиПиар какого-то Кузнецова...
АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!

Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним.

И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)?
Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус?

З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам...
0

#4 Пользователь офлайн   Albert R. 

  • Вырезано цензурой
  • Группа: Users
  • Сообщений: 2 066
  • Регистрация: 26 Август 05

Отправлено 11 Октябрь 2007 - 04:50

QUOTE(Yury @ Oct 11 2007, 05:41)
А что это реально работающий продукт?
Я думал это антиПиар какого-то Кузнецова...
АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!
Просмотр сообщения


Не хотите не читайте, у нас уважаемый товарищъ свобода слова понимаш smile12.gif
ПС: самый лучший способ проверить работоспособность софта это пощупать ручками.
0

#5 Пользователь офлайн   CI-KP 

  • .
  • Группа: Users
  • Сообщений: 7 334
  • Регистрация: 01 Январь 06

Отправлено 11 Октябрь 2007 - 06:52

QUOTE(Yury @ Oct 11 2007, 06:41)
А что это реально работающий продукт?
Просмотр сообщения


Да. а разве не видно?

QUOTE(Yury @ Oct 11 2007, 06:41)
Я думал это антиПиар какого-то Кузнецова...
Просмотр сообщения


Если Вы на самом деле так так думали, то как объяснить Ваши следующие вопросы? :) Мне просто интересно. Расскажете?

P.S. Я не очень нарушу стройность Ваших рассуждений, если напомню, что там еще про автомобили BMW есть и про кадровую службу Рольфа? :)


QUOTE(Yury @ Oct 11 2007, 06:41)
АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!
Просмотр сообщения


А автору чего именно, если не секрет?
Ваше мнение мне безусловно очень важно. Но только не понял, где переход на личности? В констатации факта, что мосье Кузнецов стер автора с обложки книги американского автора и вписал себя? Если да, то в чем здесь "переход на личности" заключается? Он на самом деле так поступил. У меня есть оригиналы, да и он сам это признал вообще-то. В приличных местах и в УК РФ это называется плагиатом, кстати. Так кому же позор?
Если же Ваш тонкий вкус оскорблен текстами, написанными на сайтах третьих лиц, найденных Аваланчем, то Вы кому ПОЗОР адресуете - мне, Аваланчу, авторам текстов? Если не сложно, поясните пожалуйста, раз уж сочли нужным высказать свое "фэ". Сказали "А" - скажите и "Б".

QUOTE(Yury @ Oct 11 2007, 06:41)
Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним.
Просмотр сообщения


Мне кажется, для этого и существует курс по обучению пользователей. И инструкция.

QUOTE(Yury @ Oct 11 2007, 06:41)
И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)?
Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус?
Просмотр сообщения


Я дам ссылку на этот форум разработчикам. Если они сочтут нужным, пусть ответят на возникающие вопросы сами. Или напишите им по электронной почте и потом расскажите результат здесь.
Давайте определимся сразу: меня интересовали возможности программы и я отобразил то, что лично мне было интересно с практической точки зрения. Я не занимаюсь рекламой Аваланча или его разработкой, поэтому никому ничего не должен. Это так, к сведению и во избежание дальнейших недоразумений.

QUOTE(Yury @ Oct 11 2007, 06:41)
З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам...
Просмотр сообщения


Что Вы имеете в виду?
И кем "не принимается"? Кто у нас комиссия по приемке? Могу сказать, что я не теоретик в области тезаурусов. Мне надо решать практические задачи. И я их решаю. Аваланч позволяет решать их эффективнее, чем вручную и по некоторым параметрам эффективнее, чем WebSite Watcher. Кстати, напомню один важный момент: я протестировал самую простую по возможностям версию Аваланча. То, что делается для крупных предприятий и стоит соответственно, способно даже к самообучению, насколько я знаю. Но лично не пользовался, поэтому подробно рассказать не могу.

Сообщение отредактировал CI-KP: 11 Октябрь 2007 - 07:24

Ющук Евгений Леонидович. Конкурентная разведка. www.razvedka-internet.ru ; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь (с)
0

#6 Пользователь офлайн   MaZik 

  • Тамагочик
  • Группа: Members
  • Сообщений: 857
  • Регистрация: 22 Январь 07

Отправлено 11 Октябрь 2007 - 09:38

QUOTE(Yury @ Oct 11 2007, 05:41)
А что это реально работающий продукт?
Я думал это антиПиар какого-то Кузнецова...
АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!!

Просмотр сообщения


ИМХО позор автору поста. Работать в данной области (предполагаю, ибо тем кто не в теме зачем на сайте быть?) и не отслеживать инсайдерскую информацию-не совсем правильно. Про г-на Кузнецова С.В. известно давно. И то, что атор обзора оберегает новичков от сего господины-достаточно благородный поступок. Они НЕ конкуренты. И не дай боже попасть начинающему на такой семинар.

P.S. сорри за оффтоп-неудержался...

Сообщение отредактировал MaZik: 11 Октябрь 2007 - 09:39

От этих волосатых лап еще никто не уходил...
0

#7 Пользователь офлайн   Стажёр 

  • Втёршийся в доверие
  • Группа: Users
  • Сообщений: 275
  • Регистрация: 13 Октябрь 06

Отправлено 11 Октябрь 2007 - 12:17

QUOTE(Albert R. @ Oct 11 2007, 03:39)
Мда..., сильный обзор. Спасибо Евгений. ГетНьюс нервно курит в сторонке. Я бы приобрёл. Есть желающие взять софт вскладчину?
Просмотр сообщения



Летом предыдущая персональная версия стоила около 6000 руб.
Тоже вполне рабочая. Правда, с зависанием на некоторых сайтах действительно есть проблема. Но у меня их набралось всего несколько.
0

  • (54 Страниц)
  • +
  • 1
  • 2
  • 3
  • Последняя »
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему