Опубликовано 10 октября, 200718 г Я еще в начале лета обещал выложить результаты тестирования программы для мониторинга Интернета Аваланч (Avalanche), созданной Андреем Масаловичем. При испытаниях прежней этой программы были выявлены недочеты, которые я счел серьезными (например, программа "спотыкалась" о некоторые сайты). Разработчики взялись ее полностью переделать. И переделали. Потом была работа по выявлению мелких шероховатостей, проявлявшихся в процессе тестового мониторинга Интернета. Сейчас можно констатировать, что Аваланч (Avalanche) версии 2.0 показал себя с самой лучшей стороны. Я снабдил отчет пошаговыми скриншотами, показывающими, что делал Аваланч и как выглядят результаты его работы. Поскольку из-за скриншотов страница с отчетом "весит" около 2.5 МБ, я не стану ее всю выкладывать здесь, а дам только два скриншота и текст. Полностью весь материал вы можете увидеть на моем сайте Конкурентная разведка на странице со статьей Полевые испытания программы Аваланч (Avavlanche). Здесь те места в тексте, где на моем сайте размещены скриншоты, выделены так: <Скриншот>. Полевые испытания программы Аваланч (Avalanche) Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет. Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям. Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом. Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы. Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент. В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция. Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча. Итак, приступим. Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны) http://ci-razvedka.ru/gif/Avakanche/Papka_avalanch.jpg Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле. http://ci-razvedka.ru/gif/Avakanche/Zapusk_Pauka.jpg После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам. <Скриншот> Закончив работу ,паук сообщает об этом. <Скриншот> После этого окно с пауком надо закрыть, а окно самого Аваланча наоборот открыть (запустив файл Avalanche.exe). В главном окне Аваланча видны "Умные папки", по которым уже разложена принесенная пауков информация. <Скриншот> Если открыть "умные папки", то видно, что информация в них структурирована по дате. <Скриншот> В правой части окна видны страницы, которые Аваланч счел соответствующими критерисям поиска. Можно каждую из них открыть и просмотреть ее контент полностью <Скриншот> В левой колонке видно, что если изменений на странице нет, то Аваланч игнорирует такую страницу, принося в базу данных только изменения. Например, видно, что 08.10.07г. на странице "вакансии" компании "Рольф" изменений не было. Эти изменения были 13.09.07 и 19.09.07 <Скриншот> Эти вакансии можно увидеть, также открыв каждый из источников на конкретную дату. Вот вакансии компании "Рольф" на 13.09.07 (это первое посещение страницы, поэтому сравнивать было не с чем) <Скриншот> А вот та же страница от 19.09.07г., когда Аваланч обнаружил на ней изменения. <Скриншот> Как я уже говорил, Аваланч может просматривать не только конкретные страницы сайтов, но и страницы, которые формируются по запросу к поисковым машинам. Вот, например, страница Google по запросу Кузнецов Сергей Валентинович <Скриншот> На следующем скриншоте показана страница, которую Аваланч посетил по ссылке с первого результата в выдаче Гугла по запросу: foto.retranslator.ru <Скриншот> Проиллюстрирую настройку рубрики. Это способ получить выборку из имеющейся базы данных. Ниже приведен пример уже настроенной рубрики. По такому запросу можно получить все документы из базу данных, в который есть слова "автомобиль" и "Peugeot", и при этом не содержится слово "новый". Видно, что таких документов в базе нет <Скриншот> Продемонстрирую настройку новой рубрики. Пусть нас интересует запрос, по которому будут получены документы, где есть слова "Кузнецов" и "Burwell", но при этом нет слова "автор" (для тех, кто не в курсе, напомню, что господин Кузнецов - химик-технолог по образованию, известный в конкурентной разведке тем, что стер имя Helen Burwell с обложки ее книги "Конкурентная разведка через Интернет" и вписал на эту обложку себя). Выбор этого объекта для иллюстрации возможностей Аваланча был связан с тем, что информация об этом объекте не является конфиденциальной, а проверять работу программы можно только на реальных примерах, информация по которым поступает и из других источников. Иначе невозможно оценить полноту и точность работы программного продукта. <Скриншот> После создания новой рубрики производится рубрикация, чтобы получить из базы данных данные, рассортированные в соответствии с новыми потребностями пользователя. <Скриншот> По завершении рубрикации появляется соответствующая надпись. <Скриншот> Теперь, если обратиться к вновь созданной рубрике, станут доступны документы, отвечающие заданным требованиям. Они могут быть, как и раньше, открыты прямо в окне Аваланча. <Скриншот> Надо отметить, что чаще всего не возникает сложностей в сравнении старого и нового вариантов контента вэб-страницы, поскольку обычно их хорошо видно. Однако на практике встречаются и такие случаи, когда изменения неочевидны. Ярким примером может служить страница блога на Живом Журнале, когда на ней появляется одна новая гиперссылка, а при этом больше никаких изменений не происходит. Крайне трудно искать такие различия. В то же время, появление подобной гиперссылки может быть очень важным. При испытаниях Аваланча я работал в постоянном контакте с разработчиками этой программы. Хочу отметить, что они быстро и качественно исправляли те небольшие шероховатости, которые нам поначалу встречались. Я уже собирался писать отчет об испытаниях, когда столкнулся с проблемой, что по ссылке из Гугла Аваланч принес страницу блога, как изменившуюся, а я долго не мог увидеть этих изменений. Тогда разработчики Аваланча дали ссылку на программу стороннего разработчика Advanced Visual Compare (она запускается с файла avc12.exe). Программа сравнивает исходные коды вэб-страниц и показывает измененные, добавленные или удаленные элементы на странице. <Скриншот> Здесь следует сказать, что файлы хранятся в папке, в которой установлен Аваланч, в виде стандартных пар HTML-файла и txt-файла. В ходе работы с Аваланчем обнаружился положительный побочный эффект такой формы хранения данных: они хорошо индексируются программой для поиска на персональном компьютере Яндекс Десктоп. За счет этого, помимо поиска с помощью встроенного поискового механизма Аваланча, можно искать информацию и с помощью Яндекс Десктоп, используя стандартный язык запросов Яндекса. <Скриншот> В программе Advanced Visual Compare в ыбираются два файла , которые будут сравниваться <Скриншот> А затем в исходном коде показано разными цветами, какие изменения произошли и где они находятся <Скриншот> Если есть сложности в прочтении исходного кода и привязке его к обычному виду страницы, то для решения этой проблемы можно воспользоваться любой программой, умеющей конвертировать исходный код страницы в ее обычный вид и наоборот. Я покажу это на примере Macromedia Dreamweaver. Скопируем весь исходный код, полученный в программе AVC,, не разбираясь, где есть изменения, а где нет, в Dreamweaver. Затем скопирауем толькоизмененную часть и с помощью CTRL+F найдем его в Dreamweaver'е. <Скриншот> После чего выберем режим "Design" и сможем увидеть, где этот выделенный в коде участок расположен на странице сайта, которую видит пользователь в своем браузере.. <Скриншот> Заканчивая отчет о полевых испытаниях Аваланча, я хочу сказать, что считаю эту программу очень перспективной разработкой, рассчитанной на тех специалистов, которым необходимо автоматизировать мониторинг Интернета. На мой взгляд, Аваланч - следующий шаг для тех специалистов, которым требуется проводить объем работы, когда WebSite Watcher уже не удовлетворяет их потребностей. Аваланч значительно более автоматизирован, чем WebSite Watcher, а самое главное, он имеет собственную базу данных и простой в использовании механизм работы с ней. Модификация программы, которая попала мне на испытания, является новой. В ней на моих глазах (и с удовольствием могу отметить, что во многом с моей подачи) были устранены многие недочеты, мешавшие использовать эту программу в работе - вроде зависания на отдельных типах сайтов, некорректное отображение некоторых кодировок или отсутствие возможности оперативно найти изменения на странице. Сейчас Аваланч избавился от этих проблем. У меня он работал стабильно, результаты приносил корректные. А опыт общения с разработчиком вселяет уверенность, что даже если выявятся какие-то особо редкие проблемы, они будут оперативно решены. Все вопросы непосредственно по программе, на мой взгляд, лучше адресовать разработчикам по адресу am [собака] inforus [точка] biz Евгений Ющук, 08.10.2007 г. Так случилось, что в этой ветке начали обсуждаться вопросы, далекие от темы Аваланча. Это нередко происходит на форумах. Чтобы не отвлекать читателей флудом, я сюда перенес ссылку на пояснения разработчиков, которые они дали в ответ на вопросы, заданные в этом форуме и непосредственно им по электронной почте. Андрей Масалович, как и обещал, разместил ответы на вопросы на отдельной странице. Под заголовком Avalanche 2.0: Ответы на вопросы. Вы можете задавать разработчикам свои вопросы им по электронной почте или здесь и они обещали добавлять ответы на приведенную по ссылке страницу Изменено 16 октября, 200718 г пользователем CI-KP
Опубликовано 10 октября, 200718 г Мда..., сильный обзор. Спасибо Евгений. ГетНьюс нервно курит в сторонке. Я бы приобрёл. Есть желающие взять софт вскладчину?
Опубликовано 11 октября, 200718 г А что это реально работающий продукт? Я думал это антиПиар какого-то Кузнецова... АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним. И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)? Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус? З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам...
Опубликовано 11 октября, 200718 г А что это реально работающий продукт? Я думал это антиПиар какого-то Кузнецова... АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! 34268[/snapback] Не хотите не читайте, у нас уважаемый товарищъ свобода слова понимаш style_emoticons/default/smile12.gif ПС: самый лучший способ проверить работоспособность софта это пощупать ручками.
Опубликовано 11 октября, 200718 г Автор А что это реально работающий продукт? 34268[/snapback] Да. а разве не видно? Я думал это антиПиар какого-то Кузнецова... 34268[/snapback] Если Вы на самом деле так так думали, то как объяснить Ваши следующие вопросы? :) Мне просто интересно. Расскажете? P.S. Я не очень нарушу стройность Ваших рассуждений, если напомню, что там еще про автомобили BMW есть и про кадровую службу Рольфа? :) АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! 34268[/snapback] А автору чего именно, если не секрет? Ваше мнение мне безусловно очень важно. Но только не понял, где переход на личности? В констатации факта, что мосье Кузнецов стер автора с обложки книги американского автора и вписал себя? Если да, то в чем здесь "переход на личности" заключается? Он на самом деле так поступил. У меня есть оригиналы, да и он сам это признал вообще-то. В приличных местах и в УК РФ это называется плагиатом, кстати. Так кому же позор? Если же Ваш тонкий вкус оскорблен текстами, написанными на сайтах третьих лиц, найденных Аваланчем, то Вы кому ПОЗОР адресуете - мне, Аваланчу, авторам текстов? Если не сложно, поясните пожалуйста, раз уж сочли нужным высказать свое "фэ". Сказали "А" - скажите и "Б". Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним. 34268[/snapback] Мне кажется, для этого и существует курс по обучению пользователей. И инструкция. И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)? Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус? 34268[/snapback] Я дам ссылку на этот форум разработчикам. Если они сочтут нужным, пусть ответят на возникающие вопросы сами. Или напишите им по электронной почте и потом расскажите результат здесь. Давайте определимся сразу: меня интересовали возможности программы и я отобразил то, что лично мне было интересно с практической точки зрения. Я не занимаюсь рекламой Аваланча или его разработкой, поэтому никому ничего не должен. Это так, к сведению и во избежание дальнейших недоразумений. З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам... 34268[/snapback] Что Вы имеете в виду? И кем "не принимается"? Кто у нас комиссия по приемке? Могу сказать, что я не теоретик в области тезаурусов. Мне надо решать практические задачи. И я их решаю. Аваланч позволяет решать их эффективнее, чем вручную и по некоторым параметрам эффективнее, чем WebSite Watcher. Кстати, напомню один важный момент: я протестировал самую простую по возможностям версию Аваланча. То, что делается для крупных предприятий и стоит соответственно, способно даже к самообучению, насколько я знаю. Но лично не пользовался, поэтому подробно рассказать не могу. Изменено 11 октября, 200718 г пользователем CI-KP
Для публикации сообщений создайте учётную запись или авторизуйтесь