CI-KP Опубликовано 10 октября, 2007 Поделиться Опубликовано 10 октября, 2007 Я еще в начале лета обещал выложить результаты тестирования программы для мониторинга Интернета Аваланч (Avalanche), созданной Андреем Масаловичем. При испытаниях прежней этой программы были выявлены недочеты, которые я счел серьезными (например, программа "спотыкалась" о некоторые сайты). Разработчики взялись ее полностью переделать. И переделали. Потом была работа по выявлению мелких шероховатостей, проявлявшихся в процессе тестового мониторинга Интернета. Сейчас можно констатировать, что Аваланч (Avalanche) версии 2.0 показал себя с самой лучшей стороны. Я снабдил отчет пошаговыми скриншотами, показывающими, что делал Аваланч и как выглядят результаты его работы. Поскольку из-за скриншотов страница с отчетом "весит" около 2.5 МБ, я не стану ее всю выкладывать здесь, а дам только два скриншота и текст. Полностью весь материал вы можете увидеть на моем сайте Конкурентная разведка на странице со статьей Полевые испытания программы Аваланч (Avavlanche). Здесь те места в тексте, где на моем сайте размещены скриншоты, выделены так: <Скриншот>. Полевые испытания программы Аваланч (Avalanche) Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет. Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям. Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом. Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы. Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент. В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция. Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча. Итак, приступим. Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны) http://ci-razvedka.ru/gif/Avakanche/Papka_avalanch.jpg Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле. http://ci-razvedka.ru/gif/Avakanche/Zapusk_Pauka.jpg После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам. <Скриншот> Закончив работу ,паук сообщает об этом. <Скриншот> После этого окно с пауком надо закрыть, а окно самого Аваланча наоборот открыть (запустив файл Avalanche.exe). В главном окне Аваланча видны "Умные папки", по которым уже разложена принесенная пауков информация. <Скриншот> Если открыть "умные папки", то видно, что информация в них структурирована по дате. <Скриншот> В правой части окна видны страницы, которые Аваланч счел соответствующими критерисям поиска. Можно каждую из них открыть и просмотреть ее контент полностью <Скриншот> В левой колонке видно, что если изменений на странице нет, то Аваланч игнорирует такую страницу, принося в базу данных только изменения. Например, видно, что 08.10.07г. на странице "вакансии" компании "Рольф" изменений не было. Эти изменения были 13.09.07 и 19.09.07 <Скриншот> Эти вакансии можно увидеть, также открыв каждый из источников на конкретную дату. Вот вакансии компании "Рольф" на 13.09.07 (это первое посещение страницы, поэтому сравнивать было не с чем) <Скриншот> А вот та же страница от 19.09.07г., когда Аваланч обнаружил на ней изменения. <Скриншот> Как я уже говорил, Аваланч может просматривать не только конкретные страницы сайтов, но и страницы, которые формируются по запросу к поисковым машинам. Вот, например, страница Google по запросу Кузнецов Сергей Валентинович <Скриншот> На следующем скриншоте показана страница, которую Аваланч посетил по ссылке с первого результата в выдаче Гугла по запросу: foto.retranslator.ru <Скриншот> Проиллюстрирую настройку рубрики. Это способ получить выборку из имеющейся базы данных. Ниже приведен пример уже настроенной рубрики. По такому запросу можно получить все документы из базу данных, в который есть слова "автомобиль" и "Peugeot", и при этом не содержится слово "новый". Видно, что таких документов в базе нет <Скриншот> Продемонстрирую настройку новой рубрики. Пусть нас интересует запрос, по которому будут получены документы, где есть слова "Кузнецов" и "Burwell", но при этом нет слова "автор" (для тех, кто не в курсе, напомню, что господин Кузнецов - химик-технолог по образованию, известный в конкурентной разведке тем, что стер имя Helen Burwell с обложки ее книги "Конкурентная разведка через Интернет" и вписал на эту обложку себя). Выбор этого объекта для иллюстрации возможностей Аваланча был связан с тем, что информация об этом объекте не является конфиденциальной, а проверять работу программы можно только на реальных примерах, информация по которым поступает и из других источников. Иначе невозможно оценить полноту и точность работы программного продукта. <Скриншот> После создания новой рубрики производится рубрикация, чтобы получить из базы данных данные, рассортированные в соответствии с новыми потребностями пользователя. <Скриншот> По завершении рубрикации появляется соответствующая надпись. <Скриншот> Теперь, если обратиться к вновь созданной рубрике, станут доступны документы, отвечающие заданным требованиям. Они могут быть, как и раньше, открыты прямо в окне Аваланча. <Скриншот> Надо отметить, что чаще всего не возникает сложностей в сравнении старого и нового вариантов контента вэб-страницы, поскольку обычно их хорошо видно. Однако на практике встречаются и такие случаи, когда изменения неочевидны. Ярким примером может служить страница блога на Живом Журнале, когда на ней появляется одна новая гиперссылка, а при этом больше никаких изменений не происходит. Крайне трудно искать такие различия. В то же время, появление подобной гиперссылки может быть очень важным. При испытаниях Аваланча я работал в постоянном контакте с разработчиками этой программы. Хочу отметить, что они быстро и качественно исправляли те небольшие шероховатости, которые нам поначалу встречались. Я уже собирался писать отчет об испытаниях, когда столкнулся с проблемой, что по ссылке из Гугла Аваланч принес страницу блога, как изменившуюся, а я долго не мог увидеть этих изменений. Тогда разработчики Аваланча дали ссылку на программу стороннего разработчика Advanced Visual Compare (она запускается с файла avc12.exe). Программа сравнивает исходные коды вэб-страниц и показывает измененные, добавленные или удаленные элементы на странице. <Скриншот> Здесь следует сказать, что файлы хранятся в папке, в которой установлен Аваланч, в виде стандартных пар HTML-файла и txt-файла. В ходе работы с Аваланчем обнаружился положительный побочный эффект такой формы хранения данных: они хорошо индексируются программой для поиска на персональном компьютере Яндекс Десктоп. За счет этого, помимо поиска с помощью встроенного поискового механизма Аваланча, можно искать информацию и с помощью Яндекс Десктоп, используя стандартный язык запросов Яндекса. <Скриншот> В программе Advanced Visual Compare в ыбираются два файла , которые будут сравниваться <Скриншот> А затем в исходном коде показано разными цветами, какие изменения произошли и где они находятся <Скриншот> Если есть сложности в прочтении исходного кода и привязке его к обычному виду страницы, то для решения этой проблемы можно воспользоваться любой программой, умеющей конвертировать исходный код страницы в ее обычный вид и наоборот. Я покажу это на примере Macromedia Dreamweaver. Скопируем весь исходный код, полученный в программе AVC,, не разбираясь, где есть изменения, а где нет, в Dreamweaver. Затем скопирауем толькоизмененную часть и с помощью CTRL+F найдем его в Dreamweaver'е. <Скриншот> После чего выберем режим "Design" и сможем увидеть, где этот выделенный в коде участок расположен на странице сайта, которую видит пользователь в своем браузере.. <Скриншот> Заканчивая отчет о полевых испытаниях Аваланча, я хочу сказать, что считаю эту программу очень перспективной разработкой, рассчитанной на тех специалистов, которым необходимо автоматизировать мониторинг Интернета. На мой взгляд, Аваланч - следующий шаг для тех специалистов, которым требуется проводить объем работы, когда WebSite Watcher уже не удовлетворяет их потребностей. Аваланч значительно более автоматизирован, чем WebSite Watcher, а самое главное, он имеет собственную базу данных и простой в использовании механизм работы с ней. Модификация программы, которая попала мне на испытания, является новой. В ней на моих глазах (и с удовольствием могу отметить, что во многом с моей подачи) были устранены многие недочеты, мешавшие использовать эту программу в работе - вроде зависания на отдельных типах сайтов, некорректное отображение некоторых кодировок или отсутствие возможности оперативно найти изменения на странице. Сейчас Аваланч избавился от этих проблем. У меня он работал стабильно, результаты приносил корректные. А опыт общения с разработчиком вселяет уверенность, что даже если выявятся какие-то особо редкие проблемы, они будут оперативно решены. Все вопросы непосредственно по программе, на мой взгляд, лучше адресовать разработчикам по адресу am [собака] inforus [точка] biz Евгений Ющук, 08.10.2007 г. Так случилось, что в этой ветке начали обсуждаться вопросы, далекие от темы Аваланча. Это нередко происходит на форумах. Чтобы не отвлекать читателей флудом, я сюда перенес ссылку на пояснения разработчиков, которые они дали в ответ на вопросы, заданные в этом форуме и непосредственно им по электронной почте. Андрей Масалович, как и обещал, разместил ответы на вопросы на отдельной странице. Под заголовком Avalanche 2.0: Ответы на вопросы. Вы можете задавать разработчикам свои вопросы им по электронной почте или здесь и они обещали добавлять ответы на приведенную по ссылке страницу Ссылка на комментарий Поделиться на другие сайты More sharing options...
Albert R. Опубликовано 10 октября, 2007 Поделиться Опубликовано 10 октября, 2007 Мда..., сильный обзор. Спасибо Евгений. ГетНьюс нервно курит в сторонке. Я бы приобрёл. Есть желающие взять софт вскладчину? Ссылка на комментарий Поделиться на другие сайты More sharing options...
Yury Опубликовано 11 октября, 2007 Поделиться Опубликовано 11 октября, 2007 А что это реально работающий продукт? Я думал это антиПиар какого-то Кузнецова... АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним. И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)? Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус? З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам... Ссылка на комментарий Поделиться на другие сайты More sharing options...
Albert R. Опубликовано 11 октября, 2007 Поделиться Опубликовано 11 октября, 2007 А что это реально работающий продукт? Я думал это антиПиар какого-то Кузнецова... АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! 34268[/snapback] Не хотите не читайте, у нас уважаемый товарищъ свобода слова понимаш style_emoticons/default/smile12.gif ПС: самый лучший способ проверить работоспособность софта это пощупать ручками. Ссылка на комментарий Поделиться на другие сайты More sharing options...
CI-KP Опубликовано 11 октября, 2007 Автор Поделиться Опубликовано 11 октября, 2007 А что это реально работающий продукт? 34268[/snapback] Да. а разве не видно? Я думал это антиПиар какого-то Кузнецова... 34268[/snapback] Если Вы на самом деле так так думали, то как объяснить Ваши следующие вопросы? :) Мне просто интересно. Расскажете? P.S. Я не очень нарушу стройность Ваших рассуждений, если напомню, что там еще про автомобили BMW есть и про кадровую службу Рольфа? :) АВТОРУ ПОЗОР за переход на личности, кто бы этот кузнецов небыл!!! 34268[/snapback] А автору чего именно, если не секрет? Ваше мнение мне безусловно очень важно. Но только не понял, где переход на личности? В констатации факта, что мосье Кузнецов стер автора с обложки книги американского автора и вписал себя? Если да, то в чем здесь "переход на личности" заключается? Он на самом деле так поступил. У меня есть оригиналы, да и он сам это признал вообще-то. В приличных местах и в УК РФ это называется плагиатом, кстати. Так кому же позор? Если же Ваш тонкий вкус оскорблен текстами, написанными на сайтах третьих лиц, найденных Аваланчем, то Вы кому ПОЗОР адресуете - мне, Аваланчу, авторам текстов? Если не сложно, поясните пожалуйста, раз уж сочли нужным высказать свое "фэ". Сказали "А" - скажите и "Б". Интересно наличие в программе рубрикации, хотелось бы детально посмотреть на программирование рубрик и разборке страниц по ним. 34268[/snapback] Мне кажется, для этого и существует курс по обучению пользователей. И инструкция. И вопрос, к как испытателю (или другу разработчиков) в ходе мониторинга сайтов ведется только изучение новой информации вообще или возможна настройка на появление новой информации по ключевым словам на сайте (основная страничка и все ее ссылки в пределах домена)? Если поиск по ключевым словам работает, то есть ли морфология в нем? Тезаурус? 34268[/snapback] Я дам ссылку на этот форум разработчикам. Если они сочтут нужным, пусть ответят на возникающие вопросы сами. Или напишите им по электронной почте и потом расскажите результат здесь. Давайте определимся сразу: меня интересовали возможности программы и я отобразил то, что лично мне было интересно с практической точки зрения. Я не занимаюсь рекламой Аваланча или его разработкой, поэтому никому ничего не должен. Это так, к сведению и во избежание дальнейших недоразумений. З.Ы. ссылки на поиск через Гуглю и Яндекс не принимается, так как они работают не по всем сайтам... 34268[/snapback] Что Вы имеете в виду? И кем "не принимается"? Кто у нас комиссия по приемке? Могу сказать, что я не теоретик в области тезаурусов. Мне надо решать практические задачи. И я их решаю. Аваланч позволяет решать их эффективнее, чем вручную и по некоторым параметрам эффективнее, чем WebSite Watcher. Кстати, напомню один важный момент: я протестировал самую простую по возможностям версию Аваланча. То, что делается для крупных предприятий и стоит соответственно, способно даже к самообучению, насколько я знаю. Но лично не пользовался, поэтому подробно рассказать не могу. Ссылка на комментарий Поделиться на другие сайты More sharing options...
Рекомендуемые сообщения
Заархивировано
Эта тема находится в архиве и закрыта для дальнейших ответов.