Перейти к содержанию

Откроется аналог ВЕБархива


Рекомендуемые сообщения

Вот такая интересная статья попалась мне, простите за полное цитирование, но тут лучше целиком :)

 

_ttp://lenta.ru/articles/2008/12/08/zoetrope/

Архиватор интернета

 

Ученые установили слежку за веб-страницами

 

Инженеры из лабораторий Adobe Systems и ученые из Вашингтонского университета в начале декабря представили уникальную систему Zoetrope, которая перевернет представление о работе с интернетом. Она позволяет читать на веб-страницах не только информацию, которая появилась только что, но и ту, что была раньше.

 

По словам авторов Zoetrope, интернет вокруг нас эфемерен. Ежечасно и ежесекундно меняются главные страницы новостных ресурсов, редактируются статьи в Википедии, удаляются профили в социальных сетях, скачут цены на акции, ресурсы и бытовую электронику. Если пользователь хочет узнать, как выглядел тот или иной сайт три дня назад - как ему быть?

 

До сих пор существовали довольно ненадежные решения - проект WayBack Machine, например, теоретически позволяет взглянуть на любую из 85 миллиардов страниц. База данных этого сервиса простирается до 1996 года - то есть доисторических времен по меркам интернета. Есть только два недостатка: WayBack Machine очень медленно работает и, кроме того, обновляет свою базу далеко не каждый день. Еще одно решение - кэш всемогущего Google. Однако спустя некоторое время он очищается.

 

Zoetrope добавляет в одномерную Сеть, где браузер позволяет просматривать лишь последние версии страниц, второе измерение. Пользователь может нарисовать на интересующей его странице прямоугольник (в терминологии Zoetrope - "линзу") и, прокрутив специальный бегунок, узнать, как менялась эта часть веб-страницы раньше.

 

Если сайт изменит свой дизайн, то линза может "сползти" и не будет показывать того, что от нее требуется. Для этого авторы Zoetrope разработали специальный тип линз, отслеживающий не определенный прямоугольник на странице, а целый блок. Даже если сайт сильно изменится, такая линза "поймет", где находится нужный блок.

 

Линзы можно соединять друг с другом. Это позволяет, например, одновременно смотреть график цен на нефть и последние новости, ища взаимосвязь. Такая возможность - просто находка для любого пользователя.

 

Кроме того, линзы "умеют" выделять текстовую информацию. Это позволяет, например, отслеживать передвижения по рейтингу музыкальных композиций любимой группы.

 

На линзы можно накладывать различные фильтры. Фильтр по времени позволит посмотреть по соответствующему сайту, в какие вечерние часы бывают пробки и как они зависят от погоды или, например, как менялся тот или иной текст в течение конкретного дня. Фильтр по ключевым словам, будучи введен на линзу на новостном сайте, эффективно отфильтрует поток сообщений. Также можно удалить дубликаты и тем самым избавить себя от прокрутки не меняющихся фрагментов страницы.

 

Пример

Пример работы Zoetrope: мониторинг новостей об Украине

 

Более того, если отслеживаются числовые значения, Zoetrope может построить график изменений. Это очень облегчает анализ. Также можно ставить одну линзу на другую, получая отфильтрованное представление данных.

 

Небольшой брат следит за тобой

 

Пока Zoetrope работает в тестовом режиме лишь с 250 страницами. Вот уже месяц эти страницы ежечасно обходит робот, складывая информацию в базу данных.

 

Если проект станет доступен пользователям, наступят тревожные времена. Любую выложенную в Сеть на час информацию можно будет посмотреть, даже если она исчезла из интернета.

 

В социальной сети можно будет отследить изменение личных данных пользователя. Ошибки новостных сайтов навсегда останутся в кэше Zoetrope. Кроме того, правообладателям будет сложнее изъять выложенные пиратами в сеть книги и фотографии - ведь они тоже в базе данных.

 

Упростится работа спецслужб и цензоров. Теперь они легко смогут доказать, что та или иная запись появилась в соответствующем блоге. А если к Zoetrope прикрутят блок авторизации, то можно будет через "линзу" отслеживать изменения в запароленных областях Сети.

 

Как Adobe будет развивать Zoetrope, кто первый получит к ней полный доступ, расширят ли число проверяемых страниц с 250 до, скажем, миллиарда - абсолютно неясно. Зато понятно, что "старому интернету", похоже, приходит конец.
Ссылка на комментарий
Поделиться на другие сайты

Про себя. Фирма решила свой сайт создать. Пригласили вэб-дизайнеров и они нам навояли. Сделали нам черновые варианты, наполнили их текстовкой (взяли с понравившегося нам сайта, который выступал в роли "Ну, вот такой сайт нам нравится, нам бы что-нибудь в этом же духе, только не точно так"). Через некоторое время делал поиск в Гугле и, по запрошенным данным, нашел в кэше Гугла черновые варианты наших страниц. При просмотре сохраненного, из текстов точно видно какой сайт мы брали как концепцию. Во как вышло. Так что был бы такой архив ранее, возможно можно было бы кое что узнать не только про то, как создавался свой/недавносозданный сайт, но и про чужие/давносозданные сайты. WayBack Machine вещь хорошая, пользуюсь ей регулярно. Но "альтернатива - это утки", как говорится в одном анекдоте. Альтернатива никогда не помешает, особенно при том, что она не абсолютно идентична другому проекту.

Ссылка на комментарий
Поделиться на другие сайты

Очень уважаю подобные програмки, это действительно глубокий анализ информации!!!

 

Одного не могу понять?

Кто ими пользуется?

Я при сборе информации, ввиду оперативности и постоянной нехватки времени, ловлю только самое главное, или же отвечаю на конкретно поставленные вопросы. А использование данной системы выдаст намного больший объем информации, требующий более длительного анализа! Кроме того, при приобретении она еще и денег стоит... Кто же использует, кому она необходима для полноценной работы?

Ссылка на комментарий
Поделиться на другие сайты

Мне кажется такие программы нужны только когда надо проводить серьёзное аналитическое исследование темы. В первую очередь, наверно, порадуются журналисты.

Ссылка на комментарий
Поделиться на другие сайты

  • 4 недели спустя...
Мне кажется такие программы нужны только когда надо проводить серьёзное аналитическое исследование темы. В первую очередь, наверно, порадуются журналисты.

 

Журналисты?!?!?!?! Не думаю!!!

Возьмем "Коммерсантъ" или любое региональное СМИ.

Непомню там статей с глубиким аналитическим исследованием. Либо новости причем самые свежие, либо реклама - под видом новости.

 

Ну а все же, кому они нужны?

Ссылка на комментарий
Поделиться на другие сайты

Ну а все же, кому они нужны?

Что я реально видел:

- поиск аффилированных структур

- доказательство участия компании в информационной войне на определенной стороне в определенный период

- динамика роста зарплаты в разделе "вакансии"

- динамика развития (или деградации) филиальной сети

- попытки предсказать вывод нового продукта на рынок, анализируя сообщения по предыдущим продуктам

- демонстрация собственного глубокого подхода к проблемам клиента

 

возможно, что-то еще, я навскидку написал, что вспомнил.

 

В принципе, когда смотришь, что и как было, то в контексте имеющейся задачи и находишь то, что нужно.

Особенно, когда что-то попытались скрыть и поэтому зачистили, а в архиве это "что-то" висит на первой странице сайта.

Ссылка на комментарий
Поделиться на другие сайты

а пока открывается новый вебархив, закрывается старый

 

_ttp://www.securitylab.ru/news/366461.php

 

Британский провайдер Demon Internet заблокировал ресурс Internet Archive, содержащий архивные снимки многих интернет-сайтов, а также текстовый, музыкальный и видеоархивы. В частности, недоступен оказался сервис Wayback Machine, позволяющий увидеть, как менялись сайты с 1996 года.

 

Причины блокировки неизвестны, однако страницы, сообщающие пользователям о том, что ресурс не найден, сгенерированы порнофильтром британской организации Internet Watch Foundation (IWF), борющейся с детской порнографией в Сети.

 

Предположительно, фильтр мог найти в интернет-архиве изображения, которые подходили под его критерии включения в черный список. После этого программа могла занести в "черный список" весь сайт целиком. Реакция представителей IWF и Demon Internet пока неизвестна.

 

Месяц назад фильтр IWF уже привел к частичной блокировке интернет-энциклопедии Wikipedia как минимум шестью британскими провайдерами. Тогда причиной блокировки стала обложка альбома Virgin Killer группы Scorpions, вышедшего в семидесятых годах.

Ссылка на комментарий
Поделиться на другие сайты

сгенерированы порнофильтром британской организации Internet Watch Foundation (IWF), борющейся с детской порнографией в Сети.

 

Предположительно, фильтр мог найти в интернет-архиве изображения, которые подходили под его критерии включения в черный список.

Запросто. Я проверял - архивы главных страниц многих порносайтов замечательно сохранились в вэбархиве.

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

×
×
  • Создать...