Перейти к содержанию

Site Sputnik - программа для поиска информации в Интернете


Рекомендуемые сообщения

Цитата от CI-KP:

"Во-первых, ничего не очевидно. Спутник уберет дубли одной и той же страницы на одном и том же адресе. Но он не уберет одну и ту же информацию на разных адресах. А в процессе поиска это приходится делать довольно часто.

Убрать одни и те же данные, разбросанные в 200 каталогов, которые фирма "наоптимизировала" в поисковике несложно. В Спутнике тоже, в принципе, но зачем мне десять раз скачивать к себе весь интернет? Что героического в том, чтобы получить 5000 страниц, которые читать уже никто не сможет?

Обычно при поиске так и идут: убеждаются, что одна и та же информация повторяется и отсекают ее всю."

 

Ничего не надо выкачивать 10 раз, все лишнее так же прекрасно отсекается при помощи языков запросов.

 

Цитата от CI-KP:

"Вообще, проблема "когда прекращать поиск в Интернете" довольно объемная. А, например, учитывая, что американский Интернет еще пару лет назад был в 30 раз больше российского, проблема "найти вообще всё" с каждым днем все сильнее становится похожа на проблему создания "информационного пылесоса", которая решения по определению не имеет. Есть и технические ограничения, через которые не перепрыгнешь, в том числе на Спутнике - как-то длина строки Яндекса или 32 слова в максимально длинном запросе в Гугле. Это я к вопросу о "собрать вообще всё"."

 

Со всеми рассуждениями согласен, но это общие, глобальные проблемы, но не по конкретной теме из сообщения #39.

 

Цитата от CI-KP:

"Мне, скажу честно, никакого удовольствия не доставляло смотреть, как Спутник сгребает мне весь Интернет на компьютер."

 

В корне не согласен и уже НЕ ПЕРВЫЙ раз об этом пишу (см., например, сообщение #34)! Зачем повторять неправильную мысль.

Пишите грамотно запросы на языке запросов (Вы в этом вопросе один из лучших, если не лучший специалист в России),

прописывайте исполнение этих запросов на тех поисковиках, на языках которых запросы написаны, и мусора не будет!

 

Цитата от CI-KP:

"Более того. Я в своей работе, как только получаю нужный промежуточный результат, ставлю его в WebSite watcher и его можно

1. Мониторить в динамике (я знаю, что Спутник для этого не предназначен, но мне надо не Спутник ради спутника эксплуатировать, а надо работу делать)

2. Сделать в конце работы архив закладок в Вочере и передать его заказчику или положить в сейф. Особо красивые страницы можно в прилагаемом LocalWebsite Archive сохранить."

 

Со всем согласен, но абсолютно не в тему. Речь идет не о мониторинге, а о полном и точном поиске и сборе информации в интернете.

 

Цитата от CI-KP:

"Кроме того, мне известен только один человек, который гордился 400-страничным отчетом. "Эксперт комитета Госдумы по законодательству". Так вот, этого эксперта с 199какого-то года к Госдуме на пушечный выстрел не подпускают. Разведка не мусор гребет ковшом, чтобы весь этот ковш с горкой передать заказчику, а собирает материал по конкретной проблеме. И потом его анализирует, как вы справедливо заметили. И это очень серьезный момент."

 

Про мусор - это абсолютно не так. Не надо давить на ложный тезис. А то, что выгнали одного детутата в конце 20 века -

правильно, наверное, сделали. Написано эффектно, но я Вам возражу не эффектно, но эффективнее - бывают неприятности и

из-за того, что не в полном объеме и некачественно вылненена работа. Такие случаи встречаются чаще, чем Ваш.

 

Цитата от CI-KP:

"Поэтому я солидарен с Иоанном и Мутным в этом вопросе."

 

Возможно, что Вас, Иоанна и Мутного эта программа не устраивает - это нормально. Я буду стараться понять, что

Вами было бы востребовано и, по-возможности, реализовывать это в программе. База в программе заложена

фундаментальная, в частности, реализация мониторинга типа Вочера, но не по страничкам отдельных поисковиков, а по

более сложным объектам, описанным в сообщении #34 и объектам типа из сообщения #39 вполне реальна.

Трудоемкость - 20-40 дней, в зависимости от того, как пойдет реализация сравнения объектов. Абсолютно реально,

сделать это, алгоритм у меня уже формализован, как его реализовать я знаю. После такой реализации Вы сможете,

Евгений, промониторить не только то, что я только-что упомянул, но и построенное в Вашем обзоре пересечение исследуемых

там объектов и, например, желтым цветом подсветить произошедшие изменения.

Это Вам надо?

 

Цитата от CI-KP:

"И последний вопрос по списку (который я обычно очень не люблю обсуждать). Иоанн, на мой взгляд, вам нисколько не нахамил. Он вел себя совершенно корректно. И просто высказал Вам свое мнение. Если Вы не станете впредь поднимать вопросы интонаций, я был бы вам очень признателлен. Здесь эмоции не запрещены, конечно, но не очень приветствуются, когда они перемешиваются с деловыми вопросами."

 

Не согласен, но принимаю Ваше предложение, - больше не буду, извините. Прошу Иоанна ответить на заданный ему напрямую вопрос в сообщении #34 от 03.04.08,

а также на продолжение этого вопроса в сообщении #39. Это будет как раз в духе поддержания не эмоциональной, а деловой стороны

нашего диалога.

 

Цитата от CI-KP:

"Понимаете, Алексей, когда специалист видит WebSite Watcher, он говорит "wow!". Когда он понимает, что Вочер его уже не устраивает, он "wow!" не говорит, но берет Аваланч и со вздохом начинает его осваивать (просто Аваланч продвинутее Вочера в ряде вопросов, но и в освоении сложнее). Когда специалисту не нравится Аваланч, т.к. не устраивает по своим возможностям, он идет к Андрею Масаловичу и просит продемонстрировать продвинутые и дорогие версии Аваланча. Потом идет и смотрит семантический архив. Это уже те деньги, когда все расскажут и покажут, и учить специально будут, т.к. и сложность выше.

Я знаю, еще раз говорю, что Спутник не показывает обновлений. Я рассказываю эти примеры для того, чтобы было понятнее."

 

Понимаю, но не в тему.

 

Цитата от CI-KP:

"А когда берешь Спутник, выгоды для меня неочевидны. За исключением аналитического объединения. Аналитическое объединение Спутник делает хорошо, и спасибо за это. Так мы это и признаем. а там, где выгод нет и их не получается увидеть мы об этом тоже прямо говорим."

 

Пожалуйста, - это по поводу аналитического объединения, но говорите Вы не в тему и даже упорно приписываете

Спутнику несвойственное ему качество по собиранию мусора. А тема такова: "Как Вы, уважаемые CI-KP и Иоанн,

будете решать задачу, поставленную в сообщении #39, используя только поисковики"? Я уверен, что применяя

СайтСпутник, можно решить эту задачу лучше.

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 158
  • Создана
  • Последний ответ
Есть и технические ограничения, через которые не перепрыгнешь, в том числе на Спутнике - как-то длина строки Яндекса или 32 слова в максимально длинном запросе в Гугле.

 

P.S. Кстати, используя СайтСпутник можно в некоторых частных случаях "перепрыгнуть" через указанные в цитате ограничения.

 

Ссылка на комментарий
Поделиться на другие сайты

P.S. Кстати, используя СайтСпутник можно в некоторых частных случаях "перепрыгнуть" через указанные в цитате ограничения.

А вот это уже интересно. Можно подробнее?

 

И еще я слышал, что, вроде бы Спутник позволяет избежать ситуации в Яндексе "докажите, что вы не робот, а то с вашего адреса много странных запросов идет". Это действительно так?

Ссылка на комментарий
Поделиться на другие сайты

А вот это уже интересно. Можно подробнее?

 

И еще я слышал, что, вроде бы Спутник позволяет избежать ситуации в Яндексе "докажите, что вы не робот, а то с вашего адреса много странных запросов идет". Это действительно так?

По поводу: ... используя СайтСпутник, можно в некоторых частных случаях перепрыгнуть через технические ограничения, через которые не перепрыгнешь, в том числе на Спутнике - как-то длина строки Яндекса или 32 слова в максимально длинном запросе в Гугле...

 

Я имею ввиду следующее.

1. Если Ваш запрос очень длинный, но его можно на логическом "ИЛИ" верхнего уровня разбить на два или большее количество запросов, то запустив эти запросы в пакете по кнопке "Все совместно" мы получим тот же результат, если бы запуститли в поисковике один запрос, длинною превышающей ограничение поисковика. Здесь сработает удаление дублей ссылок.

2. Если Ваш запрос очень длинный, но его можно на логическом "И" верхнего уровня разбить на два или большее количество запросов, то запустив эти запросы в пакете по кнопке "Каждое отдельно", а затем выполнив над этими запросами аналитическое объединение мы получим для тех ссылок, которые все эти запросы нашли, некий аналог логического "И".

 

Что касается обхода "докажите, что вы не робот" этого я пока не сделал, но это вполне реально. Надо получше изучить, при каких условиях в разных поисковиках выскакивает это сообщение. Пока наткнувшись на такие сообщения СайтСпутник перейдет к следующему пункту своей работы. Но повторяю, это вполне реально.

 

И еще раз о точном поиске. Дословная цитата из отчета Евгения Ющука:

 

"Программа позволяет применять операторы языка запросов для различных поисковых машин. Для этого запросу указываются те поисковики, в которых он будет обрабатываться. В данном случае мы не ставили такой задачи. Запросы в одинаковом виде отправлены в несколько поисковых машин."

 

Мы с Вами, Евгений, до Вашего отчета уже объяснились на эту тему. Возможно, Вы забыли об этом.

 

Ссылка на комментарий
Поделиться на другие сайты

По поводу: ... используя СайтСпутник, можно в некоторых частных случаях перепрыгнуть через технические ограничения, через которые не перепрыгнешь, в том числе на Спутнике - как-то длина строки Яндекса или 32 слова в максимально длинном запросе в Гугле...

 

Я имею ввиду следующее.

1. Если Ваш запрос очень длинный, но его можно на логическом "ИЛИ" верхнего уровня разбить на два или большее количество запросов, то запустив эти запросы в пакете по кнопке "Все совместно" мы получим тот же результат, если бы запуститли в поисковике один запрос, длинною превышающей ограничение поисковика. Здесь сработает удаление дублей ссылок.

2. Если Ваш запрос очень длинный, но его можно на логическом "И" верхнего уровня разбить на два или большее количество запросов, то запустив эти запросы в пакете по кнопке "Каждое отдельно", а затем выполнив над этими запросами аналитическое объединение мы получим для тех ссылок, которые все эти запросы нашли, некий аналог логического "И".

Это действительно серьезный аргумент. ОЧЕНЬ серьезный, особенно когда речь идет о поиске информации о людях с распространенными фамилиями - вроде "Скворцов".

 

Что касается обхода "докажите, что вы не робот" этого я пока не сделал, но это вполне реально. Надо получше изучить, при каких условиях в разных поисковиках выскакивает это сообщение. Пока наткнувшись на такие сообщения СайтСпутник перейдет к следующему пункту своей работы. Но повторяю, это вполне реально.

Насколько я понимаю, Яндекс видит, что с одного IP идут запросы с применением операторов запросов. И ставит капчу. После заполнения капчи, Яндекс показывает результат.

 

И еще раз о точном поиске. Дословная цитата из отчета Евгения Ющука:

 

"Программа позволяет применять операторы языка запросов для различных поисковых машин. Для этого запросу указываются те поисковики, в которых он будет обрабатываться. В данном случае мы не ставили такой задачи. Запросы в одинаковом виде отправлены в несколько поисковых машин."

 

Мы с Вами, Евгений, до Вашего отчета уже объяснились на эту тему. Возможно, Вы забыли об этом.

Да почему забыл? Помню. Просто это не очень принципиально было, пока Вы не указали на такой плюс, как возможность разбивки чрезмерно длинного вопроса на фрагменты и последующее удаление дублей. Это реально позволяет обойти короткую строку Яндекса и Гугла. Там, где мы сегодня вынуждены остановиться и развести руками в беспомощнсти, со спутником мы можем продолжить работу. :smile20:

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...