Перейти к содержанию

Ищем правильно


Рекомендуемые сообщения

Попробовал, но что то он меня абсолютно не впечатлил, даже разочаровал. Шуму много было по поводу этого поисковика, а выхлоп нулевой.

5723[/snapback]

Просто, это не совсем поисковик. Это метапоисковая машина. Таких машин много.

Она не занимается поиском самостоятельно, а задействует для этого другие поисковики - Rambler, Google, Yandex и т.д. Но в каждом поисковике - свой синтаксис, поэтому метапоисковик не может искать иначе, как по отдельным словам. А это делает его почти бесполезным для целей разведки.

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 25
  • Создана
  • Последний ответ
Это и есть яндексовский хэлп.

 

В самом Яндексе он расположен по этим адресам:

http://www.yandex.ru/info/syntax.html

http://www.yandex.ru/ya_detail.html

5954[/snapback]

 

Старая русская забава - воткнуть в розетку, сжечь, проклинать производителя-продавца, прочитать инструкцию и сильно удивиться что инструкция криво написана.

 

 

Ссылка на комментарий
Поделиться на другие сайты

ну а теперь о Google хаке

(Это частичный перевод книги "Google Hacks", O'Reilly Pub Date )

 

1.Основные методы поиска в Google

1.1 Булевы операторы

По умолчанию в Google употребляется оператор AND; это значит, что при вводе нескольких слов в строку поиска без каких либо дополнительных служебных символов или слов Google будет искать все введённые слова.

Если Вы ищете:

snowblower Honda "Green Bay"

Google будет искать все слова в одном документе.

 

Если Вы хотите указать, что достаточно и какого-либо одного слова, то вставьте между ними OR :

snowblower OR snowmobile OR "Green Bay"

 

Если Вы хотите найти одно слово наверняка и к нему ещё одно или несколько - используйте скобки для их группировки:

snowblower (snowmobile OR "Green Bay")

Такой запрос будет искать слово "snowmobile" или фразу "Green Bay" и "snowblower."

Замена оператору OR, взятая из программирования - "|" (логическое ИЛИ, на раскладке En (США101) в Windows - Shift+\, возле <- backspace), например:

snowblower (snowmobile | "Green Bay")

 

Если Вы хотите указать, что какое-либо слово или фраза не должны быть в найденных документах - используйте знак "-" (минус или тире).

snowblower snowmobile -"Green Bay"

Такой запрос найдёт документы, содержащие слова "snowblower" и "snowmobile," но не содержащие фразу "Green Bay."

 

1.2 Простой поиск и "Я-везунчик"

Кнопочка Я-везунчик™ в принципе - просто украшение. Вместо предоставления списка результатов поиска для выбора, Вас просто перешлют на страничку являющуюся, по мнению Google, наиболее релевантной Вашему запросу, то есть на ту, которая высвечивается в результатах под номером 1. Если Вы введёте washington post и нажмёте "Я-везунчик" - отправитесь прямиком на http://www.washingtonpost.com/. Введя president - попадёте на http://www.whitehouse.gov/.

 

1.3 На заметку (Just in Case - оцените красоту заголовка!)

Некоторые поисковики обращают внимание на регистр букв (case sensitive); то есть поиск в них зависит и от использования больших букв. В них поиск фразы "GEORGE WASHINGTON" не даст в результате страниц содержащих "George Washington," "george washington," или любой другой комбинации регистров букв. Google не зависит от регистра букв в запросе. При поиске Three, three, или THREE, Вы получите одинаковые результаты.

 

1.4 Ещё несколько заметок

Во-первых, Google не воспринимает более 10 слов для поиска, включая специальный синтаксис. Впрочем, это можно обойти [Hack #5].

 

Во-вторых, Google не поддерживает поиска по корням слов (stemming), то есть возможности использования звёздочки (или другого знака маски) вместо букв в искомом слове. Например, moon* в поисковике, поддерживающем маски, найдёт "moonlight," "moonshot," "moonshadow," и т.д. Google же использует звёздочку как заменитель целого слова [Hack #13]. Поиск по фразе "three * mice" в Google даст в результате "three blind mice," "three blue mice," "three red mice," и так далее.

 

2. Спец. синтаксис

Так как Google является полнотекстовым поисковиком, он индексируе всё содержимое страниц. Дополнительные комманды, называемые спец. синтаксисом позволяют пользователям Google искать конкретные части web страниц или тип информации. Это довольно полезно, когда имеешь дело с 2 миллиардами страниц и хочешь использовать любую возможность, чтоб сузить число результатов поиска.

 

Некоторые команды отлично работают в сочетании друг с другом, некоторые друг другу мешают, а некоторые просто друг с другом не работают. Детальней о том, что с чем сочетается, смотрите [Hack #8].

 

Синтаксис:

 

intitle:

"intitle:" ограничивает поиск до заглавий страниц (titles). Вариации, "allintitle:" ищет страницы в заглавии которых находятся все слова поиска. Впрочем, этой вариации лучше избегать...

intitle:"george bush"

allintitle:"money supply" economics

 

inurl:

"inurl:" ограничивает поиск до адресов (URL) страниц. Команда хороша для поиска страниц помощи и поиска, так как они имеют довольно стабильную структуру. "allinurl:" вариация, которая ищет все введённые слова в URL, но не очень ладит с другими командами... inurl:help

allinurl:search help

 

intext:

"intext:" ведёт поиск только по тексту страниц (т.e. игнорирует текст ссылок, URL, и заглавий). Есть вариация "allintext:", но опять же, она плохо ладит с другими командами. Впрочем, прекрасная вещь для поиска слов, которые могут слишком часто встречаться в ссылках, URL или заглавиях (попробуйте поискать статьи о домене .ru).

intext:"yahoo.com"

intext:html

 

inanchor:

"inanchor:" ищет текст в якорях ссылок на страницах (anchors). Якори ссылок - текст описания ссылки. Например, во фрагменте кода HTML [а href="http://www.oreilly.com" O'Reilly and Associates] якорем ссылки является "O'Reilly and Associates."

inanchor:"tom peters"

 

site:

"site:" сужает поиск до одного сайта или домена верхнего уровня.

site:loc.gov

site:thomas.loc.gov

site:edu

site:nc.us

 

link:

"link:" возвращает список страниц, имеющих ссылку на заданную. Например, введите "link:www.google.com" и увидите список сайтов имеющих ссылку на Google. Не утруждайтесь введением "http://"; это не обязательноt, вообще-то Google проигнорирует эту часть текста даже если Вы её введёте. "link:" отлично работает как с "глубокими" адресами, вроде "http://www.raelity.org/apps/blosxom/", так и с верхнеуровневыми URL, такими как "raelity.org".

 

cache:

"cache:" ищет копию страницы проиндексированной Google даже если страница уже не доступна по оригинальному URL или её содержимое полностью изменилось. Очень полезно для часто изменяющихся страниц.

cache:www.yahoo.com

 

daterange:

"daterange:" ограничивает поиск по дате или диапазону дат индексирования страницы. Обратите внимание, что поиск ведётся не по дате создания страницы, а по дате её индексирования системой Google. Также стоит помнить, что Google иногда переиндексирует страницы. Также дата индексации зависит от изменений на странице. Например, Google проиндексировал страницу 1 июня, переиндексировал 13 августа, но содержимое страницы за это время не изменилось. Дата поиска с помощью "daterange:" остаётся 1 июня.

Обратите внимание, что "daterange:" работает с Юлианским, а не Григорианским (которым мы пользуемся) календарём. Чтоб не морочить себе этим голову стоит просто воспользоваться интерфейсом FaganFinder Google (http://www.faganfinder.com/engines/google.shtml), который даёт возможность использовать поиск по "daterange:" через выпадающее меню "Gregorian date".

Синтаксис: daterange:startdate-enddate

"George Bush" daterange:2452389-2452389

neurosurgery daterange:2452389-2452389

 

filetype:

"filetype:" ищет среди расширений файлов, а точнее - в файлах с определённым расширением.

homeschooling filetype:pdf

"leading economic indicators" filetype:ppt

 

related:

"related:" находит страницы связанные с запрашиваемой. Хороший способ находить целые категории страниц; поиск "related:google.com" даст Вам множество поисковиков, включая HotBot, Yahoo!, and Northern Light.

related:www.yahoo.com

related:www.cnn.com

 

info:

"info:" предоставляет ссылки на более подробную информацию о запрошенном URL. Информация включает ссылки на кэш URL, список страниц имеющих ссылки на данную, страницы, связанные с данной, страницы, содержащие данный URL.

info:www.oreilly.com

info:www.nytimes.com/technology

 

phonebook:

"phonebook:" Ищет телефонные номера.

phonebook:John Doe CA

phonebook:(510) 555-1212

 

Google иногда добавляет новый синтаксис к Вашим услугам...

 

Если же Вам хочется чего-то более наглядного и структурированного, чем просто строка поиска - попробуйте "расширенный поиск" Google.

 

Полезности из Главы 1

[HACK #4]

Использование терминов и сленга существенно сократит количество результатов поиска. Правда, использовать их стоит осторожно, так как можно сократить результаты до 0.

От себя: ежели Вас интересует _любая_ информация по теме поиска - попробуйте вводить ключевые слова с орфографическими ошибками. Отечественные кулхацкеры и "кРуТыЕ пРоГрАмМиСтЫ" зачастую пишут неграмотно, но вот результаты их деятельности иногда стоят внимания...

 

[HACK #5]

Обойти лимит в 10 слов можно используя звёздочки. Каждая звёздочка заменяет одно слово. Как оказалось, Google просто не считает количество звёздочек в запросе.

"do as * say not as * do" quote origin English usage - замена "do as I say not as I do" quote origin English usage

 

Часто используемые слова "I", "a", "the", "of" и т.п. игнорируются поисковиком, но можно заставить его их искать если поставить перед ними "+". Например: "Война +и мир"

 

[HACK #6]

Даже если Вы ввели слова для поиска без кавычек, Google старается найти их расположенными в том порядке, в котором Вы их ввели. Такие результаты считаются более релевантными. Так что обращайте внимание на порядок слов в запросе!

 

[HACK #7]

Повтор ключевых слов существенно влияет на результаты поиска. Поиски "одежда" и "одежда одежда" дадут разные результаты.

Некоторые наблюдения:

Повтор ключевых слов более одного раза чаще всего выводит на ссылки Интернет-магазинов, особенно если слова во множественном числе.

Если результаты не изменились при двойном или тройном повторе слова, это не значит, что они не изменятся при повторе слова, например, шесть или семь раз.

Не забывайте об ограничении на 10 слов!

 

[HACK #8]

Итак, специальные команды и их сочетаемость.

Индивидуальные, не сочетающиеся с другими, команды: rphonebook:, bphonebook:, phonebook:, link:

Остальные спец. команды можно миксовать как угодно. Следите только за логикой своего вопроса и экспериментируйте!

 

[HACK #9]

http://www.google.com/search?num=100&hl=en...e+blind+mice%22 - Вот пример URL результата поиска в Google. Рассмотрим поближе:

num=100 - число результатов поиска на одну страницу. Задаётся в диапазоне (1:100).

hl=en - установки языка пользовательского интерфейса

Дополнительные значения, которые можно использовать в этой строке:

as_qdr=mx - указывает возраст найденных страниц в месяцах. х - число от 1 до 12. Впрочем, рекомендуется употреблять х= от 1 до 6.

safe=off - отключить фильтр SafeSearch. Этот фильтр убирает ссылки в основном на порно и т.п. "некорректные" с точки зрения морали.

 

[HACK #20]

При поиске информации на серверах периодических изданий можно использовать не только их "родные" формы поиска, но и Google. Например: ""george bush" site:nytimes.com" - поиск статей про Дж.Буша в Нью Йорк Таймс. Впрочем, гораздо проще искать статьи не только на сервере редакций. Для этого стоит определить 2 вещи: 1 - Вы должны быть уверены, что статья принадлежит именно тому изданию, что Вам нужно, 2 - статья должна содержать интересующую Вас информацию. Со вторым всё понятно - это делается простым запросом, а вот как быть с первым? Не так уж это и сложно. Принадлежность статьи тем же NYT можно проверить по копирайту. Пример: ""Copyright * The New York Times Company" "George Bush"". Звёздочка в данном случае заменяет год публикации. Или вот ещё пример: "hologram "Scientific American, Inc. All rights reserved.""

 

 

Ссылка на комментарий
Поделиться на другие сайты

ну а теперь о Google хаке

(Это частичный перевод книги "Google Hacks", O'Reilly Pub Date )...

5968[/snapback]

Хороший материал.

Вот еще ссылка, вчера появилась:

http://ci-razvedka.narod.ru/Google_Search_1.html

 

Ссылка на комментарий
Поделиться на другие сайты

Думаю что фамилия знакомая у владельца страницы _ttp://ci-razvedka.narod.ru/, это тот самый Ющук Евгений Леонидович, автор недавно изданной книги "Конкурентная разведка: маркетинг рисков и возможностей"

 

 

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...