Регистрация в каталогах / Статьи / Поисковые системы / Язык запросов поисковой системы Яндекс
Опубликована: 05/08/2007
Раздел: Поисковые системы
Язык запросов поисковой системы Яндекс
Любая поисковая система в первую очередь ориентирована на неискушенного пользователя, которому нужно без особых усилий найти необходимые сведения. Простейший интерфейс поисковой системы - это обычное текстовое поле, в котором посетителю достаточно ввести свой вопрос (например, "Где купить горящие путевки на Кипр?"), чтобы получить несколько тысяч ссылок на страницы нужной ему тематики.
Более продвинутые пользователи, приблизительно представляющие принцип работы поисковой системы, обычно опускают вспомогательные части речи и знаки препинания. Например, по запросу "горящие путевки Кипр Челябинск" в первой десятке результатов поиска уже найдется пара ссылок на путевки на Кипр с вылетом из Челябинска.
Однако не все так легко, как может показаться на первый взгляд, и далеко не всегда по такому простому запросу удается найти необходимую информацию: довольно часто вы будете погребены под ворохом результатов, так что найти в этом стоге сена нужную иголку покажется вам неразрешимой задачей. Чтобы облегчить решение этой проблемы, в поисковые системы встраиваются различные дополнительные возможности, позволяющие вам уточнять свой вопрос для получения именно тех результатов, на которые вы рассчитываете. Общее название этих дополнительных возможностей - язык запросов.
Каждая поисковая система имеет свой язык запросов, однако есть некий джентльменский набор функций, который предоставляет практически любой поисковик. В качестве примера в данной статье рассматривается язык запросов "Яндекса", как одной из самых популярных поисковых систем Рунета, обладающей, помимо этого, еще и довольно эффективным и многофункциональным языком запросов.
Прежде чем перейти непосредственно к языку запросов "Яндекса", отметим две важные особенности того, как данная поисковая система обрабатывает запросы, состоящие из простого набора слов.
Во-первых, незначащие части речи и часто употребляемые слова (обычно это предлоги, частицы, местоимения и прочее, например: для, или, я, они и т.п.) автоматически исключаются из запроса - такие слова называются стоп-словами.
Во-вторых, для каждого слова (включая и английские, хотя далеко не все) формируется список всех его словоформ, и поиск будет производиться по всем словоформам, полученным из запроса. Если при этом в запросе участвуют слова, имеющие омонимами другие части речи, можно получить интересный казус. Например, поиск по слову "почту" - это слово можно интерпретировать и как существительное "почта" в винительном падеже ("пойду на почту"), и как глагол "почитать" в первом лице будущего времени ("почту соседа незаслуженным вниманием").
Язык запросов "Яндекса" состоит из операторов, которые отделяются от слов пробелами и могут располагаться перед, после и между словами, а также знаков, которые помещаются непосредственно перед словами без разделяющих пробелов.
Если слова запроса разделены оператором & (логическое И) - это означает, что в результаты поиска попадут те документы, в которых все указанные слова присутствуют в одном предложении. Например, запрос "книжный & магазин" возвратит те документы, где говорится о книжных магазинах, и не станет возвращать те, в которых в одном месте говорится о книжной ярмарке, а в другом - о магазине спорттоваров. Оператор & используется по умолчанию, так что запрос "книжный магазин" полностью эквивалентен запросу "книжный & магазин".
Для того чтобы в результатах поиска оказалось одно слово из нескольких, применяется оператор | (логическое ИЛИ). Например, запрос "выставки | экспозиции" вернет документы, в которых встречается либо первое, либо второе слово (очень удобно при поиске слов, имеющих синонимы).
Оператором ~ (тильда, логическое НЕ) задается обязательное отсутствие слова в предложении. Например, запрос "банк ~ рефератов" возвратит ссылки на документы о банках, исключив из них заполонившие Рунет банки рефератов.
Операторы &&, || и ~~ функционируют полностью аналогично операторам &, | и ~ за исключением того, что "двойные" операторы работают на уровне документа в целом. Например, запрос "Копенгаген ~~ турагентство" возвратит ссылки на страницы, посвященные Копенгагену, одновременно освободив нас от многочисленных веб-сайтов туристических фирм, которые, как правило, всегда оказываются на первых местах в результатах поиска.
Знак + ставится перед теми словами, которые обязательно должны присутствовать в результатах поиска (актуально при запросе из большого количества слов). Например, запрос "властелин колец +книга онлайн" возвращает втрое меньше ссылок, чем запрос "властелин колец книга онлайн". Этот же оператор позволяет включать в запрос и стоп-слова. Например, запрос "глаз за глаз" возвращает огромное количество документов, где слово "глаз" дважды встречается в одном предложении, тогда как запрос "глаз +за глаз" вернет только те документы, где участвуют все три заданных слова. Исключить из результатов документы, содержащие заданное слово, позволяет знак -, который работает аналогично оператору ~~. Знаки + и - работают только на уровне документа.
Знак ! позволяет отменить формирование списка словоформ для заданного слова. Например, чтобы избежать описанного выше казуса с запросом "почту", можно заменить его на что-нибудь наподобие "!почта | !почты | !почтой".
Скобки применяются для группировки подзапросов при составлении из них одного сложного запроса. Например, запрос "(картины | репродукции) & (Шишкин | Репин)" возвратит ссылки на картины или репродукции любого из двух упомянутых художников.
Введем понятие "расстояние между словами". Если пронумеровать все слова в документе, то разница между номерами двух выбранных слов и будет расстоянием между ними. Таким образом, расстояние между соседними словами равно 1. Расстояние может быть как положительным, так и отрицательным в зависимости от относительного расположения выбранных слов в документе.
Оператор /N позволяет задать максимально допустимое расстояние между словами. Допустим, нам необходимо найти упоминание о налоговых инспекторах, которые могут упоминаться и как инспекторы по налогам. Запрос "(налоги | налоговый) /2 инспектор" возвратит и "налоговый инспектор", и "инспектор по налогам", и "инспектор отдела налогов" - то есть все документы, где расстояние между словами "налоги" и "инспектор" составляет не более 2 слов.
Операторы /+N и /-N позволяют указать точное расстояние между словами. Например, запрос "инспектор /+2 налог" вернет только те ссылки, где словоформа от "налог" расположена точно через слово после словоформы от "инспектор". Такой запрос аналогичен запросу "налог /-2 инспектор". В качестве упрощенного написания оператора /+1 можно использовать кавычки, например запрос ""ремонт видеотехники"" аналогичен запросу "ремонт /+1 видеотехники".
Полная форма оператора поиска с расстоянием: /(-N +N) - в этом случае указываются расстояния для обоих вариантов взаиморасположения запрашиваемых слов.
По умолчанию все операторы поиска с расстоянием работают на уровне слов, т.к. в запросе вида "налоговый /+1 инспектор" подразумевается наличие оператора &, то есть "налоговый & /+1 инспектор". Если заменить оператор & на &&, то расстояние будет измеряться в предложениях. Допустим, мы ищем упоминание о банках в связи с ипотекой. Запрос "банк ипотека" слишком ограничен, запрос "банк && ипотека" слишком свободен, а запрос "банк && /2 ипотека" будет в самый раз.
Поиск в зонах позволяет ограничить область поиска заголовком документа ($title), адресом ($address) или текстами ссылок ($anchor). Например, по запросу "$anchor hostinfo" можно найти документы, ссылающиеся на данный веб-сайт.
Поиск в элементах позволяет искать изображения, ссылки, а также ограничивать область поиска заданными веб-сайтами. Поскольку поиск в элементах полностью реализован в форме расширенного поиска, то в данной статье он не рассматривается.
При формировании списка результатов поисковая система сортирует их исходя из множества различных показателей, характеризующих степень соответствия документа запросу, совокупность которых называется релевантностью. Чем выше релевантность документа, тем ближе к началу будет его позиция в списке результатов. Факторы, влияющие на релевантность, обычно сохраняются в строгом секрете, чтобы нечистые на руку веб-мастера не оптимизировали свои веб-сайты специально для повышения их релевантности.
Обычный запрос вида "слово1 слово2 слово3" возвращает только те документы, в которых все три слова встречаются в одном предложении. Иногда бывает необходимо получить все документы, где встречается хотя бы одно из слов, причем более релевантными должны быть те из них, в которых встречаются все три слова, затем по два, и наконец по одному. Можно решить эту проблему запросом "слово1 | слово2 | слово3", так как очевидно, что наиболее высокую релевантность будут иметь документы, в которых есть все три слова. Однако если по какой-либо причине результат такого запроса вас не устраивает, можно воспользоваться оператором мягкого поиска //N. N измеряется в процентах от 0 до 100. Запрос "(слово1 слово2 слово3) //0" возвращает только документы, содержащие все три слова (как и при отсутствии данного оператора). В результаты запроса "(слово1 слово2 слово3) //100" будут включены все документы, в которых встречается хотя бы одно из запрошенных слов. Варьируя значение N, можно изменять количество найденных документов.
Язык запросов "Яндекса" также предоставляет некоторые возможности по изменению релевантности найденных документов. Не следует забывать, что при этом в результатах поиска содержатся те же самые документы, а изменяется только их порядок.
Оператор веса :N позволяет повысить релевантность документов, содержащих заданное выражение. Например, запрос "физика:1 | химия:1000 | литература:1" возвращает ссылки на документы, где встречается любой из этих предметов, но документы с упоминанием химии будут расположены ближе к началу. Чтобы получить заметный эффект, необходимо указывать достаточно высокие значения N (порядка тысяч и десятков тысяч).
При помощи оператора уточнения <- можно повысить релевантность тех документов, в которых встречается уточняющее выражение. Например, по запросу "(физика | химия) <- библиотека" система возвратит все документы с упоминанием физики или химии, а первыми в списке результатов будут расположены документы с упоминанием библиотек.
Таким образом, задача поиска нужной вам информации далеко не так сложна, как может показаться с первого взгляда - при условии, что в вашем распоряжении есть удобный и функциональный язык запросов.
Автор: Вячеслав Замятин
Источник: http://www.hostinfo.ru/
Другие статьи темы "Поисковые системы":
- Яндекс 2007: Но пасаран? / 09/10/2007
Итак, компания Яндекс вышла на проторенную тропу войны и закрыла поисковым оптимизаторам доступ к операторам расширенного поиска link и anchor. Чтобы понять, насколько это существенно, попробуем для начала рассмотреть некоторые общие положения. - Поисковая система Rambler / 17/08/2007
Поисковая система Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в РуНете, уступая лишь Яндексу (по популярности). По оценкам SpyLog на Рамблер приходится 20-25% от всех поисковых запросов РуНета. - Поисковая система Апорт! / 17/08/2007
Апорт — полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текста ваших документов может служить критерием последующего поиска. - Поисковая система TELA / 17/08/2007
Поисковая система TELA, созданная петербургским Интернет-провайдером DUX, ориентирована на поиск русскоязычных страниц в WWW, а также англоязычных страниц на российских серверах. - Поисковая система Novo Search / 17/08/2007
Этот сайт интересен как пример поисковой машины, выполняющий поиск на WWWсерверах конкретного города России. - Как работают поисковые системы? / 05/08/2007
Когда вы хотите найти сайт по интересующей вас проблеме, или вам просто нужно добыть некую информацию - то куда вы обращаетесь в первую очередь? Наверняка большинство из вас ответят - к поисковой системе. В Интернете поисковых систем довольно много, и нужно четко различать их для того, чтобы более эффективно искать необходимую информацию. Мы постараемся рассказать вам о различиях между разными поисковиками, об их особенностях. Владельцам же сайтов наверняка окажется полезной информация о регистрации своей странички в поисковых системах. - Как оптимизировать ваш сайт как для Google, так и для Inktomi / 05/08/2007
Окружение поисковых машин продолжает быстро эволюционировать, легко превышая способность потребителей и практикующих SEO быстро адаптироваться к новому ландшафту. - Что должен знать о Яндексе каждый. Часть 2 / 05/08/2007
Стремясь удерживать лидирующие позиции лучшего поисковика по русскоязычному Интернету, Яндекс постоянно совершенствует алгоритм расчета релевантности страниц, заимствуя передовые идеи у машин с мировым именем. Последние изменения, внедренные Яндексом, оказались наиболее кардинальными. - Что должен знать о Яндексе каждый. Часть 1 / 05/08/2007
Название самой популярной поисковой системы по русскоязычному Интернету, т.е. Яндекса, означает "Языковой index", а также имеет несколько других схожих трактовок, общий смысл которых выражается слоганом "Найдется все". Прогрессирующая конкуренция среди поисковых машин заставляет более предвзято относиться к подобным обещаниям, т.к. мало найти все, надо уметь найти самой главное. Однако поисковая система Яндекс довольно успешно с этим справляется, чем и оправдывает право называться сегодня самым посещаемым ресурсом Рунета. - Невидимый вИЦ / 02/08/2007
Взвешенный индекс цитирования Яндекса, он же вИЦ, – параметр, все реже встречающийся в мыслях оптимизаторов Рунета, в беседах за кружечкой пива, в форумных темах и записях блогов. Параметр, само определение которого обросло мифами и небылицами. Многие просто не верят в его существование, а фраза «Да я еще вИЦ в тулбаре видел!» помогает определить оптимизаторский стаж говорящего – не менее 5 лет…
Он создал аппарат Le Skin V6 в качестве альтернативы LPG для женщин с небольшим весом.. Наш интернет магазин продает оборудование от ведущих мировых производителей, так же у нас много аппаратов с Регистрационным удостоверением Минздрава. Дружный и квалифицированный коллектив, сотрудники интернет магазина DFC-MED быстро смогут подобрать оборудование даже самому взыскательному клиенту. Доставка аппаратов по России у нас бесплатная.