Основные положения языка запросов
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

1. Если ключевые слова являются устойчивым словосочетанием или единой фразой, то заключите их в кавычки.

2. Если слова не объединены кавычками, то каждое слово будет само по себе и перед каждым их них можно поставить знак плюс «+», если слово обязательно должно быть в найденных документах, минус «–», если слово не должно быть в найденных документах (пробел ставится перед знаком, но не после). Если перед словом поставить знак ~ (тильда), то этого слова не должно быть в пределах предложения в совокупности с рядом стоящим в запросе словом. По умолчанию будут найдены и те документы, которые удовлетворяют хотя бы одному из ключевых слов. Такие ссылки будут иметь низкую ревалентность и будут находиться в конце результатов запроса.

3. Независимо от того, в какой форме вы употребили слово в запросе, поисковая система учитывает все формы этого слова по правилам русского языка. Чтобы этого не происходило, поставьте знак восклицания перед неизменяемым словом.

4. Все слова, написанные через пробел или знак & (логическое И) должны одновременно находиться в найденных документах в пределах предложения. Все слова, написанные через && должны одновременно находиться в найденных документах, но расстояние между ними не оговаривается.

5. Слова, написанные через символ | (логическое ИЛИ) являются заменяющими друг друга (синонимами), и будут найдены документы, удовлетворяющие хотя бы одному из этих слов.

6. Можно указать расстояние между словами. Если пронумеровать слова в предложении, то расстояние между словами – это разность номеров слов. Например, если между двумя словами может находиться только одно слово, то расстояние между ними равно 2 (3 минус 1). Число указывается после знака /, например региональный /2 центр. В этом случае будут найдены документы, в которых эти слова находятся либо вместе, либо между ними есть еще одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой форме можно указать максимальное и минимальное количество слов, например, от 3 до 5 записывается /(3 5). Минус и плюс указывают на порядок слов: минус – обратный порядок. Если перед символом / указать &&, то расстояние будет вычисляться в предложениях.

7. Для группировки отдельных частей запроса используйте круглые скобки.

Поиск в зонах и элементах web‑страницы. Web‑страница состоит из определенных зон и элементов. Соответственно можно осуществлять поиск в зонах и в элементах. Например, для поиска в заголовке страницы (заголовок отображается в заголовке окна обозревателя) указывают: $title (выражение) , поиск в тексте ссылок аналогичен (см. следующую таблицу), а общий синтаксис таков: $имя_зоны (выражение)

Для поиска в элементах используется синтаксис: #имя_элемента=(выражение)

Элементы отличаются от зон тем, что в большинстве своем не видны пользователю, просматривающему страницу. Так, например, ключевые слова указываются в невидимом заголовке Web‑страницы и не выводятся в обозревателе. Их можно увидеть только выполнив Вид ® В виде HTML. Большинство документов имеют описание (abstract), которое также не выводится на страницу. Подписи рисунков видны только в том случае, если загрузка рисунков отключена, либо если навести мышь на рисунок, то подпись появится в виде подсказки.

 

Таблица 2 – Синтаксис поиска в элементах и зонах

Синтаксис Назначение Пример
$title (выражение) поиск в заголовке $title (Яндекс)
$anchor (выражение) поиск в тексте ссылок $anchor (Яндекс | Апорт)
#keywords=(выражение) поиск в ключевых словах #keywords=(поисковая система)
#abstract=(выражение) поиск в описании #abstract=(искалка | поиск)
#image= «значение» поиск файла изображения #image= «tort*»
#hint=(выражение) поиск в подписях к изображениям #hint=(lenin | ленин)
#url= «значение» поиск на заданном сайте (странице) #url= «www.comptek.ru*»
#link= «значение» поиск ссылок на заданный URL #link= «www.yandex.ru*»
#mime= «значение» поиск в документах данного (pdf или rtf) типа #mime= «pdf»

Сортировка результатов запроса. После того, как поисковая система выберет страницы, удовлетворяющие запросу, она сортирует ссылки на эти страницы в порядке убывания их ревалентности. Ревалентность – это степень соответствия содержания документа поисковому запросу. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.

Можно повлиять на порядок сортировки, используя операторы веса и уточнения запроса. Вес указывается для того, чтобы увеличить ревалентность документов, содержащих слово или выражение, вес которого указан. Чем больший вес указан у слова (или выражения), тем выше ревалентность документов его содержащих.

Синтаксис: слово: число или (поисковое_выражение):число Уточняющее слово или выражение применяется для того, чтобы увеличить релеватность документов, их cодержащих.

Синтаксис: < – слово или < – (уточняющее_выражение) Кроме сортировки по ревалентности можно выбрать сортировку по дате документов, щелкнув по соответствующей ссылке.

Поиск по каталогам

Когда сетевой робот поисковой системы сканирует Internet и автоматически вносит описания и адреса страниц в свой поисковый индекс, то вместе с полезными и адекватными ссылками в базе данных оказывается много поискового спама. Это и некоторые другие обстоятельства вынуждают создателей поисковых систем кроме автоматического индекса вести также каталоги ресурсов, составленные вручную. Каталог позволяет классифицировать ресурсы и сгруппировать их по тематике. Тематическое дерево каталога Яндекса сделано максимально простым. На первом уровне в нем всего восемь тем: Бизнес и экономика, Общество и политика, Наука и образование, Компьютеры и связь, Справки, Дом и семья, Развлечения и отдых, Культура и искусство. Если щелкнуть по названию темы, то откроются подтемы (рубрики). При дальнейшем движении вглубь будут открываться следующие уровни (подрубрики), и в итоге откроется список ресурсов (сайтов) выбранной тематики. Число уровней в глубину не превышает 4‑х.

Ресурсы в системе четко структурированы по тематике, однако, помимо темы, в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации), жанру (художественная литература, научно-техническая литература, и т.д.), цели (предложение товаров и услуг, интернет-представительство) и т.д.

Сайты в рубриках расположены по убыванию их тематического индекса цитирования (тИЦ). Тематический индекс цитирования – это показатель, который показывает количество ссылок на данный ресурс с других ресурсов. При расчете этого индекса ссылкам придается разный «вес» (значимость) в зависимости от авторитетности ссылающегося сайта. Таким образом, в первых позициях каталога будут именно признанные ресурсы, ресурсы – источники информации, ресурсы, которые цитируют, на которые ссылаются.

В каталоге можно также осуществлять поиск по ключевым словам, как и во всем поисковом индексе, для этого необходимо после ввода ключевых слов в поисковой форме щелкнуть по ссылке Каталог.

Поиск в каталоге ведется по текстам заголовков и описаний, составленных редакторами поисковой системы. Поскольку заголовки отражают основной профиль сайта, сайты, найденные по заголовку, стоят в результатах поиска выше, чем сайты, найденные по описанию.

Использование знаков «+» и» –». Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос «путеводитель по парижу – агентство – тур». Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос «+быть или +не быть».

Если использование поисковых серверов не приводит к нужному результату, целесообразно использовать сервера организаций, работающих в данной области.

Дата: 2019-05-28, просмотров: 146.