Роботы индексов или поисковые машины.
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Поисковые машины устроены несколько иначе. По сути это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылками и переходя к новым страницам, проделывает с ними тоже самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет. Самая популярная поисковая машина AltaVista (http://www.altavista.com/) содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo! и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ *, расширяющий диапазон поиска. Скажем, что бы Altavista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т. д., в запросе надо писать "легк**". То есть изменяющиеся буквы окончания заменяем на символ *.

Как и предыдущем случае, для поиска в русскоязычном Интернет Altavista не очень подходит. Если на запрос "Light industry" Altavista формирует список из 2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок на всего 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (http://www.yandex.ru/). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltaVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким вашим требованиям должна отвечать, интересующая вас информация.

Стоит вспомнить о еще одной популярной российской поисковой машине Rambler (http://www.rambler.ru/). У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и следовательно их популярности. Тем самым отсекаются явные аутсайдеры и вы не тратите на них свое время. Rambler также как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Стоит также отметить прочие русскоязычные поисковые машины Апорт (http://www.aport.ru/) и АУ (http://www.au.ru/).

Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории.

Системы мета-поиска.

Читая обо всех перечисленных поисковых службах, по неволе задумаешься: "а если для поиска необходимой информации не достаточно одной поисковой службы, то неужели придется входить на все здесь перечисленные сервера и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами мета-поиска. Наиболее популярная в мире система такого класса Search.com (http://www.search.com/), но если мы работаем преимущественно с русскоязычными документами, то можно использовать Savvy Search (http://guaraldi.cs.colostate.edu:2000/form?lang = russian). Это достаточно мощная система отсылающая ваш запрос на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая вам их отчеты. Другая российская система мета поиска "Следопыт" (http://www.medialingua.ru/www/Wwwsearc.htm) работает только с пятью англоязычными поисковыми машинами и одной русскоязычной, но интересна тем, что переводит ваш русскоязычный запрос на английский язык для англоязычных поисковых машин.

Также существуют так называемые мультипоисковые страницы:

"Все в одном" (http://www.tpi.ac.ru/~mike/search/index.htm);

Search (http://www.informika.ru/windows/intern/poisk/main.html);

БКФ Поиск (http:/bforum.virtualave.net/index09.htm) и другие.

Эти сервера не умеют посылать запросы и получать отчеты от поисковых служб как системы мета-поиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос. К тому же такие системы работают не стабильно.

Дата: 2019-12-10, просмотров: 173.