Информационно-поисковые системы
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии.

Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

· Заголовки (Title).

· Заглавия.

· Аннотация (Description).

· Списки ключевых слов (KeyWords).

· Гипертекстовые ссылки.

· Полные тексты документов.

Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми.

Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии.

Учет морфологии означает умение работать с различными формами слов конкретного языка.

Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.

Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW:

· поисковые системы,

· метапоисковые системы и программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.

База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Российские каталоги: @Rus (www.atrus.ru); Weblist (www.weblist.ru); Созвездие интернет (www.stars.ru).

Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Зарубежные поисковые машины (системы):

Google - www.google.com (примерно 38% охвата русскоязычных запросов)

Altavista- www.altavista.com

Excite www.excite.com

HotBot - www.hotbot.com

Nothern Light- www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru (или www.ya.ru) (48% охвата русскоязычных запросов)

Рэмблер - www.rambler.ru

Апорт- www.aport.ru

Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Системы распознавание речи

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

Выделяют несколько основных способов распознавания речи:

1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

б) Нейронные ансамбли. В качестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Дата: 2019-03-06, просмотров: 214.