Средства обработки естественного языка позволяют:
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой
  • выделять из текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) — носители их содержания;
  • выявлять зависимости между термами, принимать во внимание их концептуальные связи в данной предметной области;
  • строить на основе выявленных зависимостей представления документов;
  • трансформировать поисковые запросы в удобную для реализации поиска форму;
  • осуществлять расширение запросов для повышения полноты поиска.

Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.

Средства Функциональность
Системные словари Словари общеязыковой лексики и лексики предметной области. Служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.
Тезаурусы Словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними. Могут быть общеязыковыми (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Связи определяют синонимы, омонимы, антонимы понятий языка, поддерживают между ними отношения вида «целое — часть», «род — вид», «используется для», «работает в» и т.д. Применяются два способа создания тезаурусов — ручной и автоматический. Разработка тезауруса вруч­ную является весьма дорогостоящим, кропотливым и трудоемким делом. Автоматическое создание тезаурусов (методы разрабатываются с начала 60-х гг. 20 века) осуществляется обычно на основе конкретных коллекций текстовых документов и предназначены для работы именно с ними.
Онтологии Основные понятия предметной области и семантические (смысловые) связи между ними. Могут иметь неформальное и формальное описание. Неформальные способы описания онтологии:
  • в форме иерархических классификаторов: на каждом иерархическом уровне поддерживается отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении «целое — часть» или «род — вид»;
  • представление ее в форме тезауруса предметной области си­стемы.
Формальные способы описания онтологии:
  • языки логики первого порядка. Они допускают воз­можности логического вывода, например, язык KIF (Knowledge Interchange Format), разработанный в начале 1990-х годов.
  • языки определения онтологии для информационных ресурсов Веб — Web Ontology Language.

 

Описание языка запросов наиболее популярных поисковых систем (сравнительная таблица)

\ Яндекс Rambler Google
Ссылки на описания языков поисковых запросов Яндекс.Помощь: Поиск Рамблер-Помощь Cправка — Веб-поиск
Логические операторы & — И в пределах предложения, && — И в пределах документа, | — ИЛИ, ~ — И-НЕ в пределах предложения, ~~ — И-НЕ в пределах документа, ( и ) — скобки AND или & — И, OR или | — ИЛИ, NOT или ! — НЕ, ( и ) — скобки OR — ИЛИ
Префиксы обязательности + и - Нет + и -
Учет расстояний между словами "Фразы в кавычках", Слово1 /N Слово2 — расстояние между словами не больше N слов, Слово1 /(-N M) Слово2 — расстояние между словами от -N слов слева и M слов справа, Слово1 &&/(-N M) Слово2 — расстояние между словами от -N предложений слева и M предложений справа "Фразы в кавычках", (N, Слово1 Слово2 ...) — расстояние между словами не более N слов (В противном случае расстояние не более 40 слов между словами запроса; без кавычек и скобок предлоги, частицы и артикли игнорируются) "Фразы в кавычках"
Учет морфологии языка (словоформы) На основе правил, !Слово — указание точной словоформы Словарный (* и ? — зарезервированы, но пока не используются) Нет
Учет регистра слов Нет, кроме Слов с большой буквы Нет, кроме Слов С Большой Буквы, следующих подряд Нет
Расширенные операторы $title $anchor #keywords #abstract #image #hint #url #link * Нет cashe: link: related: info: stocks: site: allintitle: intitle: allinurl: inurl: admission site: Language: Date: Occurrences: Domains: SafeSearch:
Уточнение поиска Есть Есть Нет
Расширенный поиск Словарный фильтр, Дата, Сайт/вершина, Ссылка, Изображение, Специальные объекты, Язык, Формат выдачи Поиск по тексту, Искать слова запроса, Расстояние между словами запроса, Исключить документы содержащие следующие слова, Язык документа, Искать документы только на следующих сайтах, Вывод результатов поиска, Сортировать, Выдавать, Форма вывода, Связанные запросы Найти результаты (со всеми словами, с точной фразой, с любым из слов, без слов), Язык, Формат файла, Дата, Упоминание, Домен, Поиск по странице (Похожие, Ссылки)
Объекты поиска Сайты, Каталог, Новости, Маркет, Карты, Словари, Блоги, Картинки, RTF, DOC, XLS, PDF и т. д. Сайты, FTp, Новости, Картинки, Видео, Товары, Вакансии, Топ100, Словари и т. д. Сайты, Картинки, Карты, Новости, Группы, PDF и т. д.
Дополнительные возможности поиска Исправление орфографических ошибок и ошибочной раскладки клавиатуры, Автоподстановка ключевых слов, Виртуальная клавиатура, Перевод страницы и др. Автоподстановка ключевых слов, Виртуальная клавиатура, Калькулятор, Орфография, Транслитератор и т. д. Автоподстановка ключевых слов, Перевод страницы, Похожие страницы, Калькулятор, Преобразование единиц измерения, Конвертация валют и т. д.

 

 

Дата: 2019-03-06, просмотров: 281.