Главная / Пресс-центр / Глоссарий / Поисковая система

Глоссарий

Поисковая система

Поисковая система (англ. search engine) — это компьютерная система, предназначенная для поиска информации в сети Интернет. Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в интернете.

В архитектуру поисковой системы обычно входит поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов, индексатор, обеспечивающий быстрый поиск по накопленной информации, и поисковик — графический интерфейс для работы пользователя.

Как правило, поисковые системы работают поэтапно и хранят информацию о многих веб-страницах. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Индексатор — это модуль, который анализирует страницу, предварительно разбив ее на части, применяя собственные лексические и морфологические алгоритмы. При этом все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах: индексы позволяют быстро находить информацию по запросу пользователя.

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдает список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста.



« Назад в Глоссарий