Что такое информационный поиск для поисковых систем

Что такое Information Retrieval (поиск информации) для поисковых систем?

//

В буквальном переводе Information Retrieval означает поиск информации / восстановление информации / информационное извлечение. Согласно определению, информационный поиск относится к процессу, в котором на основе запроса на информацию из большой неструктурированной базы данных выбирается информация, соответствующая запросу.

Поэтому поиск информации является одной из центральных задач поисковой системы: поисковые системы являются сборщиками информации и данных. Собранные данные оцениваются, обрабатываются, сохраняются и восстанавливаются.

Примечание: Алгоритм Page Rank стал революцией для технологий поисковых систем. До появления Page Rank и Google все поисковые системы использовали методику информационного поиска для классификации и структурирования интернета. С помощью PageRank Google смог создавать гораздо более качественную SERP / поисковую выдачу для пользователей, а также обновлять свою базу данных индексов гораздо быстрее. Поэтому Google также является гипертекстовой поисковой системой.

Содержание:


Значение информационного поиска

Постоянно растущий объем документов в цифровом формате также влечет за собой потребность в быстром и целенаправленном поиске. В классическом понимании это относится к поиску текстовых документов. Однако всегда необходимо восстанавливать информацию для всех мультимедийных документов.

Помимо основного применения поисковых систем, процесс поиска информации также относится к электронным библиотекам, базам данных изображений или мультимедийным архивам.

Тип поиска влияет на требования или методы поиска информации. Это влияние проявляется, например, следующим образом:

  • База данных, в которой производится поиск: большие различия между самоуправляемой базой данных и базой данных в интернете.
  • Запрос на информацию: конкретный запрос против довольно расплывчатого представления при поиске.
  • Тип документа: Тексты в различных форматах (например, doc, pdf, html-файл), видео, изображения, аудиофайлы.
  • Еще одной проблемой при выборе подходящей информации является неопределенность знаний информационно-поисковой системы, т.е. она не имеет представления о содержании документа. Поисковая система может использовать только определенные методы, например, статистику текста или взвешивание терминов, но у нее возникают проблемы с определенными словоупотреблениями, например, с синонимами или омонимами.

Для того чтобы лучше выполнить информационный запрос и выдать лучший результат, в информационном поиске существуют различные способы более точной классификации поискового запроса, например, с учетом контекста поиска – именно так поступают поисковые системы, такие как Google. Например, поисковая система учитывает предыдущие запросы.

Обновления алгоритмов Google и условия анализа принципов работы поисковой системы:


Происхождение термина “Информационный поиск”

Термин “информационный поиск” был впервые использован в 1950 году Кельвином Н. Мурсом. Ванневар Буш описал в эссе “Как мы можем думать” в журнале Atlantic Monthly в 1945 году, как использование существующих знаний может быть революционизировано с помощью хранилищ знаний. Его концепция была названа Memex. Эта система должна была хранить все типы носителей знаний и обеспечивать целевой поиск и просмотр документов с помощью ссылок. Буш уже думал об использовании поисковых систем и средств поиска.

Информационная наука получила решающий толчок в результате потрясений, связанных со спутником Sputnik. С одной стороны, русский спутник заставил американцев осознать собственную отсталость в космических исследованиях, которая была успешно ликвидирована программой “Аполлон”. С другой стороны – и это было решающим моментом для информационной науки – потребовалось полгода, чтобы взломать код сигнала Спутника. И это несмотря на то, что код дешифровки уже давно был прочитан в русском журнале, который уже был в американских библиотеках. Вот почему информационный поиск является важнейшим термином в истории.


Модели информационного поиска

Существуют различные модели информационного поиска, некоторые из которых основываются друг на друге.

Модели информационного поиска

К наиболее важным моделям информационного поиска относятся:

Булева модель

  • Самая старая модель информационного поиска, основанная на булевой логике 1854 года.
  • Содержимое можно найти только с помощью операторов “и”, “или”, “не”.
  • Содержимое не сортируется – нет ранжирования результатов.

Онтологическая модель

  • Она основана не на оценке содержания документа, а на оценке структуры связей между документами – это приводит к ранжированию документов.
  • Структура позволяет сделать заявление об авторитетности документов.
  • К ним относится, например, PageRank от Google, разработанный Ларри Пейджем и Сергеем Брином.

Статистика самого текста

  • Изучение терминов внутри документа.
  • Взвешивание осуществляется с помощью WDF и IDF.
  • WDF: Внутридокументная частота – относительная частота термина в документе.
  • IDF: Inverse Document Frequency – частота, с которой документ встречается в базе данных с определенным термином.
  • Векторная модель также является частью модели статистики текста: каждый текст соответствует точке в пространстве, углы векторов указывают на сходство слов друг с другом.

Кластерная модель

  • Сводка документов по сходству может ускорить процесс поиска, поскольку требуется только доступ к пулу документов.
  • Проблемы могут возникнуть, если кластеры неполные или очень большие.

Как поисковые системы используют поиск информации?

Каждая поисковая система интернета использует поиск информации для обработки поисковых запросов. В поисковых системах важно оценить “определенную” информацию и отсортировать ее по важности/релевантности – в результате формируется рейтинг. Как только вы вводите поисковый запрос в поле поиска, поисковая система возвращает релевантную информацию о вашем поисковом запросе из сохраненных данных (SERP).

Соответственно, SEO пытается улучшить извлечение информации из оптимизированной страницы – одной из мер является, например, WDF * IDF оптимизация веб-сайтов.


Пример процесса работы информационно-поисковой системы

Чтобы как можно точнее сформулировать поисковый запрос, вам действительно нужно знать то, чего вы не знаете. Поэтому для составления адекватного поискового запроса необходимо обладать базовыми знаниями. Кроме того, поисковый запрос на естественном языке должен быть преобразован в вариант, который может быть прочитан поисковой системой.

Следует проводить различие между системами, основанными на словах, и системами, основанными на понятиях. Концептуально-ориентированные системы могут распознавать неоднозначность слов (например, Java = Остров, Java = Кофе или Java = Язык программирования). Блок документации (DE) адресуется через поисковый запрос. DE представляет собой информационную добавленную ценность документов. Это означает, что в DE информация об авторе, годе рождения и т.д. дается в сжатом виде. В зависимости от базы данных, записывается либо весь документ, либо только его часть.

Понимание информационно-поисковых систем, моделей и методов обработки естественного языка помогает SEO-специалисту создавать лучшие стратегии разработки контента для своих проектов контент-маркетинга.

Предыдущая

Обновление Google Phantom: все, что вам нужно знать

Следующая

Что такое Google Dance? Определение и примеры

Последние от SEO

Что такое PageRank для SEO?

Содержание: Как работает PageRank? Модель случайного серфера и разумного серфера Расчет PageRank Разовое использование для поисковой…