Что такое информационно поисковая система ипс

Что такое информационно поисковая система ипс

Информационно-поисковые системы ориентированы на решение задач поиску информации, документа или факта в множестве источников информации (документов). Содержательная обработка информации в таких системах отсутствующая. Производят ввод, систематизацию, хранение, выдачу информации по запросу пользователя без сложных преобразований данных. Например, информационно-поисковая система в библиотеке билетов. В таких системах хранится информационный массив, из которого по требованиям пользователей выдается нужная информация. Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную.

Поисковый образ документа (ПОД) получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Запрос к ИПС описывается также на этом языке. Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ.

Информационно-поисковые системы делятся на два типа.

  • Документальные (документографические)

Это системы, в которой объектом сохранения и обработки есть собственно документы.. В такой ИПС все хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа. Именно так ищут книги по заказам читателя в больших библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По требованию читателя сначала находят карточку в каталоге, а потом по шифру, указанному на ней, отыскивается и сама книга. Различия документографических ИПС определяются тем, как устроен поисковый образ документа. В простейшем случае это просто его индивидуальное название (например, название, автор, год издания книги). В более сложных случаях нет однозначного соответствия между поисковым образом документа и самим документом. Вполне возможен случай, когда поисковый образ документа соответствует нескольким различным документам и, наоборот, один и тот же документ соответствует не одному, а нескольким поисковым образам.

  • Фактографическая информационная поисковая система — ИПС

Это система, где, объектом или сущностью есть то, что представляет для проблемной сферы многосторонний интерес (сотрудник, договор, изделие и т.п.). Ведомости об этих сущностях могут находиться во множестве разных входных и исходных сообщений.. В отличие от документографических ИПС в ИПС такого типа хранятся не документы, а факты, относящиеся к какой-либо предметной области . Хранимые факты могут быть извлечены из различных документов. В базе фактов они связываются между собой системой разнообразных отношений. Такая сеть в ИПС носит название тезауруса предметной области. Запросы, поступающие в фактографические ИПС, используют тезаурус для поиска ответов на запросы. Поиск осуществляется методом поиска по образцу, широко применяющемуся в базах знаний систем искусственного интеллекта. ИПС фактографического типа постепенно приближаются по своей организации и функционированию к развитым базам данных и знаний.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Только сон приблежает студента к концу лекции. А чужой храп его отдаляет. 9218 — | 7813 — или читать все.

После изучения главы 9 студент должен:

знать

  • • основные принципы информационного поиска;
  • • универсальные поисковые сайты, мегапоисковые сайты и каталоги в Интернете;
  • • компоненты программного обеспечения поискового сайта и разграничение их функций;
  • • методы поиска, сужения и расширения результатов поиска документов и изображений;

уметь

• пользоваться поисковыми сайтами, их разделами, простым и расширенным поиском;

владеть

навыками составления поисковой фразы, выбора раздела и области поиска на поисковом сайте и в каталоге.

Массивы информации, необходимые для развития современного общества, огромны и имеют принципиальное отличие от той информации, что была доступна несколько десятилетий назад. Сегодня не существует ярко выраженных центров сосредоточения знаний. Традиционные источники информации: библиотеки, базы данных, архивы воспринимаются не как отдельные информационные узлы, а как совокупность множества источников информации. Наиболее четко тенденция рассредоточения информации просматривается в новых информационных средах, таких как глобальные компьютерные сети.

Рассредоточение источников информации – это не только возможность получать необходимую информацию, но и серьезные проблемы, связанные с поиском и классификацией необходимых информационных ресурсов. Глобальная информационная среда Интернет представляет собой миллионы источников информации общего пользования, практически по всем возможным темам. Сложность ориентирования в этом массиве информации заключается даже не в его огромных размерах и наличии множества разнообразных форматов данных, а в динамической природе информации, требующей постоянного обновления "информации о наличии и месте расположения информации".

Читайте также:  Как узнать стим айди в стиме

Невозможно эффективно использовать новые информационные среды, в частности Интернета, без применения развитых поисковых механизмов – информационных поисковых систем (ИПС).

Общие принципы построения информационно-поисковых систем

Основные принципы информационного поиска. Проблема поиска документа возникает в любом хранилище данных. При создании систем хранения применяются две модели: иерархическая и гипертекстовая. Иерархическая модель хранения подразумевает многоуровневую рубрикацию системных ресурсов. Для определения пути к необходимому ресурсу используются описания, составленные при отправке документа на хранение. Гипертекстовая модель позволяет связывать документы ссылками, расположенными непосредственно в тексте документа.

При больших объемах информации, высокой скорости их обновления и разнородности запросов очевидны недостатки этих моделей. Многоуровневая рубрикация и простановка ссылок выполняется высококвалифицированными специалистами, поэтому объем обработанных ими документов становится ограниченным. Связанные документы ограничиваются определенной предметной областью, которая может разным образом трактоваться составителем и пользователем. При поиске документа целесообразно просматривать множество документов, содержащих лишь ссылки на другие ресурсы.

Этих недостатков лишены информационно-поисковые системы; будучи однажды созданными, они работают автономно. Принцип взаимодействия ИПС с пользователем заключается в том, что пользователь вводит в этой системе запрос, обрабатываемый системой, и получает список указателей на документы, удовлетворяющие запросу. Список может быть отсортирован по релевантности – степени соответствия документа запросу.

Основные принципы информационного поиска заключаются в том, что создается массив указателей на информационные ресурсы. Указатель (индекс) содержит некое свойство документа и ссылки на документы, обладающие этим свойством. Например, авторский указатель позволяет получить ссылки на работы определенного автора, предметный указатель – выбрать документы, затрагивающие определенные понятия (предметы). Процесс создания указателей называется индексированием, а термины, использующиеся для индексирования, называют терминами индексирования. В авторском указателе роль терминов индексирования выполняют фамилии авторов, работы которых хранятся в фонде. Совокупность используемых терминов индексирования называется словарем. Массив указателей, составленный после индексации информационных ресурсов, именуется индексной базой.

К индексной базе обращаются посредством запросов. Так, запрос пользователя должен быть переведен на язык индексирования. При поиске происходит сопоставление запроса с имеющимися данными и пользователю выдается список ссылок на подходящие ресурсы. Для повышения эффективности работы системы словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в конкретной предметной области.

Первые информационно-поисковые системы были созданы в 1970– 1980-х гг. и продолжают развиваться сегодня.

Любая информационно-поисковая система использует предметный указатель, позволяющий отыскивать документы, касающиеся некоего "предмета". Для составления предметного указателя анализируется содержание документа и определяется "предмет" или "предметы", о которых в документе идет речь. Названия этих предметов переводятся на информационно-поисковый язык (ИПЯ), в результате получают поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, получают индексную базу – основной массив данных ИПС.

Процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также переводится на информационно-поисковый язык. После сопоставления переведенного па ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, соответствующие по мнению системы его запросу. Поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому качество поисковой системы зависит в первую очередь от ее информационно-поискового языка. В состав информационно- поискового языка входят:

  • 1) словарь индексационных терминов – множество терминов индексирования;
  • 2) кодовый словарь – множество кодовых терминов;
  • 3) словарь входов – множество входных терминов;
  • 4) вспомогательные средства языка индексирования – используемые совместно с индексационными терминами для расширения или сужения определенных понятий;
  • 5) правила использования языка индексирования.

Для повышения эффективности поиска словарь должен быть контролируемым, т.е. должен быть организован таким образом, чтобы полнота и точность поиска были оптимальными. Очевидно, что организация словаря зависит от многих факторов – предметной области, в которой будет функционировать ИПС, характера интересов пользователей, степени их подготовки и т.д.

Для улучшения результатов поиска необходимо определить степень специфичности терминов при индексации. Как правило, применяют два принципа – использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование. В избыточном индексировании поисковый образ дополняется терминами, связанными с основным. Могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью увеличивает полноту поиска, но неизбежно снижает его точность. К недостаткам избыточного индексирования относятся также увеличение объема поисковых образов. Для устранения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.

Читайте также:  Что можно устанавливать на ssd диск

Предметное индексирование не исключает использование при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т.д.

Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с интересующей его предметной областью, а также с применяемой ИПС. Однако такому пользователю ИПС, очевидно, не требуется. Остальные пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой.

Для повышения качества поиска существуют различные методы. Наиболее употребляемый из них – использование

логических операторов И, ИЛИ, НЕ. Это довольно простой способ повысить релевантность выдаваемых документов. Недостатком считается плохая масштабируемость. Оператор И может сильно сузить поиск, а оператор ИЛИ – сильно расширить. Степень точности и полноты поиска зависит от того, насколько общие термины участвовали в формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Применение слишком специфичных терминов чревато еще и тем, что в словаре ИПС данного термина может не оказаться. В общем виде процедура поиска – процедура итеративная, т.е. за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т.д. Схематично процедура показана на рис. 9.1. Коррекция запроса происходит в зависимости от количества полученных документов и их релевантности и может выполняться как пользователем, так и самой информационно-поисковой системой.

В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту область достаточно плавно. Может оказаться полезным знание пользователя о наличии определенно релевантных документов. Не обнаружив их в списке найденных документов, область поиска следует расширить. Запрос корректируется системой информационного поиска па основании анализа документов, отмеченных пользователем как наиболее точно отвечающих его потребностям. В таком случае при следующем поиске система ищет те документы, где помимо заданных в первоначальном запросе содержатся термины, встречающиеся в документах, отмеченных пользователем. Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.

Рис. 9.1. Процедура поиска

В последнее время во многих ИПС появилась функция подсказки при вводе текста поискового запроса, учитывающая ранее введенные этим пользователем запросы по сходной тематике за некоторый период времени.

Интерфейс системы. Важным фактором, во многом определяющим эффективность поиска, может быть вид представления информации в программе, т.е. ее интерфейс. По форме диалога, способу задания условия отбора и механизму поиска программные средства можно разделить на системы рубрикационного типа и структурно-логические системы.

Первые реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, через которые обеспечивается доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь таким образом по тематической иерархии, пользователь уточняет предметную область и увеличивает (усрсдненно) степень точности соответствия выдаваемых документов и информационной потребности. Предопределенность соотнесения документов с отдельными рубриками компенсируется логичностью естественно-научной классификационной схемы, заменяющей пользователю путеводитель.

Структурно-логические методы формирования запроса используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора строится как логическая комбинация простых, сводящихся к проверке условия присутствия или отсутствия в документе слов (имен собственных или имен понятий, определяющих предмет поиска).

При составлении запроса к системе используют либо "меню-ориентированный" подход, либо командную строку. Первый позволяет ввести список терминов, как правило, разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. Многие ИПС позволяют сохранять запросы пользователя – в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением, или уточнением, запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска – список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам.

Читайте также:  Слетела разметка жесткого диска

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ

1. Информационно-поисковые системы (ИПС) и их виды

2. Составные части информационно-поисковых систем

3. Информационный поиск в сети Интернет

Информационно-поисковая система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное — это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае — между документом и информационным запросом) — релевантностью. Релевантность — это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Дата добавления: 2014-11-18 ; Просмотров: 14306 ; Нарушение авторских прав?

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Ссылка на основную публикацию
Что делать если завис телефон андроид
Что делать, если завис Андроид и не реагирует не на что? В этой статье мы посмотрим четыре простых способа как...
Фум лента в стоматологии фото
Автор: G. Freedman Перевод: Александр Зыбайло Автор: G. Freedman Перевод: Александр Зыбайло Ограничение количества цемента для фиксации и использование определенной...
Функции жесткого диска в компьютере
Жесткий диск, он же винчестер, является основным местом, где хранится вся информация. В отличие от оперативной памяти, он энергетически независим,...
Что дают за рейтинговые бои
В кои-то веки разработчики решили прислушаться к мнению игроков и ввести в Варфейс рейтинговые матчи. Теперь каждый игрок, достигший 26...
Adblock detector