Інформаційно-пошукові системи

Поняття інформаційного пошуку вперше запровадив в інформатиці американський математик Келвин Муерс в 1947 році. Інформаційним пошуком (ІП) називається деяка послідовність операцій, яка виконується з метою відшукання документів, які містять певну інформацію (з подальшою видачею цих документів або їх копій), або з метою видачі фактичних даних, які надають відповіді на задані питання.
  Спонукальним приводом інформаційного пошуку, як було зазначено вище, є інформаційна потреба, яка виражена у формі інформаційного запиту. Об'єктами інформаційного пошуку можуть бути документи, відомості про їх наявність та/або місцезнаходження, фактографічна інформація.
  Інформаційний запит представляє собой інформаційну потребу, яка сформульована на природній мові. Результат «перекладу» інформаційного запиту на інформаційно-пошукову мову (ІПМ) називають пошуковим образом запиту (ПОЗ). Синтаксис і семантика ІПМ визначається структурой і наповненням документів, та загальними задачами системи.
 Інформаційний пошук розрізняють наступним чином:
  •  в залежності від мети – адресний пошук (формально-механічний) та семантичний (тематичний),
  •  в залежності від об'єкту пошуку – документний та фактографічний,
  •  в залежності від ступіню використання технічних засобів – ручний або автоматизований,
  •  в залежності від функціональної ролі – домінуючі/другорядні, центральні/периферичні, сталі/сітуативні потреби.
Усі види інформаційного пошуку перетинаються, тому що цілі та об'єкти часто взаємопов'язані. Наприклад, документний і фактографічний види пошуку можуть бути як адресними, так и семантичними.
 В загальному вигляді процедура інформаційного пошуку складається з чотирьох етапів:
  •  уточнення інформаційної потреби і формулювання запиту,
  • визначення сукупності інформаційних масивів,
  •  вилучення інформації з інформаційних масивів,
  •  ознайомлення користувача з отриманою інформацією і оцінювання результатів пошуку.
рис.1  алгоритму пошуку, що проводиться незалежно від форми носіїв і ступеню автоматизації
Постановка пошукової проблеми. На цьому етапі користувач формулює точне визначення і фіксує то, що буде шукати і в якій області знань (предметній області – ПрО). Таким чином множина пошуку звужується визначеними межами.
Створення тезаурусу проблеми. На цьому етапі користувач створює (складає) перелік слів, які найбільш повно відображають ПрО або проблему, що була визначена. Як рекомендують спеціалісти з бібліографічного пошуку, цей перелік повинен мати приблизно 10-15 слів.
 В залежності від поставленого завдання тезаурус може бути складений на декількох мовах, для пошуку серед вітчизняних та зарубіжних джерел інформації. Робота над тезаурусом ведеться весь час, і в процесі виявлення нових термінів вони тут же додаються до тезаурусу. Найбільш прийнятною є структура тезаурусу у вигляді семантичних зрізів. У цьому випадку для кожного основного терміну окремо будується таблиця для супутних та шумових слів. Шумових слів у джерелі бути не повинно. Тобто користувач отримує пакет таблиць, які можна окремо розширювати і модифікувати в ході пошуку.
 Відбір джерел даних для пошуку. Джерела даних (масив) обираються виходячи з характеру проблеми (тобто де найбільш доступні та повно надані джерела) та можливостей користувача (доступ до інтернету, бібліотеки тощо).
 Виконання пошуку засобами, які притаманні джерелу даних. На цьому етапі користувач з тезаурусу складає пошукові запити і реалізує їх методами пошуку, які специфічні для даного ресурсу. В бібліотеці – це пошук в каталогах, якщо інформацією володіють люди або організації – пошук та звернення до них, у мережі Інтернет - використовуються пошукові машини та каталоги, телеконференції та списки розсилки, сайти та інше. Як формат так і семантика запитів варіюється в залежності від предметної області та використовуваного інформаційного ресурсу.
 Як рекомендують спеціалісти з бібліографічного пошуку, запити необхідно складати таким чином, щоб область пошуку була максимально конкретизована та звужена. Необхідно віддавати перевагу декільком вузьким запитам ніж одному, але розширеному. В загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Після чого проводиться пробне виконання запитів – для уточнення та доповнення тезаурусу, в тому числі для відсікання шумової інформації.
 Оцінювання отриманих результатів пошуку. В результаті пошуку користувач отримує результуючу множину документів, які надалі необхідно проаналізувати і вирішити наскільки повно вони покривають поставлену пошукову проблему.
Перелік ресурсів, отриманих в результаті запиту, рекомендується обробляти в два етапи. На першому етапі відсікаються вочевидь нерелевантні джерела і знову ж таки проводиться семантичний аналіз з метою уточнення тезаурусу та модифікації подальших запитів. На другому етапі обробки користувач послідовно вивчає кожен з знайдених ресурсів для безпосереднього аналізу інформації, що знаходиться в них.
У процесі аналізу отриманих даних, її треба: 
  •  оцінити (за ступенем вірогідності, важливості, таємності, пов'язаності між собою, можливості використання);
  •  інтерпретувати (в світлі інших даних і глибинної інтуїції), виявивши її місце в загальній мозаїці фактів;
  •  визначити, чи потрібна (і яка) додаткова інформація;
  •  ефективно використати (врахувати у своїх планах, передати кому слід, притримати до потрібного моменту).
Прийняття рішення про продовження (закінчення) пошуку. Якщо, оцінюючи результати пошуку, користувач прийшов до висновку, що необхідна інформація знайдена вся, тоді пошук можна припиняти - подальші пошуки будуть зайвою тратою дорогоцінного часу. У зворотній ситуації (неповні відомості) користувачеві доведеться приймати рішення про те, на якому з етапів була допущена помилка, і спробувати виправити її, після чого повторити процес пошуку з цього місця заново. В цьому випадку можливі три варіанти: невірно складений тезаурус проблеми, невірно обране інформаційне джерело або користувач скористався недоцільними методами пошуку (наприклад, виконував пошук суто наукових даних - статті за допомогою загальновикористовуваного пошукового інтернет-сервісу).


Класифікація моделей ІПС

Порівняльна таблиця різних видів пошукових служб




Пошукові тематичні каталоги
Рейтингова система
Індексні пошукові системи
Принцип дії
Принцип дії таких каталогів дуже нагадує організацію тематичних каталогів великих бібліотек. Звернувшись на адресу пошукового каталогу, користувач знаходить на його основній сторінці перелік тематичних категорій, наприклад таких як Освіта, (Education), Наука (Science), Бізнес (Business), Мистецтво (Art) тощо.
Як правило, такі каталоги є ієрархічними гіпертекстовими меню з пунктами і підпунктами, які визначають тематику сайтів, адреси яких містяться в цьому каталозі, з поступовим (від рівня до рівня) уточненням теми.
Працювати з пошуковими каталогами просто. У них пошук інформації відбувається на інтуїтивному рівні і практично завжди закінчується успіхом. Однак за цією простотою приховується найвища складність створення і ведення каталогу. Пошукові каталоги створюються, як правило, вручну. Висококваліфіковані редактори особисто переглядають інформаційний простір Веб, відбираючи те, що на їхню думку становить загальний інтерес, і заносять адреси до каталогу.

Ідея цієї системи полягає у тому, що на головній сторінці розміщується перелік найважливіших тем, які, в свою чергу, містять список тематичних розділів. Вибравши потрібну тему, користувач отримує обмежений перелік веб-ресурсів, присвячених даній темі. Поруч з кожним веб-ресурсом висвітлюється оцінка його популярності, яка вимірюється в кількості переглядів цього ресурсу за останню добу. Проте, потрібно пам’ятати, що не завжди високий рейтинг об’єктивно відповідає якості веб-ресурсу.
Більшість пошукових систем світу - індексні пошукові системи, які ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами, Search Engines - в англомовних джерелах тощо. Їхнє призначення – якнайкраще охопити інформаційних веб-простір і подати його користувачам у зручному вигляді.
Принцип роботи з індексними пошуковими системами (ІПС) засновано на ключових словах. Розпочинаючи пошук інформації з певної теми, користувач має ввести ключові слова у рядок пошуку, які описують його тему і вибрати кнопку Знайти (або Найти, Go, Search), яка розташована поряд з рядком пошуку.
Після вибору кнопки Знайти, ключова фраза посилається на сервер і пошукова система починає пошук у своїх базах даних адреси веб-ресурсів, які містять вказані ключові слова. Як здійснюється пошук, користувач не може бачити, він лише побачить результат запиту – нове вікно в якому відображається перелік веб-ресурсів, які містять ключові слова.

Приклади
Найбільшим пошуковим каталогом світу є Yahoo! Українська meta.ua.
В Україні основним засобом рейтингового пошуку є Top Ping - topping.com.ua,
В Росії це: Рамблер - www.rambler.ru.

Google
Yandex
Rambler
Yahoo




ІПС мережі Інтернет

Оператори пошуку в Яндексі

domain: пошук по доменній зоні.

Використовуючи оператор domain: + домен верхнього рівня (com, org, ru, ua...) можна фільтрувати пошук сайтів в Яндексі по доменній зоні. Наприклад, використовуючи запит domain:biz, можна відшукати всі сторінки в індексі Яндекса з доменної зони biz:
пошуковий оператор domain
Пошук за допомогою оператора domain: знайде з доменами верхнього рівня і всі піддомени які включають "biz" в стуктурі доменного імені. Наприклад domain:sub:
оператор пошуку по домену

site: пошук сторінок з сайту.

Оператор site: знайде всі сторінки з сайту в індексі Яндекса, включаючи сторінки піддоменів сайту. Наприклад, ввівши в Яндекс.Пошук site:sv-igor.com можна побачити всі сторінки цього сайту проіндексовані Яндексом:
оператор пошуку Яндекса site:
За допомогою пошукового оператора site: можна перевірити кількість сторінок з певного розділу чи каталогу сайту, проіндексованих Яндексом. Наприклад, кількість сторінок цього сайту з різних каталогів - російською і українською мовою:
При відсутності склейки зеркал сайту (з префіксом «www» і без), по якому ведеться пошук – можуть бути різні результати в видачі Яндекса при різних запитах –site:site.com і site:www.site.com. Cклейку дзеркал сайту ефективніше перевіряти за допомогою оператора host:.

host: оператор пошуку з домену:

Оператор host: можна використовувати для перевірки кількості проіндексованих сторінок з домену і піддоменів сайту. На відмінну від оператора site:, який виведе проіндексовані Яндексом сторінки всього сайту – site:yandex.ru, фільтрація видачі за допомогою host: покаже кількість проіндексованих сторінок з домену чи піддомену. Наприклад,
За допомогою оператора host: можна провіряти на склейку доменів сайту – якщо зеркала сайтів склеєні Яндексом , результати будуть показані тільки для головного зеркала сайта:

Без префікса "WWW":

З префіксом "WWW":

Оператор url:

Оператор url дає змогу пошуку проіндексованої сторінки з сайту. Наприклад url:sv-igor.com. На відмінну від оператора site:, використовується для пошуку конкретної сторінки. Як і в випадку з оператором host – слід врахувати основне зеркало сайту (з префіксом «www» чи без).
Можливе використання для пошуку всіх сторінок з сайту чи з окремого розділу чи каталогу, використовуючи значок * на кінці УРЛа:
  • url:sv-igor.com/* – аналогічний пошуковому запиту site:sv-igor.com
  • url:sv-igor.com/ru/*– аналогічний пошуковому запиту site:sv-igor.com/ru

inurl: фільтрація пошуку за значенням УРЛа

За допомогою оператору пошуку inurl, можна фільтрувати результати пошуку сторінок в Яндексі за певними значеннями в УРЛ-і (адресі) сторінки. Наприклад, можна знайти всі сторінки в індексі Яндекса, які мають входження слова "abrakadabra" в адресі:
Пошуковий оператор inurl корисний при фільтрації пошуку УРЛ-ів з сайту. Для прикладу, можна фільтрувати видачу в пошуковику по входженню "seo" в УРЛ-ах сторінок.
Оператор inurl можна використовувати для пошуку непотрібних сторінок (для заборони до індексації) - згенерованих пошуковим модулем сайту чи сгенерованих скриптом статистики і т. д.
Наприклад:
  • site:site.com inurl:search
  • site:site.com inurl:openstat

title: оператор пошуку в заголовці сторінки (тег <title>)

Оператор title: використовують для пошука сторінок по заголовкам (тег <title>). Наприклад, пошуковий запит title:(Печать зверя Алиса), знайде всі сторінки які містять в заголовку пошукові слова "печать зверя алиса":
title оператор пошуку
Можна шукати за точним входженням слів в заголовку сторінки, взявши пошукові слова в лапки:
title:”Печать зверя Алиса”.
Ефективно використовувати даний оператор title: для находження дублів заголовків сторінки на сайті. Для прикладу,
site:sv-igor.com title:"html, css, javascript, seo":
пошук дублів сайту

lang: Оператор пошуку по мові

Для того, шоб знайти сторінки в Яндексі на відповідній мові можна використати оператор lang:
На даний момент пошукову видачу в Яндексі можна фільтрувати за слідуючими мовами:
  • російською - lang: ru
  • українською - lang: ru
  • казахською - lang: kk
  • татарською - lang: tt
  • білоруською - lang: ru
  • англійською - lang: en
  • французькою - lang: fr
  • німецькою - lang: det
Наприклад, можна відфільтрувати проіндексовані Яндексом сторінки цього сайту (на українській і на російській мові):

mime – пошуковий оператор по типу файла:

Оператор mime: слід використовувати для пошуку  певного типу файла (.pdf, .swf) . Пошуковий запит mime:swf, знайде всі проіндексовані Яндексом флеш-файли (в форматі .swf)
На даний момент Яндекс підтримує пошук по слідуючим форматам:
  • PDF (Adobe Portable Document Format) – mime:pdf
  • RTF (Rich Text Format) – mime:rtf
  • DOC (Microsoft Word) – mime:doc
  • SWF (Macromedia Flash) – mime:swf
  • XLS (Microsoft Excel) – mime:xls
  • XLSX (Microsoft Excel XML) – mime:xlsx
  • PPT (Microsoft PowerPoint) – mime:ppt
  • PPTX (Microsoft PowerPoint XML) – mime:pptx
  • ODT (OpenDocument Text) – mime:odt
  • ODP (OpenDocument Presentation) – mime:odp
  • ODS (OpenDocument Spreadsheet) – mime:ods
  • ODG (OpenDocument Graphics) – mime:odg