Інститут повільного і болісного з'ясування напрочуд очевидних речей

Інтернет: як знайти потрібну і достовірну інформацію

Чи замислювалися ви, за яким принципом пошукові системи обирають ті чи інші сайти для показу за вашим запитом? Чому результати пошуку однакових термінів у Google і Яндекс бувають абсолютно різні? І чи не пора нам конкретизувати фразу «прочитав в інтернеті» уточненням, де саме прочитав і чи можна цьому вірити?

Упродовж всього свого історичного шляху розвитку людство для виконання будь-якої свідомої діяльності використовує інформацію. Намагаючись визначити, що таке інформація, автор зустрів більше сотні тлумачень. У свій час, коли в школі довелося викладати інформатику, на уроці присвяченому цій темі, пояснював дітям, що термін «інформація» як і термін «культура» має багато дефініцій, однак жодна з низ не тлумачить його однозначно.
До ХХ століття людство накопичило величезну кількість інформації. Це спричинило появу не лише проблеми систематизації і зберігання великих обсягів даних, а й проблеми пошуку вже існуючих і систематизованих даних (бібліотеках, паперових архівах, електронних базах даних та інших «сховищах»).
Проблему пошуку інформації в мережі Інтернет досить ефективно вирішують інформаційно-пошукові системи (ІПС). Утім заглиблюватися в принципи роботи інтернет-пошукачів ми не будемо. Наше завдання — зрозуміти, що ми отримуємо в результаті їх роботи, наскільки ця інформація буде релевантною нашому запиту і чи можна їй довіряти?
Обговорення поняття релевантності в контексті ІПС ведеться вже багато років, але конкретного загальноприйнятого визначення досі немає. З огляду на те, що результат пошуку найчастіше являє собою перелік посилань на інші ресурси, під релевантністю іноді розуміють ступінь відповідності запиту першого запропонованого посилання (вважається, що його релевантність вища), другого і так далі. Ми ж під цим терміном будемо розуміти ступінь змістового наближення між реально отриманими посиланнями на джерела інформації й тими, які очікували б отримати від системи.

Пошукові системи
ІПС за своєю суттю — бази даних слів. За допомогою спеціальних комп’ютерних програм ІПС регулярно обстежують інтернет, виявляючи всі існуючі, й, особливо, нові та оновлені джерела, видаляючи при цьому відомості про джерела, що вийшли зі вжитку.

Досить поширеною є ситуація, коли кількість сайтів з інформацією, релевантною запиту користувача, є надлишковою. Разом з тим інформація у них дублюється, і досить вивчити лише кілька джерел з числа знайдених. З іншого боку коли інформація дублюється в декількох джерелах, користувач не завжди намагається знайти першоджерело, або найавторитетніший ресурс, задовольняючись найрелевантнійшим (одним з першої десятки запропонованих посилань) з точки зору ІПС.
І якщо справа йде про визначення столиці європейської країни, то вірогідність помилки мінімальна, але коли справа торкнеться політичного устрою Великої Британії (одні джерела стверджують що конституційна монархія інші що парламентська) або навіть такого простого на перший погляд питання про кількість країн в Європі (сторінки Вікіпедії на різник мовах вказують кількість стран).
Наприклад:
43 російськомовна Вікіпедія – http://ru.wikipedia.org/wiki/Европа
50 англомовна Wiki – http://en.wikipedia.org/wiki/Europe
У кожної пошукової системи своя формула підрахунку релевантности, яку, зазвичай, тримають у секреті. Проте окремі фахівці виділяють три математичні закономірності, безпосередньо пов’язані з розвитком інтернету:
1) ймовірність наявності в інтернеті необхідних користувачеві даних тяжіє до 100%;
2) загальний обсяг даних, що зберігаються в Мережі зростає в геометричній прогресії;
3) вірогідність знаходження необхідних користувачеві даних обернено пропорційна коефіцієнту зростання її загального обсягу.
Тобто, чим більше в інтернеті інформації загалом, тим менше в людини шансів знайти саме те, що їй потрібно. Вирішити цю проблему покликані пошукові системи.
Яку ІПС обрати кожен вирішує самостійно, враховуючи безумовно простоту та інформативність системи пошуку, додаткові сервісні функції або просто звичку. Однак слід пам’ятати, що жодна пошукова система не спроможна переглянути всі сторінки інтернет. Приміром, Google має ряд переваг над іншими ІПС, проіндексував багато мільярдів сторінок. Водночас ще більше залишилося поза межами його можливостей. Тому в багатьох випадках більш ефективними можуть виявитися тисячі інших ІПС.
Автор посібника «Google: эффективный поиск» порівнює навички користуватися ІПС із використанням сучасними людьми мобільних телефонів. Він зазначає, що переважна більшість з них, маючи мобільні телефони, навіть не замислюється над тим, як працює мережа мобільного зв’язку. Якщо телефон несправний — його можна здати в ремонт або просто викинути. Пошуковими системами можна користуватися аналогічно — освоїти нехитрі елементи керування ними, навчитися натискати потрібні кнопки. Але для того, аби пошук потрібної інформації був швидким і ефективним необхідно навчитися правильно користуватися пошуковими системами, зрозуміти логіку пошуку.

Трохи пошукової магії
Отже, нас буде цікавити два питання: як отримати релевантну відповідь на наш запит в ІПС і наскільки їй можна довіряти (тобто ступінь її авторитетності).
Детально проаналізувати проблему отримання релевантної відповіді в межах однієї статті досить складно, тому наразі розглянемо лише декілька її аспектів.
Запити, які роблять користувачі в ІПС можна умовно розділити на дві групи: високочастотні (ВЧ) і низькочастотні (НЧ). Для визначення групи, до якої має відношення запит, існують спеціальні он-лайн сервіси, наприклад, http://wordstat.yandex.ru/. Наприклад, термін «бібліотека» з 01 по 31 грудня 2012 року в Яндексі шукали 1 827 028 разів, а «науково-педагогічна бібліотека» лише 309. Відповідно перший запит буде вважатися ВЧ, а другий — НЧ.
Якщо проаналізувати статистику запитів користувачів, то можна виділити кілька відмінних рис, які дозволяють віднести наш запит до ВЧ або НЧ відповідно. Зокрема ВЧ запити часто складаються з одного, рідше двох слів, тоді як НЧ запити характеризуються більш точними і відповідно довгими формулюваннями.
Не менш важливий фактор — місцезнаходження користувача. Приміром, користувач знаходиться в Києві, шукає в ІПС термін «бібліотека». Що саме він хоче знайти? ІПС Яндекс вважає, що запит прийшов з метою щось прочитати в бібліотеці, тому пропонує користувачеві на вибір: спочатку електронну бібліотеку, потім найавторитетнішу, на його думку, в Києві Національну бібліотеку ім. В.І. Вернадського. Якщо ж такий самий запит зробити в Миколаєві, то замість бібліотеки ім. В.І Вернадського у переліку буде зазначена Науково-педагогічна бібліотека м. Миколаєва, як найавторитетніша, на думку Яндекса, в цьому місті. Висновок зрозумілий: для отримання найбільш релевантної відповіді (а не тієї, що запропонувала ІПС) потрібно максимально конкретно формулювати запит.
Для визначення найавторитетнішої бібліотеки в Україні (щоб уникнути регіональних обмежень ІПС) фахівці іноді роблять такий трюк як пошук необхідного терміну в версії Google для іншої країни, наприклад у французькій версії http://www.google.fr
ІПС Яндекс також має версію для англомовних користувачів (wwww.yandex.com). Якщо шукати «бібліотека» в англомовній версії Яндекса, то жодна українська бібліотека не входить до переліку перших 10-ти посилань запропонованих ІПС, що свідчить про те що вітчизняним книгозбірням ще є над чим попрацювати на власних веб-сторінках.

Ще одним чинником, що впливає на релевантність відповіді, є наявність реклами в результатах пошуку, на яку малодосвідчений користувач може не звернути уваги. Ідея продавати місця в результатах пошуку не нова. Хоча багато пошукових сайтів втратили популярність через те, що включали в результати пошуку надмірно багато рекламних посилань, які користувач найчастіше не міг відрізнити від «чесно» знайдених пошуковою машиною. Google і Яндекс також продають місця на сторінках з результатами пошуку, але роблять це коректно, намагаючись не зіпсувати свою репутацію. Рекламні посилання зазвичай чітко відокремлені від результатів пошуку для того, щоб не відволікати увагу користувача від його основного заняття (пошуку) і не заважати йому.

Секрет раціонального пошуку
Тепер власне переходимо до того, наскільки отриманий результат буде для нас авторитетним.
Розглянемо ситуацію. Ми шукаємо потрібну інформацію в класичній бібліотеці. Якому виданню ми б надали перевагу для отримання відповіді на наш запит? Залежить від того, з якою метою ми шукаємо:
Якщо необхідно з’ясувати значення терміна — напевно, звернемося до довідника, бажано затвердженого якимось солідним, на наш погляд, науково-дослідним інститутом.
Якщо ми шукаємо матеріал для доповіді — тоді найкраще знайти монографію схожої тематики, потім публікації в науковій періодиці (з грифом ВАК), відомчих журналах, професійних виданнях, книжках, авторами яких є вчені або авторитетні фахівці в тій галузі, що нас цікавить. В разі, якщо нам не вдасться знайти інформацію в зазначених виданнях, ми можемо звернутися до решти джерел.
Той самий принцип слід використовувати й під час пошуку інформації в інтернеті. Отже, постараємося розставити пріоритети в рейтингу авторитетності того чи іншого сайту, зазначивши одразу, що йдеться про суб’єктивне сприйняття критерію авторитетності тих чи інших ресурсів автором статті.

Як не помилитися?
Одними з найбільш авторитетних сайтів в інтернеті взагалі, та в його українському сегменті зокрема, можна вважати електронні представництва органів влади, міжнародних організацій таких як ООН, ЄС, різноманітні консорціуми (наприклад, W3C, Linux Foundation тощо). Такі портали — це багатоканальний засіб для доступу до інформації про діяльність органів влади або інших організацій, а також широкий спектр інтерактивних сервісів.
Усі знають, що в мережі є велика кількість сайтів, що пропонують тексти законодавчих актів. Однак найактуальніша інформація з усіма останніми змінами розміщена саме на сайті Верховної Ради України (http://rada.gov.ua). Наприклад, текст Закону України «Про бібліотеки і бібліотечну справу» можна знайти на сайті практично кожної бібліотеки, та чи всі бібліотеки відстежують і додають численні (у середньому раз на рік) зміни в цьому законі?
Взагалі ознакою того, що ви перебуваєте на сайті офіційного державного або муніципального установи, може бути наявність в адресі сайту домену gov.ua., наприклад:
www.president.gov.ua — сайт Президента України, www.kmu.gov.ua — Урядовий портал, http://www.mon.gov.ua/ — Міністерство освіти і науки України, http://www.nbuv.gov.ua/ — Національні бібліотека України ім. В. І. Вернадського. Слід також звернути увагу на таку особливість сайтів державних установ як відсутність реклами. Якщо ж ви бачите рекламні блоки на сайті офіційного комітету або управління — переконайтеся в правильності написання адреси сайту.
До авторитетних сайтів можна віднести й офіційні електронні представництва міжнародних компаній-брендів. Ці сайти мають обов’язково знати бібліотекарі та всі, хто, зазвичай змушений самостійно налаштовувати сканери чи принтери після переустановлення операційної системи. Уявімо, що диск з драйверами загубився і бібліотекар звертається в Google із запитом «драйвер модель принтера». Які небезпеки можуть його очікувати під час пошуку? До результатів пошуку потраплять сайти, що лише імітують оформлення офіційних брендів і спеціально створені для введення в оману користувача з метою фішінга . На знайденому сайті користувач бачить напис «Драйвер для принтера модель вашого принтера скачати» і, не підозрюючи про загрозу, добровільно завантажуєте програмне забезпечення (ПЗ) невідомого походження і призначення. Результатом може бути як установка (встановлення?) драйвера принтера, так і зараження комп’ютера шкідливим ПЗ (вірусом/и). Тому пошук ПЗ для обладнання — чи то на мобільний телефон, чи фотоапарат або копір — слід починати з пошуку сайту виробника або бренду, на якому потім можна знайти необхідну вам інформацію.

Довіряйте, але перевіряйте
Вікі проекти
Вікі (wiki) проекти — це сайти або їх розділи, вміст яких користувачі можуть самостійно змінювати. Найпопулярнішим вікі-проектом прийнято вважати Вікіпедію — мультимовну універсальну інтернет-енциклопедію, реалізовану на принципах Вікі (http://www.wikipedia.org).
Головною особливістю Вікіпедії є те, що створювати і редагувати її статті може будь-який користувач мережі Інтернет, дотримуючись правил Вікіпедії, у більшості випадків навіть без реєстрації на сайті енциклопедії. Зміни, що такі добровольці вносять у будь-яку статтю інтернет-енциклопедії негайно стають очевидними (доступними) усім відвідувачам сайту. Безперечно, надійність і точність Вікіпедії викликають багато питань. Критики вказують на залежність Вікіпедії від вандалізму, а також на неконтрольоване додавання помилкової або неперевіреної інформації .
Відкритий характер моделі редагування є центральним для великої частини критики Вікіпедії. Вони апріорі вважають, що більшість учасників, роблячи правки, мають добрі наміри, однак читач статті не може бути впевнений в її достовірності. Тому не буде зайвим ознайомитися з «історією» обраної сторінки: чи не «попрацювали» з нею вандали (вважається, що сліди актів вандалізму зазвичай оперативно усуваються), чи не були до неї спеціально внесені неправдиві відомості тощо.
Вплинути на якість матеріалу, представленого в статті енциклопедії, може і такий фактор як редагування статей не експертами. Оскільки учасники зазвичай переписують або редагують не всю статтю, а її окремі невеликі частини, то в межах однієї статті можна натрапити одночасно на високо-і низькоякісні матеріали. Чи можна мінімалізувати цей недолік? Цілком, завдяки відстеженню змін до кожної статті Вікіпедії. Таким чином ви можете подивитися статистику правок у статті, порівняти різні версії статті, побачити, якщо хтось намагається внести в статтю завідомо неправдиві дані.
Для зареєстрованих учасників доступний «Список спостереження», в який можна занести цікаві для себе статті, і, таким чином, легко відстежувати всі нещодавні зміни в цих статтях. Цей функціонал може бути корисним, якщо бібліотекар створює або править статтю про свою школу, бібліотеку, або в інших подібних випадках.
Форуми
Форуми — це сайти (або їх розділи), які покликані знайти відповідь на конкретне запитання користувача та пропонують набір тем (топіків) для обговорення. Користувач створює тему (топік) у відповідному тематичному розділі, і якщо ця тема близька або цікава іншим користувачам, то вони можуть обговорити її. Обговорення теми може бути корисним як для учасників форуму, так і будь-яким користувачам мережі Інтернет, які перейшли на форум з пошукової системи.
Чому інформації, отриманій з форуму можна довіряти? Уявімо, що ми потрапили на форум підтримки користувачів САБ (тепер вони не АБІС а Система Автоматизації Бібліотек) ІРБІС (http://irbis.gpntb.ru/). Там представники російських, українських, білоруських та інших бібліотек обговорюють, наприклад, проблему відповідності того чи іншого бібліографічного опису ДСТУ (а не ГОСТу). Можна припустити, що учасники дискусії не випадково на форумі й спільно шукають вихід із проблемних ситуацій, які виникають в їх роботі, не ставлячи за мету ввести в оману користувачів. Тож думки і досвід учасників дискусії можуть бути нам корисними.
Або ще один приклад. На форумі «Доктора Комаровського» (http://www.komarovskiy.net/forum/) мами і тата діляться досвідом лікування своїх чад. Наприклад, у правилах форуму сказано, що його учасники усвідомлюють той очевидний факт, що будь-які поради та рекомендації є, перш за все, інформацією для роздумів, але ні в якому разі не керівництвом до дії. А в разі розміщення повідомлень, що принципово суперечать поглядам автора, основам доказової медицини та рекомендаціям ВООЗ, адміністрація форуму залишає за собою право редагувати їх або видаляти. Такий факт додає впевненості у достовірності інформації, розміщеній на форумі.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.