nav-left cat-right
cat-right


Машини за пребарување и складишта


Машини за пребарување

Практични примери

Googlizing a Digital Library, Code4Lib Списание, 24 март.2008, бр.2 (Џоди Л. ДеРидер, 2008)

SHERPA Начини како да се грабне поразот од канџите на победата има листа на чести грешки

Машините за пребарување, како Google, Google Scholar, Yahoo! Search Live Search користат роботи наречени ползачи по мрежата за да индексираат интернет-страници. Тие наоѓаат интернет-страници следејќи линкови, затоа мудро е да се провери дали вашето складиште можат да го пребаруваат и роботи и луѓе и да проверите дали неговата структура е соодветна. Ако е потребно, исто така, можно е да се блокираат роботите да не индексираат одредени страници или групи на страници.

Ако користите некој од популарните софтверски пакети, како што се DSpace или Eprints, веројатно, не треба да се грижите за тоа да морате да го оптимизирате вашето складиште со роботите на машините за пребарување, бидејќи нивното вообичаено поставување е добро. Овој дел затоа главно ќе биде интересен ако сте развиле свој софтвер или страница, користите редок пакет или многу сте ја приспособиле вашата инсталација.


Како работат ползачите по мрежата

Машините за пребарување ги индексираат интернет-страниците, користејќи специјални програми наречени „роботи“. Обично тие имаат имиња. На пример, главниот робот на ГУГЛ е наречен „Googlebot“. Други термини на кои можете да наидете се „ползач по мрежата“ и „пајак“, кои го одразуваат начинот на кој работи роботот. Почнувајќи од одредена веб-страница, ползачот ги следи сите хиперлинкови на страницата за да индексира други страници на местото, а често и надворешни страници. На овој начин се покрива целата интернет-страница, иако можеби ќе биде потребно некое време за да се покријат подолните нивоа во хиерархијата на страницата, а некои машини за пребарување не гарантираат дека ќе ја индексираат секоја страница. Некои технички одлики на вашата интернет-страница можат да спречат страниците да бидат исползени. Исто така, ако сакате, постојат начини да се спречи индексирањето на некои страници. За ова се зборува подоцна.


Осигурување на пребарливост

Врските се клучот за успешно ползење по мрежата. Поточно, клучни се статичките врски. Динамичните врски, кои, на пример, се генерирани од интерактивно пребарување, најверојатно нема да може да ги досегне робот. Поврзано со тоа е дека URL кои користат аргументи (на пр. URL содржи „?“) можат да се премостат од страна на некои роботи, бидејќи тие можеби ќе ги гледаат како краткорочна динамичка содржина. Во идеални услови, врските би требале да бидат текстуални врски, иако сликите кои се со врски, обично се во ред. Врските кои користат копчиња за вклучување JavaScript, PHP или други програмирани функции, во принцип се игнорирани.

За ефективно ползење по мрежата, мора да биде возможно да се посети секоја страница или документ во вашето складиште само со притискање хиперлинкови – без потреба да се отчука текст или да се користат копчиња.


Структура на интернет-страница

Општ совет за тоа како да се направат интернет-страниците пријателски за машините за пребарување, може да се најде во Google’s Webmaster Guidelines, а Питер Субер подготви поспецифични совети за тоа како да се оптимизираат складиштата за ползењето на Google.

Како што е споменато порано, на ползачите по мрежата ќе им треба некое време да стигнат до долните нивоа на хиерархијата на вашата интернет-страница, а некои роботи можат да копаат само до толку. Затоа ќе ви помогне ако ја одржувате хиерархијата релативно плитка. (Ова, исто така, помага при користењето од страна на луѓе). Типичната структура би имала комплет од „Барај според…“ опции на предната страница, кои имаат линкови до листи на документи, од таму до страници со метадата за поедини содржини и конечно до целосниот текст.

Пример – Барај по година > 2007 > [Листа на наслови] > [страница со метадата] > [Цeлосен текст PDF]

Перформансот може делумно да се подобри ако се наведат некои содржини на домашната страница – обично тоа се „речиси додадени“, „популарни документи“ итн. Таквите листи примарно обезбедуваат корисна „вратете се повторно“ функција, која ги охрабрува луѓето повторно да го посетат складиштето, но сосема случајно, исто така, е причина документите од листата поскоро да бидат индексирани од ползачите по мрежата.


Блокирање роботи

Повеќе податоци се достапни во Водич за администраторите на веб-сервери за протоколот за исклучување роботи и на соодветната Google Help страница.
Видете го HTML Водич за автори кон МЕТА таговите на роботите или Google Help страницата за повеќе информации за метатаговите на роботите.

Има случаи кога можеби ќе сакате да спречите робот да индексира некоја одредена страница или група страници. Страницата за вклучување на администраторот би била типичен пример. Постојат два метода за да се стори ова, кои се користат од речиси сите познати пајаци на машини за пребарување:


‘robots.txt’ Документи

Овој пристап е најдобар метод за блокирање групи страници, иако може да се користи и за блокирање на поединечни страници. Документ од обичен текст наречен robots.txt се сместува во коренскиот директориум на интернет-страницата, кој содржи комплет инструкции за роботите да бидат исклучени и/ или страници кои треба да се игнорираат. Секој блок од инструкции почнува со линија која го одредува „корисникот – агент“ на кој се однесува блокирањето, следено од една или од повеќе линии кои ги покажуваат документите или директориумите кои ќе бидат „недозволени“.

User-agent: * * покажува дека инструкциите се однесуваат на сите роботи
Disallow: /login.php Роботите не би требало да го индексираат документот login.php
Disallow: /restricted/ Игнорирај ги сите документи во /забранетото дрво на директориумот


Метатагови на ‘роботи

Овој метод може да се користи за да се блокира само една интернет-страница, иако можеби не е толку доверлив како претходниот пристап. Метатаговите како елементите во ХТМЛ на страницата обезбедуваат информација за роботите, како што се имиња на авторите, клучни зборови, опис итн., и не се прикажани на видливата интернет-страница. Еден метатаг – ‘robots’ – контролира дали некој интернет-ползач (а) ја индексира страницата и/или (б) ги следи врските на страницата. Примерот подолу ги блокира и индексирањето и следењето на врските:

<meta name=”robots” content=”noindex,nofollow” />

…што може да се скрати до…

<meta name=”robots” content=”noindex,nofollow” />


Sitemaps.org (Мапи на сајтови)

Sitemaps‘ го сврте наопаку традиционалниот однос меѓу машините за пребарување и интернет-страниците, овозможувајќи им на интернет-страниците да им кажат кои страници се кај нив, наместо конвенционалниот метод кога машината за пребарување мора да ползи низ целата интернет-страница за да најде нова содржина.

Sitemap e колекција од ХМL документи, кои, во наједноставна форма, можат да им кажат на машините за пребарување кои страници постојат на интернет-страницата и кога последен пат биле обновени. Овие документи обично се градат секоја ноќ и потоа соодветните машини за пребарување можат да бидат „пингувани“ (посетувајќи посебно формиран УРЛ) за да ги информираат дека е обновена мапата на сајтот. Проверете во документацијата на софтверот на вашето складиште за да видите дали поддржува мапи на сајтови.

  • Share @ Ping.mk