Úvaha poněkud konkrétnější

O významu systému Doré II.

 

Po přečtení předchozích úvah, si i velmi vstřícný čtenář řekne, že jde o jevy, které nemůže změnit, a tedy že nemá smysl se jimi příliš zabývat. Pokud se nezabývá zpracováním informací, tak má asi pravdu. My všichni ostatní však s popsanými skutečnostmi denně bojujeme, a hledáme cesty k jejich řešení. Z předchozího již tušíme, že popsané problémy mají společné příčiny:

  • Neexistuje „univerzální popis Světa“
    Tento popis by umožnil jednoznačné strukturování informací, jejich spolehlivé ukládání a hledání.
  • Primární informace jsou špatně dostupné
    Dobrá dostupnost primárních informací usnadní ověřitelnost abstraktních popisů a urychlí poznání
  • Informace jsou odborně, kulturně, místně a jazykově „rozptýlené“
    Je zřejmé, že vyřešením předchozích bodů vyřešíme i tento

V posledních desetiletích vznikla řada projektů, které se snaží zpřístupnit velké objemy informací (internetové hledačky a katalogy, velké oborové databáze, knihovní systémy...). Všichni alespoň některé z nich využíváme, tak víme, že mají nedostatky, které vyplývají z absence „popisu světa“ (internetové katalogy a hledačky), případně parciálním pohledem (oborové katalogy), či špatné dostupnosti informací (knihovny).

Máme zato, že současné postupy sice ukazují cestu ke globálnímu sdílení znalostí a informací, ale jejich použitelnost je problematická. Snad právě proto je prozatím v mnohých oborech a institucích postoj k internetu a ostatním novým technologiím rezervovaný.

Přitom je velká skupina oborů, které existenčně závisí na sdílení nestrukturovaných heterogenních informací.

Příklady:

  • Muzea, galerie, sběratelé, památkáři
    Typickým představitelem oboru, který potřebuje „katalogizovat svět“, jsou muzea. Ta ve svých depozitářích opatrují obrovské množství objektů (v ČR cca 100 mil!), které musí třídit, katalogizovat, popisovat a prezentovat. Přitom se snaží „mapovat Universum“. Sbírky mohou obsahovat téměř cokoliv – od prahor do současnosti, od budovy po malou mušku. Přitom bude hodnota sbírek tím větší, čím budou rozsáhlejší a čím detailnější vazby mezi jejich objekty dokážeme vytvořit.
  • Tiskové a obrazové agentury, novináři a fotografové
    V podobné situaci jsou novináři a fotografové. Ti taky svými texty a obrazy „mapují svět“, a tedy ke třídění, vyhledávání a dalšímu využití potřebují postupy, které umožní volně a přitom exaktně strukturovat informace.
  • Věda a výzkum
    Také věda a výzkum mají ambice zkoumat či popisovat Universum. Z podstaty vědy vyplývá, že se snaží nacházet nové fakta a souvislosti, neustále porovnávat své závěry, teorie a hypotézy s realitou. Proto nutně potřebuje systém „katalogizace světa“, který umožní strukturované vkládání nových, dříve nepopsaných znalostí.

 

Katalogizace Universa

V předchozích úvahách stále narážíme na potřebu „katalogizace světa“, či jeho „strukturalizace“. Přitom však víme, že popsat Universum ve všech detailech a v celé jeho složitosti není možné. Lidé se celá staletí snaží najít postup, který by jim umožnil jednoznačnou, a přitom dostatečně pružnou strukturalizaci faktů, znalostí a vztahů mezi nimi. Postupně jich vznikla celá řada. Pro základní představu si popišme alespoň nejdůležitější. Pro jednoduchost použijeme muzejní terminologie.

Filosofický systém

Nejelegantnějším řešením by jistě byl ucelený filosofický systém popisu světa, který by zasadil všechny objekty a jevy do jednotné struktury tak jak se o to pokoušeli Aristoteles, Hegel či Marx. My však dnes však víme, že svět není jen čistá dererministická struktura, ale že v něm má velký význam i chaos a náhoda. Proto současná filosofie resignovala na konstrukci „čisté struktury světa“, a my se musíme zaměřit na „technologičtější“ postupy. Filosofické postupy však musíme respektovat jako základ jakékoliv popisu, protože jsou základem našeho poznání a myšlení, jsou základním terminologickým východiskem.

Lidská paměť

Paměť kurátora je nejstarší „katalogizační systém“ s mnoha výhodnými vlastnostmi. Dokáže velmi pružně vyhledávat, třídit, a asociovat znalosti o sbírce a předmětech v ní obsažených. Bohužel nestačí na rozsáhlejší sbírky, není vždy zcela spolehlivá a zaniká se svým nositelem.

Protože posláním paměťových institucí je přenášet znalosti přes propasti generací, není asi lidská paměť správným médiem k tomuto účelu. Je však nenahraditelná jako prostředek pro asociativní či induktivní vytváření vazeb a parciální syntézy. Rozhodně nemůže být nahrazena sebedokonalejším Systémem. Naopak, ten je tu proto, aby rozšířil kapacitu lidské paměti a zachoval výsledky její činnosti.

Papírové karty

Osvědčený, desítky let používaný systém. Výhodou je to, že kromě kartotéční skříně (někdy značně velké), kartotéčních lístků a tužky nepotřebujeme žádné další vybavení (gramotnost a píle se u muzejníků automaticky předpokládají). Na kartu můžeme napsat prakticky cokoliv. Pokud tento postup zdokonalíme tak, že každou kartu vkládáme do obálky společně s dalšími materiály vztahujícími se k předmětu (fotografie, výstřižky, odborné práce, posudky…) může v řadě případů vyhovovat i dnes.

Základním problémem tohoto postupu je však to, že karty můžeme třídit jen podle omezeného počtu hledisek (obvykle jediného). To znamená, že tímto postupem sice můžeme jednoduše dokumentovat menší sbírku, ale nemůžeme vytvořit živý katalog, který by podporoval práci se sbírkou. Další nevýhodou jsou nároky na preciznost při práci s kartotékou. Špatně zařazená karta je prakticky ztracená, vysypaný kartotéční šuplík může znamenat katastrofu…

Klasický
databázový katalogizační systém

Je založen na komerčních relačních databázových systémech (např. MS Access - Demus, Bach….), obvyklými databázovými postupy. To znamená, že musíme dopředu uvést všechny vlastnosti a kategorie, které chceme katalogizovat. Tento postup je celkem vhodný pro uzavřené specializované sbírky, u kterých lze strukturu popisu dostatečně přesně a spolehlivě predikovat, jejichž předměty mohou mít konečný a poměrně malý počet katalogizovaných vlastností. Proto tvůrci těchto systémů buď vytvářejí řady specializovaných systémů (fotografie, zoologie, botanika, výtvarné umění…– Demus) nebo individuálně upravují jeden systém pro potřeby jednotlivých sbírek (Bach).

Předem určená struktura v praxi znamená, že předmět lze popsat jen z pohledu jednoho oboru, že nemůžeme do systému vložit informaci, pro kterou nebyl předem zřízen patřičný “šuplík”. Vytváření vazeb mezi sbírkami, zaznamenávání vztahů mezi předměty nebo multidisciplinární přístup nejsou možné, protože kategorie ve kterých popisujeme předměty jsou navzájem neslučitelné. Tento přístup bude mít tendenci “standardizovat Universum”, uměle přizpůsobovat realitu zvoleným kategoriím a pomíjet vše co není s těmito kategoriemi slučitelné.

Další důležitou nevýhodou standardních postupů je jejich závislost na proprietárních databázových systémech (Access) a tedy velmi obtížná dlouhodobá udržovatelnost.

Mezinárodní desetinné třídění

Je metoda, která vznikla z potřeb knihovníků, kteří takto chtěli vytvořit katalog, který by byl schopen zařadit libovolný objekt nezávisle na jeho jazykové prezentaci. Jediná pevná struktura pojmů, zaměřená výhradně na objekt (není možné popsat role pojmů, vlastnosti…) vytváří snad ještě větší problémy, než jsou ty s kterými se setkávají uživatelé klasických databázových systémů.

Klíčová slova

Druhým extrémem v přístupu ke kategorizaci může být systém, který katalogizovaný předmět popíše řadou volně vybraných klíčových slov. Tento postup umožňuje popisovat předmět z nejrůznějších pohledů, nemá tendenci “standardizovat realitu”.

Z této svobody v kategorizaci či popisu předmětů však vyplývá i hlavní úskalí tohoto postupu. Ten totiž dovoluje popsat jeden pojem různými výrazy (Jihočeský kraj, JK, J.K., J.k., JČ kraj, JČK, Budějovický kraj, BK, Jižní Čechy, J. Čechy, Süd Böhmen, SB…), nebo se nám do zápisu klíčového slova může dostat překlep.

Značnou potíž dělá skutečnost, že u klíčových slov nemáme definovanou nadřazenost či podřazenost pojmů. Pokud budeme hledat krumlovský zámek pomocí pojmu Jižní Čechy, a ten bude lokalizován klíčovým slovem krumlovsko, máme smůlu. Zámek nenajdeme, protože systém netuší, že krumlovsko je částí Jižních Čech.

To znamená, že při výběru z katalogu si nikdy nemůžeme být jisti, že jsme získali všechny relevantní odpovědi. Volba dotazovacích pojmů se proto poněkud podobá loterii. Podobně jako ve Sportce musíme vypracovat rozpis, který pokrývá všechny pravděpodobné pojmy, které mohou souviset s hledaným objektem.

Neomezený počet klíčových slov a jejich „neurčitost“ znamená, že není možné spojování záznamů do homogenních celků, třídění, automatické vytváření vazeb atd.

U počítačového systému, který obsahuje všechny texty nepovažujeme za nutné vkládat klíčová slova, protože můžeme prohledávat texty fulltextovým hledáním, případně je indexovat.

Data mining

„Dolování dat“ je soubor moderních počítačových postupů, které se snaží vyloučit ruční práci z prohledávání velkých objemů dat. Využívají metod umělé inteligence a jiných poměrně složitých a neprůhledných postupů k „dolování“ relevantních informací ze „skladů“ nestrukturovaných dat. V současnosti jsou vedeny snahou „dostat z toho zmatku alespoň něco“. Jejich výsledky tedy mají povahu spíše statistickou, než deskriptivní. Tyto technologie však procházejí bouřlivým rozvojem, a lze tedy očekávat, že jejich využití bude možné v budoucnu. Ve skutečný pokrok však lze doufat až poté, kdy počítače porozumí přirozenému jazyku. A to je prozatím Sci-fi.