M-CAST
Wielojęzyczny system agregacji informacji oparty na wyszukiwarce TRUST
(projekt programu eContent nr EDC 22249 M-CAST)
Celem projektu jest stworzenie wielojęzycznego systemu, który umożliwi dostawcom informacji przeszukiwanie i integrację zasobów wielkich kolekcji danych tekstowych oraz multimedialnych, takich jak biblioteki internetowe, zasoby wydawnictw i agencji prasowych oraz naukowe bazy danych.
System
Wielojęzyczny system agregacji informacji (M-CAST), poprzez agregację rozproszonych danych, dostępnych w różnych formatach, pozwoli na tworzenie nowoczesnych bibliotek cyfrowych. System zostanie przetestowany w dwóch bibliotekach, w których stworzone zostaną multimedialne portale agregujące informacje (M-CAP), bazujące na wcześniej stworzonych systemach i portalach. Będą one umożliwiały znalezienie w wielkich kolekcjach wielojęzycznych danych odpowiedzi na pytania zadawane w jednym z sześciu języków naturalnych. Warstwa prezentacji występująca w tych portalach będzie obsługiwała dane multimedialne i umożliwi prezentację cyfrowych obrazów starodruków, oryginałów dokumentów, zapisów muzycznych, fotografii, plików wideo itp. Oczywiście indeksowane będą mogły być tylko tekstowe opisy tych obiektów.
Techniki lingwistyczne
Projekt M-CAST będzie wykorzystywał wyniki projektu TRUST - Multilingual Semantic and Cognitive Search Engine for Text Retrieval Using Semantic Technologies (Wielojęzyczny mechanizm semantyczny i kognitywny do wyszukiwania tekstów z wykorzystaniem technik semantycznych - IST-1999-56416) dofinansowanego w ramach 5. Programu Ramowego Badań, Rozwoju i Prezentacji Unii Europejskiej. Wyszukiwarka TRUST, umożliwiająca wyszukiwanie w czterech językach (francuskim, polskim, portugalskim i włoskim) dostępna jest dotychczas w jednostanowiskowej wersji na komputery osobiste typu PC. W ramach projektu zostanie ona przeniesiona na serwery pracujące pod kontrolą systemu operacyjnego Unix lub Windows. Zasoby językowe zgromadzone w ramach projektu TRUST zostaną zaktualizowane i wzbogacone. Wykorzystywana dotychczas taksonomia języka zostanie dostosowana do uniwersalnej klasyfikacji dziesiętnej (UDC) używanej przez biblioteki na całym świecie do tworzenia katalogów tematycznych. System zostanie wzbogacony o dwa dodatkowe języki: angielski, dodany przez jednego z partnerów projektu TRUST oraz czeski, w ramach projektu M-CAST.
Metodyka
System agregacji informacji M-CAST będzie centralnym elementem portalu agregującego
M-CAP, który zostanie zbudowany zgodnie z metodyką budowy opartych na wiedzy systemów zarządzania informacją, stworzoną przez Infovide - Matrix S.A. w ramach innego projektu dofinansowanego z 5. Programu Ramowego - ICONS - Intelligent Content Management System - IST-2001-32429.
Wdrożenia
Portale zostaną wdrożone i przetestowane w dwóch bibliotekach publicznych: w Polskiej Bibliotece Internetowej, której operatorem jest Wojewódzka Biblioteka Publiczna - Książnica Kopernikańska w Toruniu oraz w Bibliotece Narodowej Republiki Czeskiej. Informacje będą mogły być wyszukiwane w wielojęzycznych, cyfrowych zasobach bibliotek za pomocą zapytań sformułowanych w języku naturalnym. Odpowiedzią będą fragmenty tekstów zawierające odpowiedź na pytanie.
Po zakończeniu projektu powstanie produkt ułatwiający zarządzanie wielojęzyczną wiedzą zgromadzoną w dużych zbiorach danych tekstowych. Przewiduje się, że znajdzie on zastosowanie w bibliotekach (wyszukiwanie informacji, katalogi tematyczne), zarządzaniu zbiorami (pozyskiwanie i agregacja danych, statystyki wykorzystania, poprawa jakości danych), bibliograficznych bazach danych, serwisach informacyjnych (selektywne upowszechnianie informacji, personalizacja, odkrywanie wiedzy) oraz w semantycznych sieciach danych.
________________________________________________________________________________________
Projekt M-CAST został dofinansowany przez Wspólnotę Europejską w ramach wieloletniego programu wspólnotowego mającego na celu stymulację rozwoju i wykorzystania europejskich treści cyfrowych w globalnych sieciach komputerowych oraz promocję zróżnicowania językowego w społeczeństwie informacyjnym (2001-2005).
|