Wydział Matematyki, Informatyki i
Mechaniki Uniwersytetu Warszawskiego
bierze udział w realizacji zadania badawczego
SYNAT - Utworzenie uniwersalnej, otwartej,
repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów
wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy, w
ramach strategicznego programu badań naukowych i prac rozwojowych pt.
Interdyscyplinarny system interaktywnej informacji naukowej i
naukowo technicznej, finansowanego przez
Narodowe Centrum Badań i Rozwoju na podstawie umowy
SP/I/1/77065/10.Zadanie badawcze SYNAT
Okres realizacji: 16 sierpnia 2010 - 16 sierpnia 2013
Wykonawcy: konsorcjum 16 jednostek naukowych i badawczych
pod kierownictwem Wykonacy-Lidera. Liderem jest Interdyscyplinarne Centrum
Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego
(ICM UW).
Finansowanie: Finansowane przez
Narodowe Centrum Badań i Rozwoju, wysokość dofinansowania - 59788713 zł.
Etapy: Zadanie badawcze zostało podzielone na 49 etapów
wykonywanych przez partnerów.
Więcej informacji: Portal
www.synat.pl
Etapy B13 i B14 zadania SYNAT
Wydział Matematyki, Informatyki i
Mechaniki Uniwersytetu Warszawskiego
w ramach zadania badawczego SYNAT odpowiada za wykonanie dwóch etapów - B13
i B14.
Okres realizacji: 16 sierpnia 2010 - 16 sierpnia 2013
Wykonawcy: Zespół pod kierownictwem Kierownika Części
Zadania Badawczego - dr
hab. Hung Son Nguyen, profesor UW.
Finansowanie: Finansowane przez
Narodowe Centrum Badań i Rozwoju, wysokość dofinansowania - 4459259 zł.
Kontakt:
SYNAT@MIMUW
DW. Hung Son Nguyen
Wydział Matematyki Informatyki i Mechaniki
Uniwersytet Warszawski
Banacha 2, 02-097 Warszawa
tel. (22) 55 44 585
fax (22) 55 44 300
e-mail: synat@mimuw.edu.pl
Etap B13 - Metody semantycznego indeksowania,
klasyfikowania i wyszukiwania z wykorzystaniem słowników, tezaurusów i
ontologii, metody przetwarzania i wizualizacji wyników.
Celem tego etapu jest opracowanie metod i algorytmów
wspomagających dialog z repozytoriami tekstów i zasobami
multimedialnymi zgromadzonymi na dedykowanych serwerach. Opracowane metody
dialogu umożliwią dostarczenie
użytkownikom z różnych dziedzin metod
pozyskiwania pożądanej jakości informacji o
poszukiwanych dokumentach. W szczególności, dotyczy
to metod i algorytmów wyszukiwania i indeksowania wspomaganego
słownikami, tezaurusami i ontologiami
pozwalającymi głębiej wniknąć w semantykę
analizowanych obiektów.
W ramach tego etapu zostaną opracowane:
- Metody semantycznego indeksowania obiektów cyfrowych z
wykorzystaniem słowników, tezaurusów i ontologii.
- Metody semantycznego wyszukiwania z wykorzystaniem
słowników, tezaurusów i ontologii.
- Metody dialogu z użytkownikami i
przetwarzania wyników wyszukiwań oraz ich
wizualizacji.
- Metody semantyczne przetwarzania języka
naturalnego, ze szczególnym uwzględnieniem metod
eksploracji tekstów (ang. text mining) w języku
polskim.
Dotychczasowe doświadczenia w dziedzinie
wyszukiwania obiektów cyfrowych wskazują, że metody
wyszukiwania o odpowiedniej jakości winny
korzystać z wiedzy dziedzinowej. Pewne aspekty tej
wiedzy dziedzinowej mogą być wyrażone za
pomocą informacji reprezentowanej w
słownikach, tezaurusach i ontologiach. W
szczególności opracowane metody korzystać będą
z tej informacji dla efektywnego indeksowania dokumentów multimedialnych co
z kolei pozwoli na opracowanie szybkich metod wyszukiwania dokumentów.
Jakość
procesu wyszukiwania w istotny sposób
zależy od metod przetwarzania i wizualizacji. Istotnym problemem jest
reprezentacja, zwykle bardzo
dużych, zbiorów
dokumentów
stanowiących odpowiedź na zapytania
użytkowników. Metody dialogu z
użytkownikami pozwolą na
redukcję bądź modyfikację
tych zbiorów. Dialog z
użytkownikami będzie
wspomagany, np. metodami grupowania hierarchicznego.
Etap B14 - Model integracji systemu wiedzy z
uwzględnieniem akwizycji i analizy danych oraz hurtowni danych.
Celem tego etapu jest opracowanie hurtowni danych będącej
jednym z centralnych modułów systemu,
przechowującej metadane dla obiektów cyfrowych
objętych projektem, oraz dane o sposobach ich
używania przez użytkowników
systemu. Sposób przechowywania danych, jak i oprogramowanie hurtowni
muszą zapewniać efektywne przetwarzanie danych na
potrzeby innych modułów systemu. Kluczowe jest
wykorzystanie istniejącego dostępnego oprogramowania
bazodanowego i analitycznego, szczególnie rozwiązań
open source. Funkcjonalność i
prędkość hurtowni danych ma być
dopełnieniem dla repozytorium obiektów multimedialnych wraz z
inteligentnymi modułami jego przeszukiwania.
Wyniki tego etapu będą obejmować:
- Model logiczny i fizyczny danych, które będą pprzechowywane w hurtowni.
- Wybór i wdrożenie oprogramowania
zapewniającego funkcjonalność hhurtowni danych.
- W drożenie narzędzi Business Intelligence
przydatnych w planowanych analizach.
- Metody zaawansowanej analizy danych oparte na SQL oraz eksploracji
danych, które pozwalają na przyspieszenie
ekstrakcji informacji opisanych w założeniach
pprojektu.
- Zintegrowana z innymi modułami
systemu
centralna hurtownia danych. W szczególności,
nacisk na szybkie współdziałanie hurtowni z
modułami pprzeszukiwania i indeksowania
repozytorium danych multimedialnych.
Integracja danych płynących z
różnych źródeł stanowi ważny etap
projektowania systemów pozyskiwania, przechowywania i analizy danych.
Błędy popełnione na tym etapie mogą
owocować spowolnieniem uaktualniania danych i dostępu
do danych, a szczególnie złożonych analiz
danych. Brak integracji pogłębiłby problemy z
prędkością i niezawodnością działania
systemu. Integracja danych w tym projekcie jest z badawczego punktu
widzenia czymś szczególnym, gdyż
powyżej opisane dane - ich typy i wzajemne relacje - w znacznym
stopniu odbiegają od najpopularniejszych
zastosowań hurtowni danych i analitycznych baz
danych. Zatem, zadanie to jest kluczowe dla faktycznej
przydatności podejść opracowywanych w obrębie
innych zadań badawczych projektu.