Celem projektu było opracowanie systemu służącego do wyszukiwania fraz w kolekcjach nagrań zawierających wypowiedzi w języku polskim. System przyjmuje zapytanie w formie tekstowej lub mówionej, a odpowiedzią na nie jest wskazanie fragmentu zapisu audio, w którym mówca wypowiedział poszukiwaną frazę. Zadanie zostało zrealizowane poprzez innowacyjne połączenie technologii rozpoznawania mowy oraz przetwarzania języka naturalnego.
System powstał w odpowiedzi na zapotrzebowanie rynku, związane ze wzrostem możliwości gromadzenia danych audio przy jednoczesnym braku narzędzi umożliwiających sprawne wyszukiwanie informacji w takich danych. Audioscope z założenia miał zapełnić istniejącą na polskim rynku lukę, rozszerzając jednocześnie funkcjonalność oferowanych przez Neurosoft produktów w takich przedsięwzięciach jak “e-Protokół” (nagrywanie posiedzeń sądów powszechnych) czy monitorowanie mediów.
Kluczowe cechy opracowanego systemu to:
- jest przeznaczony do wyszukiwania w nagraniach dowolnego mówcy mówiącego po polsku (ang. speaker independent – SI) z możliwością adaptacji do zmienności międzyosobniczych,
- rozpoznawana mowa jest mową naturalną, z niewielkimi ograniczeniami, wynikającymi z pewnej dyscypliny wypowiedzi,
- warunki środowiskowe nie są zbyt trudne, na pewno jednak występować będą liniowe zniekształcenia transmisyjne, niezbyt duży szum otoczenia i niewielki pogłos,
- zakłada się, że nie występują istotne ograniczenia w mocy obliczeniowej, a rozpoznanie nie jest realizowane w czasie rzeczywistym,
- wyszukiwanie w rozpoznawanej mowie jest przeprowadzane w czasie rzeczywistym, a system jest w stanie obsłużyć dużą kolekcję dokumentów.
Projekt realizowany był przy współpracy Wydziału Elektroniki Politechniki Wrocławskiej oraz Wydziału Informatyki Uniwersytetu Wrocławskiego.