Digitalizacja
W ramach wielu dotychczas przeprowadzonych projektów Neurosoft wykonywał również usługi digitalizacji dokumentów. Przetwarzane były różnego typu dokumenty, począwszy od współczesnych wydruków Norm Polskich, a skończywszy na starych wydaniach Dzienników Ustaw (wydawanych od 1918 r.) czy też Monitorów Polskich.
W procesie digitalizacji wykorzystywaliśmy przede wszystkim własne technologie OCR i narzędzia. Wymagania związane ze skanowaniem dokumentów bardzo słabej jakości lub o nietypowych formatach zmusiło nas do skonstruowania również własnego sprzętu – skanera dziełowego.
Zdobyte doświadczenie oraz stale rosnące zapotrzebowanie na usługi tego typu skłoniło nas do przygotowania specjalnej oferty na digitalizację dokumentów.
Wykonujemy digitalizację dokumentów do formatu A3 włącznie i w zależności od zapotrzebowania zleceniodawcy dostarczamy produkt wynikowy w różnych formatach.
W przygotowanym przez nas procesie digitalizacji wyróżnić można następujące etapy:
- przygotowanie materiałów
- skanowanie / fotografowanie
- obróbka plików wynikowych skanowania
- generowanie produktów końcowych digitalizacji (OCR, ICR, metrykowanie)
Przygotowanie materiałów
Na tym etapie dokonuje się klasyfikacji materiału, który ma być poddany procesowi digitalizacji. Uwzględnia się przy tym szereg kryteriów, takich jak:
- rodzaj dokumentu (starodruk, czcionka, ilość stron, …)
- możliwość uszkodzenia oryginału (skanowanie książek po rozcięciu grzbietów)
- jakość generowanego obrazu
- możliwości techniczne w miejscu, w którym odbywa się proces skanowania/fotografowania.
Efektem tego etapu jest odpowiedni harmonogram uwzględniający zarówno możliwości techniczne, jak i merytoryczne.
Skanowanie / fotografowanie
W zależności od możliwości technicznych, ilości stron do przetworzenia oraz rodzaju dokumentu stosujemy skanery przemysłowe marki Fujitsu. Za pomocą naszego urządzenia możemy wykonywać do 2,5 tys. fotografii na dzień. Zastosowanie naszego rozwiązania nie powoduje żadnych uszkodzeń fotografowanego dokumentu źródłowego. Bezpośrednim efektem skanowania są pliki wynikowe w formatach TIFF, JPEG, DJVu lub BIP.
Obróbka plików wynikowych skanowania
W procesie obróbki zdjęcia dokonuje się prostowanie obrazu (szczególnie istotne przy fotografowaniu grubych książek), usuwanie kropek czy też innych zakłóceń. W zależności od jakości materiału źródłowego znajdują również zastosowanie różnego rodzaju filtry.
Generowanie produktów końcowych digitalizacji
Etap generowania produktów końcowych zamyka cały proces digitalizacji, choć w z punktu widzenia Neurosoftu może być to również pierwszy etap projektu stworzenia prezentacji przygotowanych danych. Materiałem źródłowym są tu fotografie zdjęć oryginałów, które poddane mogą być np. procesowi rozpoznawania (OCR), strukturalizacji czy też generowania słów kluczowych dla pełnotekstowego przeszukiwania. W końcowym efekcie generujemy cały zestaw plików końcowych:
- skany (zdjęcia oryginałów; TIFF, JPEG, DJVu, BIP, …),
- pliki XML zwierające rozpoznaną i ewentualnie zestrukturalizowaną treść oryginałów
- pliki pomocnicze zawierające np. słowa kluczowe niezbędne do przeszukiwania pełnotekstowego
Oczywiście preferujemy zastosowanie własnego formatu BIP.
5 mln zdigitalizowanych stron umacnia naszą pozycję w czołówce tego typu przedsięwzięć w Polsce. Można znaleźć nas na stronach:
- serwis prawny Wydawnictwa C.H. Beck
- serwis polskich norm Wydawnictwa ArsBoni (www.eNormy.pl)
- NeuroBiz „Ludzie w Biznesie” (www.NeuroBiz.pl)