Takže ve zkratce: Vyloupíme digitální archiv Národní knihovny a ze všech knih, na které už vypršel kopírovací monopol, naděláme plnohodnotné e-knihy.
Národní knihovna (a ještě pár dalších českých knihoven) zveřejňuje databázi digitalizovaných knih přes systém Kramerius
, odkud se dají naimportovat všechna potřebná data. U knížek, na které už vypršel monopol, jsou k dispozici i naskenované obrázky jednotlivých stran a neupravený OCR text. Tím ale podle všeho digitalizace skončila a převod archivů na plnohodnotné e-knihy se neplánuje, i když Pražská městská knihovna občas převádí knížky některých významnějších spisovatelů.Příklad metadat ke knize Svatý Xaverius
Příklad naskenované stránky (formát DjVu, PNG verzi najdete v příloze tohoto příspěvku)
Příklad té samé stránky převedené pomocí OCR
Jak můžete vidět na příkladech výše, převedené texty jsou celkem kvalitní, ale je potřeba je ručně vyčistit, opravit a naformátovat, aby se z nich dala poskládat e-kniha. To bude cílem našeho projektu. Spustíme webový portál, kam se naimportují texty i obrázky z databáze NKP, a přes jednoduché webové rozhraní budeme formou crowdsourcingu postupně opravovat a formátovat jednotlivé stránky, aby text odpovídal obrázkům.
Aktuálně mám naprogramovanou většinu kódu pro import seznamu knížek i jednotlivých stránek z databáze NKP. K naprogramování samotného webového portálu jsem se ještě nedostal, protože dokončení překladu Swarmwise mi zabralo mnohem víc času, než jsem měl v plánu. Zdrojáky zveřejním co nejdřív, aby se mohlo zapojit víc lidí.
Jako název navrhuju "Projekt Erben". Kramerius byl významný vydavatel, Erben byl pro změnu spolu s Boženou Němcovou sběratelem lidových pohádek.