Stránka 1 z 2

Aktivismus v praxi: digitalizace knih

Napsal: 12 říj 2014, 19:43
od next_ghost
Oslavy volebních úspěchů pozvolna končí a teď nás čekají 2 roky klidu, kdy můžeme přípravu na další volby pojmout mnohem užitečnější formou. Takže je na čase představit projekt, který jsem sliboval ve vlákně o pirátské knihovně.

Takže ve zkratce: Vyloupíme digitální archiv Národní knihovny a ze všech knih, na které už vypršel kopírovací monopol, naděláme plnohodnotné e-knihy. :twisted:

Národní knihovna (a ještě pár dalších českých knihoven) zveřejňuje databázi digitalizovaných knih přes systém Kramerius OFFTOPIC(specifikace protokolu, server NKP), odkud se dají naimportovat všechna potřebná data. U knížek, na které už vypršel monopol, jsou k dispozici i naskenované obrázky jednotlivých stran a neupravený OCR text. Tím ale podle všeho digitalizace skončila a převod archivů na plnohodnotné e-knihy se neplánuje, i když Pražská městská knihovna občas převádí knížky některých významnějších spisovatelů.

Příklad metadat ke knize Svatý Xaverius
Příklad naskenované stránky (formát DjVu, PNG verzi najdete v příloze tohoto příspěvku)
Příklad té samé stránky převedené pomocí OCR

Jak můžete vidět na příkladech výše, převedené texty jsou celkem kvalitní, ale je potřeba je ručně vyčistit, opravit a naformátovat, aby se z nich dala poskládat e-kniha. To bude cílem našeho projektu. Spustíme webový portál, kam se naimportují texty i obrázky z databáze NKP, a přes jednoduché webové rozhraní budeme formou crowdsourcingu postupně opravovat a formátovat jednotlivé stránky, aby text odpovídal obrázkům.

Aktuálně mám naprogramovanou většinu kódu pro import seznamu knížek i jednotlivých stránek z databáze NKP. K naprogramování samotného webového portálu jsem se ještě nedostal, protože dokončení překladu Swarmwise mi zabralo mnohem víc času, než jsem měl v plánu. Zdrojáky zveřejním co nejdřív, aby se mohlo zapojit víc lidí.

Jako název navrhuju "Projekt Erben". Kramerius byl významný vydavatel, Erben byl pro změnu spolu s Boženou Němcovou sběratelem lidových pohádek.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 28 říj 2014, 13:06
od Lenka.Kozlova
Super nápad, stálo by za zpropagování na stranických kanálech. Co na to MO?

Re: Aktivismus v praxi: digitalizace knih

Napsal: 01 lis 2014, 21:30
od next_ghost
Spuštění stranického GitLabu bude nejspíš TO ještě nějakou dobu trvat, tak jsem prozatím zdrojáky pracovního systému nahrál na GitHub. Drtivá většina kódu zajišťuje import dat z OAI repozitáře národní knihovny. Z webové části systému je tam zatím jen zobrazovač obrázků naskenovaných stránek, zbytek webového rozhraní včetně administrace bude třeba teprve napsat.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 02 lis 2014, 13:52
od Dominika.Michailidu
Bylo by super, kdyby ses moh zúčastnit schůzky MO medialni-odbor-f181/mumble-schuzka-mo-5 ... 27013.html Jestli jsem to teda pochopila správně, je všechno vymyšleno, hotovo, až na web pro uživatele a převaděče + propagaci a zapojení lidí?

Re: Aktivismus v praxi: digitalizace knih

Napsal: 02 lis 2014, 16:39
od next_ghost
Dominika Michailidu píše:Jestli jsem to teda pochopila správně, je všechno vymyšleno, hotovo, až na web pro uživatele a převaděče + propagaci a zapojení lidí?
Vymyšleno to je už od jara (odkládal jsem to kvůli letošnímu volebnímu maratonu) a hotový je jenom import dat z databáze NKP. Napsat ten webový editor dá podstatně víc práce než to, co je prozatím hotové. Na mumble schůzi se budu snažit přijít, ale na propagaci mimo stranu je zatím ještě brzo.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 02 lis 2014, 22:14
od Zdenek.Strnad
Dotaz: jaky bude mit to webovy rozhrani funkci? Jakoze se to bude editovat primo v tom?

Neslo by to delat tak, ze by se stanovil standardizovany format, a zacalo se na tom pracovat uz ted? Nejsem technik ani programator a muzu se mylit, ale zda se mi, ze nastroje na prevod do ebook formatu existuji... takze by mozna stalo zato to aspon vyzkouset.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 03 lis 2014, 17:35
od next_ghost
Zdenek Strnad píše:Dotaz: jaky bude mit to webovy rozhrani funkci? Jakoze se to bude editovat primo v tom?

Neslo by to delat tak, ze by se stanovil standardizovany format, a zacalo se na tom pracovat uz ted? Nejsem technik ani programator a muzu se mylit, ale zda se mi, ze nastroje na prevod do ebook formatu existuji... takze by mozna stalo zato to aspon vyzkouset.
Webové rozhraní bude vedle sebe mít obrázek naskenované stránky a editor textu, aby se daly snadno opravit chyby v OCR převodu a vložit základní formátovací značky. Samozřejmě můžeš začít pracovat na nějaké knížce i bez toho webu, prostě si najdi nějakou knížku, postahuj si k ní jednotlivé stránky a začni upravovat text. Ale bude to pěkná pakárna.

V úvodním příspěvku je odkaz na metadata knihy Svatý Xaverius a příklad jedné stránky v textové a obrázkové podobě. Seznam odkazů na data stránek je v metadatech, v sekci <mets:fileGrp USE="txt"> jsou texty převedené pomocí OCR (tedy plné chyb) a v sekci <mets:fileGrp USE="img"> jsou obrázky ve formátu DjVu. Bohužel ani zdaleka nestačí jen postahovat hotové texty, doplnit pár formátovacích značek a vydat hotovou knížku. Podívej se na příklady, kolik je potřeba ručních úprav a v jak těžko zpracovatelné podobě jsou ty texty uložené.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 03 lis 2014, 19:37
od Zdenek.Strnad
Aha, takže bude nějaký rozhraní, ve kterým odpadne copypaste do texťáků, stahování jednotlivých souborů a jejich ukládání někam - prostě wikistyle crowd-editace a částečně automatizovaný export.

Máš pravdu, bude to daleko lepší tak, jak říkáš. Rád si počkám (fakt s kódováním neudělám nic), a pak se vrhnu do práce.

Re: Aktivismus v praxi: digitalizace knih

Napsal: 14 lis 2014, 09:00
od Dominika.Michailidu
bude to teda ve finále něco jako tohle? http://www.gutenberg.org/

Re: Aktivismus v praxi: digitalizace knih

Napsal: 14 lis 2014, 16:54
od next_ghost
Dominika Michailidu píše:bude to teda ve finále něco jako tohle? http://www.gutenberg.org/
Základní katalog knížek bude fungovat podobně, ale nejdůležitější bude rozhraní pro editaci obsahu knížek. Gutenberg není komunitní projekt, takže takové rozhraní nemá.