Aktivismus v praxi: digitalizace knih
Moderátoři: Administrativní odbor, Předsedající
Pravidla fóra
Než napíšete nový příspěvek, zamyslete se, zda má takovou hodnotu, aby ho musely číst stovky lidí.
Než napíšete nový příspěvek, zamyslete se, zda má takovou hodnotu, aby ho musely číst stovky lidí.
- Aktuální politické kauzy lze řešit v příslušné části veřejné diskuze.
- Části programu, současné či budoucí, diskutujte na fóru Pirátský program.
- Podání orgánům a jednoduché návrhy čiňte v příslušné podatelně.
- Pokud chcete něco rozhodnout(usnést, zvolit, odvolat, přijmout), podejte členský podnět. Ale nejdřív zvažte, jestli by na to nestačil třeba republikový výbor.
- Povídat o čemkoli si můžete v Podpalubí, což je skrytá část fóra otevřená všem zájemcům. (Je třeba se přidat do skupiny "Zobrazit - Podpalubí".)
- next_ghost
- Návštěvník – nepatří k Pirátům
- Příspěvky: 3239
- Registrován: 21 dub 2009, 18:03
- Profese: programátor
- Dal poděkování: 1433 poděkování
- Dostal poděkování: 5131 poděkování
- Kontaktovat uživatele:
Aktivismus v praxi: digitalizace knih
Oslavy volebních úspěchů pozvolna končí a teď nás čekají 2 roky klidu, kdy můžeme přípravu na další volby pojmout mnohem užitečnější formou. Takže je na čase představit projekt, který jsem sliboval ve vlákně o pirátské knihovně.
Takže ve zkratce: Vyloupíme digitální archiv Národní knihovny a ze všech knih, na které už vypršel kopírovací monopol, naděláme plnohodnotné e-knihy.
Národní knihovna (a ještě pár dalších českých knihoven) zveřejňuje databázi digitalizovaných knih přes systém Kramerius , odkud se dají naimportovat všechna potřebná data. U knížek, na které už vypršel monopol, jsou k dispozici i naskenované obrázky jednotlivých stran a neupravený OCR text. Tím ale podle všeho digitalizace skončila a převod archivů na plnohodnotné e-knihy se neplánuje, i když Pražská městská knihovna občas převádí knížky některých významnějších spisovatelů.
Příklad metadat ke knize Svatý Xaverius
Příklad naskenované stránky (formát DjVu, PNG verzi najdete v příloze tohoto příspěvku)
Příklad té samé stránky převedené pomocí OCR
Jak můžete vidět na příkladech výše, převedené texty jsou celkem kvalitní, ale je potřeba je ručně vyčistit, opravit a naformátovat, aby se z nich dala poskládat e-kniha. To bude cílem našeho projektu. Spustíme webový portál, kam se naimportují texty i obrázky z databáze NKP, a přes jednoduché webové rozhraní budeme formou crowdsourcingu postupně opravovat a formátovat jednotlivé stránky, aby text odpovídal obrázkům.
Aktuálně mám naprogramovanou většinu kódu pro import seznamu knížek i jednotlivých stránek z databáze NKP. K naprogramování samotného webového portálu jsem se ještě nedostal, protože dokončení překladu Swarmwise mi zabralo mnohem víc času, než jsem měl v plánu. Zdrojáky zveřejním co nejdřív, aby se mohlo zapojit víc lidí.
Jako název navrhuju "Projekt Erben". Kramerius byl významný vydavatel, Erben byl pro změnu spolu s Boženou Němcovou sběratelem lidových pohádek.
Takže ve zkratce: Vyloupíme digitální archiv Národní knihovny a ze všech knih, na které už vypršel kopírovací monopol, naděláme plnohodnotné e-knihy.
Národní knihovna (a ještě pár dalších českých knihoven) zveřejňuje databázi digitalizovaných knih přes systém Kramerius , odkud se dají naimportovat všechna potřebná data. U knížek, na které už vypršel monopol, jsou k dispozici i naskenované obrázky jednotlivých stran a neupravený OCR text. Tím ale podle všeho digitalizace skončila a převod archivů na plnohodnotné e-knihy se neplánuje, i když Pražská městská knihovna občas převádí knížky některých významnějších spisovatelů.
Příklad metadat ke knize Svatý Xaverius
Příklad naskenované stránky (formát DjVu, PNG verzi najdete v příloze tohoto příspěvku)
Příklad té samé stránky převedené pomocí OCR
Jak můžete vidět na příkladech výše, převedené texty jsou celkem kvalitní, ale je potřeba je ručně vyčistit, opravit a naformátovat, aby se z nich dala poskládat e-kniha. To bude cílem našeho projektu. Spustíme webový portál, kam se naimportují texty i obrázky z databáze NKP, a přes jednoduché webové rozhraní budeme formou crowdsourcingu postupně opravovat a formátovat jednotlivé stránky, aby text odpovídal obrázkům.
Aktuálně mám naprogramovanou většinu kódu pro import seznamu knížek i jednotlivých stránek z databáze NKP. K naprogramování samotného webového portálu jsem se ještě nedostal, protože dokončení překladu Swarmwise mi zabralo mnohem víc času, než jsem měl v plánu. Zdrojáky zveřejním co nejdřív, aby se mohlo zapojit víc lidí.
Jako název navrhuju "Projekt Erben". Kramerius byl významný vydavatel, Erben byl pro změnu spolu s Boženou Němcovou sběratelem lidových pohádek.
- Tito uživatelé poděkovali autorovi next_ghost za příspěvky (celkem 22):
- Janek.Wagner, Filip.Krska, Petr.Bajgar, Jana.Jirikova, Ondrej.Profant, anonym2064, Ales.Jakl, Marek.Dluhos, Dalibor.Zahora, Lenka.Kozlova, Karin, Ivan.Sirko, Zdenek.Strnad, Dominika.Michailidu, Frantisek.Kopriva, Alexandr.Mansurov, Pavel.Moravec, Petr.Nemecek, Jakub.Michalek, bilekt, Michaela.Vodova, Lydie.Bartosova
Chceš, aby organizace fungovala? Komunikuj!
Česká pirátská strana: Neškodná.
- Lenka.Kozlova
- Příznivec Pirátů – Jihočeský kraj
- Příspěvky: 3167
- Registrován: 11 čer 2012, 09:34
- Profese: vychovatelka
- Dal poděkování: 9057 poděkování
- Dostal poděkování: 3408 poděkování
- Kontaktovat uživatele:
Re: Aktivismus v praxi: digitalizace knih
Super nápad, stálo by za zpropagování na stranických kanálech. Co na to MO?
- Tito uživatelé poděkovali autorovi Lenka.Kozlova za příspěvek:
- Petr.Bajgar
- next_ghost
- Návštěvník – nepatří k Pirátům
- Příspěvky: 3239
- Registrován: 21 dub 2009, 18:03
- Profese: programátor
- Dal poděkování: 1433 poděkování
- Dostal poděkování: 5131 poděkování
- Kontaktovat uživatele:
Re: Aktivismus v praxi: digitalizace knih
Spuštění stranického GitLabu bude nejspíš TO ještě nějakou dobu trvat, tak jsem prozatím zdrojáky pracovního systému nahrál na GitHub. Drtivá většina kódu zajišťuje import dat z OAI repozitáře národní knihovny. Z webové části systému je tam zatím jen zobrazovač obrázků naskenovaných stránek, zbytek webového rozhraní včetně administrace bude třeba teprve napsat.
- Tito uživatelé poděkovali autorovi next_ghost za příspěvky (celkem 3):
- Alexandr.Mansurov, Pavel.Moravec, Filip.Krska
Chceš, aby organizace fungovala? Komunikuj!
Česká pirátská strana: Neškodná.
- Dominika.Michailidu
- Republikové předsednictvo
- Příspěvky: 3691
- Registrován: 28 črc 2011, 22:13
- Profese: výtvarník
- Bydliště: Krnsko
- Dal poděkování: 8302 poděkování
- Dostal poděkování: 6372 poděkování
Re: Aktivismus v praxi: digitalizace knih
Bylo by super, kdyby ses moh zúčastnit schůzky MO medialni-odbor-f181/mumble-schuzka-mo-5 ... 27013.html Jestli jsem to teda pochopila správně, je všechno vymyšleno, hotovo, až na web pro uživatele a převaděče + propagaci a zapojení lidí?
- next_ghost
- Návštěvník – nepatří k Pirátům
- Příspěvky: 3239
- Registrován: 21 dub 2009, 18:03
- Profese: programátor
- Dal poděkování: 1433 poděkování
- Dostal poděkování: 5131 poděkování
- Kontaktovat uživatele:
Re: Aktivismus v praxi: digitalizace knih
Vymyšleno to je už od jara (odkládal jsem to kvůli letošnímu volebnímu maratonu) a hotový je jenom import dat z databáze NKP. Napsat ten webový editor dá podstatně víc práce než to, co je prozatím hotové. Na mumble schůzi se budu snažit přijít, ale na propagaci mimo stranu je zatím ještě brzo.Dominika Michailidu píše:Jestli jsem to teda pochopila správně, je všechno vymyšleno, hotovo, až na web pro uživatele a převaděče + propagaci a zapojení lidí?
- Tito uživatelé poděkovali autorovi next_ghost za příspěvky (celkem 2):
- Jana.Syrovatkova, Dominika.Michailidu
Chceš, aby organizace fungovala? Komunikuj!
Česká pirátská strana: Neškodná.
- Zdenek.Strnad
- Návštěvník – nepatří k Pirátům
- Příspěvky: 480
- Registrován: 08 črc 2012, 11:07
- Profese: novinář, projektový manažer
- Bydliště: Praha 10
- Dal poděkování: 118 poděkování
- Dostal poděkování: 783 poděkování
Re: Aktivismus v praxi: digitalizace knih
Dotaz: jaky bude mit to webovy rozhrani funkci? Jakoze se to bude editovat primo v tom?
Neslo by to delat tak, ze by se stanovil standardizovany format, a zacalo se na tom pracovat uz ted? Nejsem technik ani programator a muzu se mylit, ale zda se mi, ze nastroje na prevod do ebook formatu existuji... takze by mozna stalo zato to aspon vyzkouset.
Neslo by to delat tak, ze by se stanovil standardizovany format, a zacalo se na tom pracovat uz ted? Nejsem technik ani programator a muzu se mylit, ale zda se mi, ze nastroje na prevod do ebook formatu existuji... takze by mozna stalo zato to aspon vyzkouset.
- next_ghost
- Návštěvník – nepatří k Pirátům
- Příspěvky: 3239
- Registrován: 21 dub 2009, 18:03
- Profese: programátor
- Dal poděkování: 1433 poděkování
- Dostal poděkování: 5131 poděkování
- Kontaktovat uživatele:
Re: Aktivismus v praxi: digitalizace knih
Webové rozhraní bude vedle sebe mít obrázek naskenované stránky a editor textu, aby se daly snadno opravit chyby v OCR převodu a vložit základní formátovací značky. Samozřejmě můžeš začít pracovat na nějaké knížce i bez toho webu, prostě si najdi nějakou knížku, postahuj si k ní jednotlivé stránky a začni upravovat text. Ale bude to pěkná pakárna.Zdenek Strnad píše:Dotaz: jaky bude mit to webovy rozhrani funkci? Jakoze se to bude editovat primo v tom?
Neslo by to delat tak, ze by se stanovil standardizovany format, a zacalo se na tom pracovat uz ted? Nejsem technik ani programator a muzu se mylit, ale zda se mi, ze nastroje na prevod do ebook formatu existuji... takze by mozna stalo zato to aspon vyzkouset.
V úvodním příspěvku je odkaz na metadata knihy Svatý Xaverius a příklad jedné stránky v textové a obrázkové podobě. Seznam odkazů na data stránek je v metadatech, v sekci <mets:fileGrp USE="txt"> jsou texty převedené pomocí OCR (tedy plné chyb) a v sekci <mets:fileGrp USE="img"> jsou obrázky ve formátu DjVu. Bohužel ani zdaleka nestačí jen postahovat hotové texty, doplnit pár formátovacích značek a vydat hotovou knížku. Podívej se na příklady, kolik je potřeba ručních úprav a v jak těžko zpracovatelné podobě jsou ty texty uložené.
Chceš, aby organizace fungovala? Komunikuj!
Česká pirátská strana: Neškodná.
- Zdenek.Strnad
- Návštěvník – nepatří k Pirátům
- Příspěvky: 480
- Registrován: 08 črc 2012, 11:07
- Profese: novinář, projektový manažer
- Bydliště: Praha 10
- Dal poděkování: 118 poděkování
- Dostal poděkování: 783 poděkování
Re: Aktivismus v praxi: digitalizace knih
Aha, takže bude nějaký rozhraní, ve kterým odpadne copypaste do texťáků, stahování jednotlivých souborů a jejich ukládání někam - prostě wikistyle crowd-editace a částečně automatizovaný export.
Máš pravdu, bude to daleko lepší tak, jak říkáš. Rád si počkám (fakt s kódováním neudělám nic), a pak se vrhnu do práce.
Máš pravdu, bude to daleko lepší tak, jak říkáš. Rád si počkám (fakt s kódováním neudělám nic), a pak se vrhnu do práce.
- Tito uživatelé poděkovali autorovi Zdenek.Strnad za příspěvky (celkem 2):
- next_ghost, Pavel.Moravec
- Dominika.Michailidu
- Republikové předsednictvo
- Příspěvky: 3691
- Registrován: 28 črc 2011, 22:13
- Profese: výtvarník
- Bydliště: Krnsko
- Dal poděkování: 8302 poděkování
- Dostal poděkování: 6372 poděkování
Re: Aktivismus v praxi: digitalizace knih
bude to teda ve finále něco jako tohle? http://www.gutenberg.org/
- next_ghost
- Návštěvník – nepatří k Pirátům
- Příspěvky: 3239
- Registrován: 21 dub 2009, 18:03
- Profese: programátor
- Dal poděkování: 1433 poděkování
- Dostal poděkování: 5131 poděkování
- Kontaktovat uživatele:
Re: Aktivismus v praxi: digitalizace knih
Základní katalog knížek bude fungovat podobně, ale nejdůležitější bude rozhraní pro editaci obsahu knížek. Gutenberg není komunitní projekt, takže takové rozhraní nemá.Dominika Michailidu píše:bude to teda ve finále něco jako tohle? http://www.gutenberg.org/
- Tito uživatelé poděkovali autorovi next_ghost za příspěvek:
- Dominika.Michailidu
Chceš, aby organizace fungovala? Komunikuj!
Česká pirátská strana: Neškodná.