Nedalo mi to, a doladil sem nějaký věci ve
scrapperu, takže to scrapuje líp, stabilněji a rychleji. Scrapper pouštím s intervalem 2 stránky za sekundu - kratšího intervalu by si server všiml.
Fórum mělo ke včerejšku 143550 stránek dostupných pro RegP se zapnutým Podpalubím. Což dělá cca 20 hodin scrapování.
Výsledkem jsou forumová data v RDF. Vzhledem k tomu, že jsem nikdy žádná data do RDF neukládal, tak ty data nejsou ještě správně strukturovaný, prolinkovaný, konzistentní - ladím průběžně.
Ukázka nascrapovaných informací k profilové stránce
jiri-kaderavek-u56/
(seznam poděkování, namapovaných prozatím na property as:Like, jsem zkrátil, kvůli přehlednosti):
Kód: Vybrat vše
@prefix : <#>.
@prefix acc: <https://forum.pirati.cz/jiri-kaderavek-u56/>.
@prefix jiri: <https://forum.pirati.cz/jiri-kaderavek-u56/#>.
@prefix dc: <http://purl.org/dc/elements/1.1/>.
@prefix terms: <http://purl.org/dc/terms/>.
@prefix XML: <http://www.w3.org/2001/XMLSchema#>.
@prefix sioc: <http://rdfs.org/sioc/ns#>.
@prefix foaf: <http://xmlns.com/foaf/0.1/>.
@prefix as: <https://www.w3.org/ns/activitystreams#>.
@prefix t1: <https://forum.pirati.cz/administrativa-f498/ukol-rezervacni-evidencni-a-ucetni-system-pro-akce-piratu-t7912.html#>.
@prefix t2: <https://forum.pirati.cz/administrativni-odbor-f182/ao-1-2011-pokyn-spusteni-piratske-site-t6558.html#>.
@prefix t3: <https://forum.pirati.cz/administrativni-odbor-f182/diskuse-k-prihlasce-vzor-2012-t10576.html#>.
acc:
a sioc:UserAccount;
dc:description "Zakladatel České pirátské strany"@cs;
terms:created "2009-04-21T09:58:00Z"^^XML:dateTime;
sioc:account_of jiri:card;
sioc:avatar
<https://forum.pirati.cz/./download/file.php?avatar=56_1269555563.jpg>;
sioc:id 56;
sioc:member_of
<https://forum.pirati.cz/celostatni-forum-g47.html>,
<https://forum.pirati.cz/ks-jihomoravsky-kraj-g36.html>,
<https://forum.pirati.cz/mo-pracovni-g95.html>,
<https://forum.pirati.cz/pracovni-skupina-volnocasove-aktivity-g184.html>,
<https://forum.pirati.cz/registered-g2.html>;
foaf:accountName "Jiri.Kaderavek";
as:Like
t1:p114557, t2:p91819, t3:p126009, t3:p126042, t3:p129857
jiri:card
a foaf:Person;
foaf:account acc:;
foaf:age 46;
foaf:homepage <http://www.facebook.com/jiri.kaderavek>;
foaf:img
<https://forum.pirati.cz/./download/file.php?avatar=56_1269555563.jpg>;
foaf:jabberID "jiri.kaderavek@webstep.net";
foaf:nick "Jiri.Kaderavek".
Teď teprve začínám vytvářet aplikaci, co ty data bude umět zobrazit.
Seed, co jsem opravil minule, měl ještě bug. Teď už buildí správně a aplikace zobrazí uvítací stránku s verzí nainstalované solid-client knihovny a odkazy na tutorial a nějaké další info. To by mohlo usnadnit začátek komukoliv, kdo by chtěl zkusit vyrobit angular aplikaci pro Solid.
Abych to už nemusel znovu hledat, tak si sem hodim pár linků...
SIOC:
Narazil sem na perl knihovnu SIOC:
https://metacpan.org/release/SIOC
a na jeden prohlížeč SIOC dat v python2:
https://code.google.com/archive/p/siocwave/
Našel sem taky jeden web, který poskytuje svoje data v RDF:
http://www.mkbergman.com/ (
http://www.mkbergman.com/index.php?sioc_type=site)
SIOC spec a overview:
http://rdfs.org/sioc/spec/#sec-overview
Obecné:
Linked Data 101
http://rhiaro.github.io/sws/
RDF schema
https://www.w3.org/TR/rdf-schema/
Fetch nahrazuje CORS?:
https://lists.w3.org/Archives/Public/pu ... /0008.html
Užitečné a nesouvisející:
online Markdown editor (github flavour)
http://jbt.github.io/markdown-editor/
Další aplikace, co se budou hodit:
EDIT: doplněny další aplikace.