{"id":8110,"date":"2024-11-18T14:06:43","date_gmt":"2024-11-18T12:06:43","guid":{"rendered":"http:\/\/www.kameli.net\/marq\/?p=8110"},"modified":"2024-11-18T14:06:43","modified_gmt":"2024-11-18T12:06:43","slug":"linux-ja-pdf-a","status":"publish","type":"post","link":"http:\/\/www.kameli.net\/marq\/?p=8110","title":{"rendered":"Linux ja PDF\/A"},"content":{"rendered":"\n<p>Tulipa opinn\u00e4ytteiden kanssa vastaan tilanne, ett\u00e4 piti saada tavallinen pdf-tiedosto k\u00e4\u00e4nnetty\u00e4 pdf\/a-standardin mukaiseksi arkistointia varten. Googlausrallin perusteella <em>OCRmyPDF<\/em> on t\u00e4ss\u00e4kin k\u00e4yt\u00f6ss\u00e4 yst\u00e4v\u00e4 \u2013\u00a0aiemmin olen k\u00e4ytt\u00e4nyt sit\u00e4 pelkk\u00e4\u00e4n kirjaskannien OCR:\u00e4\u00e4n. Jotakuinkin n\u00e4in:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>ocrmypdf --tesseract-timeout=0 --skip-text input.pdf output.pdf<\/code><\/pre>\n\n\n\n<p>Jos mukaan t\u00e4ytyy uittaa metadataa, niin niit\u00e4 saa mukaan seuraavasti: <em>&#8211;author &#8220;Herra 47&#8221;<\/em>. Muut tunnetut t\u00e4git ovat <em>&#8211;subject<\/em>, <em>&#8211;title<\/em> ja <em>&#8211;keywords<\/em>. T\u00e4ss\u00e4 vaiheessa kannattanee tehd\u00e4 jo erillinen skriptitiedosto, koska koko sotku voi olla kohtuuttoman pitk\u00e4 komentoriville. N\u00e4in helpostiko se k\u00e4vi?<\/p>\n\n\n\n<p>No eip\u00e4 tietenk\u00e4\u00e4n. Verkossa oleva <a href=\"https:\/\/www.pdf-online.com\/osa\/validate.aspx\">PDF\/A-validaattori<\/a> valittaa, ett\u00e4 p\u00e4iv\u00e4m\u00e4\u00e4r\u00e4 on v\u00e4\u00e4r\u00e4ss\u00e4 formaatissa. Pikavilkaisulla en keksi, ett\u00e4 miksi, mutta ilmeisesti <em>pikepdf:ss\u00e4<\/em> on aiheeseen liittyv\u00e4 bugi, joka on vasta hiljattain korjattu. Koneeni paketinhallinnasta tulee liian vanha versio, joten eip\u00e4 onnistu ilman erillist\u00e4 ty\u00f6kalua. Kaikenlaisia sekavia skriptej\u00e4 l\u00f6ytyi asian korjaamiseksi, mik\u00e4 tuntui taas mutkistavan asiaa. Onneksi vastaan tuli my\u00f6s simppeli metadataeditori <a href=\"https:\/\/flathub.org\/apps\/io.github.diegoivan.pdf_metadata_editor\">Paper Clip<\/a>, jolla p\u00e4iv\u00e4m\u00e4\u00e4r\u00e4n sai tehty\u00e4 uusiksi, ja sitten meni jo validointikin l\u00e4pi.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tulipa opinn\u00e4ytteiden kanssa vastaan tilanne, ett\u00e4 piti saada tavallinen pdf-tiedosto k\u00e4\u00e4nnetty\u00e4 pdf\/a-standardin mukaiseksi arkistointia varten. Googlausrallin perusteella OCRmyPDF on t\u00e4ss\u00e4kin k\u00e4yt\u00f6ss\u00e4 yst\u00e4v\u00e4 \u2013\u00a0aiemmin olen k\u00e4ytt\u00e4nyt sit\u00e4 pelkk\u00e4\u00e4n kirjaskannien OCR:\u00e4\u00e4n. Jotakuinkin n\u00e4in: Jos mukaan t\u00e4ytyy uittaa metadataa, niin niit\u00e4 saa mukaan seuraavasti: &#8211;author &#8220;Herra 47&#8221;. Muut tunnetut t\u00e4git ovat &#8211;subject, &#8211;title ja &#8211;keywords. T\u00e4ss\u00e4 vaiheessa kannattanee [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[13,24],"tags":[],"class_list":["post-8110","post","type-post","status-publish","format-standard","hentry","category-linux","category-softat"],"_links":{"self":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/8110","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=8110"}],"version-history":[{"count":1,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/8110\/revisions"}],"predecessor-version":[{"id":8111,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/8110\/revisions\/8111"}],"wp:attachment":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=8110"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=8110"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=8110"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}