{"id":2413,"date":"2013-04-19T11:49:34","date_gmt":"2013-04-19T09:49:34","guid":{"rendered":"http:\/\/www.kameli.net\/marq\/?p=2413"},"modified":"2013-04-22T12:55:23","modified_gmt":"2013-04-22T10:55:23","slug":"kksi-ja-ddkkvsid","status":"publish","type":"post","link":"http:\/\/www.kameli.net\/marq\/?p=2413","title":{"rendered":"[{kk|si{ ja ddkkvsid"},"content":{"rendered":"<p>Vuosien varrella on tullut vastaan monenlaisia ongelmia skandinaavisten kirjainten so. \u00e4\u00e4kk\u00f6sten kanssa, kun eri j\u00e4rjestelmiss\u00e4 merkkej\u00e4 on esitetty eri tavoin, mink\u00e4 lis\u00e4ksi etenkin jenkkiper\u00e4isill\u00e4 ohjelmilla oli vuosikymmenten ajan tapana tarkoituksella nollata luetuista merkeist\u00e4 ylin bitti, jotta luetut tavut varmasti olisivat &#8220;kirjaimia&#8221;, mik\u00e4 on aiheuttanut loputtomasti ongelmia muualla. 1987 standardoidun Latin-1:n eli ISO-8859-1:n my\u00f6t\u00e4 alettiin 1990-luvun kuluessa p\u00e4\u00e4st\u00e4 hiljalleen eteenp\u00e4in yhteensopivuudessa, mutta kun esim. yleisesti k\u00e4ytetty MS-DOS k\u00e4ytti omaa merkist\u00f6\u00e4\u00e4n, ei tekstin siirtyminen ollut mitenk\u00e4\u00e4n itsest\u00e4\u00e4n selv\u00e4\u00e4. UTF-8:n my\u00f6t\u00e4 ongelmat ehk\u00e4 lopulta poistuvat, vaikkakin muilla merkist\u00f6ill\u00e4 tehty\u00e4 vanhaa sis\u00e4lt\u00f6\u00e4 on olemassa niin paljon, ett\u00e4 konversiotarve tuskin tulee ikin\u00e4 t\u00e4ysin katoamaan. Itse k\u00e4yt\u00e4n merkist\u00f6jen ja rivinvaihtojen v\u00e4lill\u00e4 hyppimiseen <em>GNU Recodea<\/em>. Jokunen esimerkki vikaan menneist\u00e4 merkist\u00f6muunnoksista:<\/p>\n<ul>\n<li><strong>Ookkon{ Oulusta, pelk{{kk|n{ polliisia?<\/strong> T\u00e4t\u00e4 tuli vastaan etenkin opiskelujen alkuvuosina, kun p\u00e4\u00e4tteiden skandituki oli toteutettu 7-bittisell\u00e4 ASCII-koodilla, jossa \u00c4\u00e4\u00d6\u00f6 oli sijoitettu v\u00e4hemm\u00e4n tarpeellisten erikoismerkkien [, {, \\ sek\u00e4 | tilalle. Ei liene vaikea kuvitella, mit\u00e4 ongelmia t\u00e4st\u00e4 seurasi esim. C-koodin kanssa.<\/li>\n<li><strong>Ookkond Oulusta, pelkddkkvnd polliisia?<\/strong> T\u00e4ss\u00e4 on meneill\u00e4\u00e4n yll\u00e4 kuvattu ylimm\u00e4n bitin nollaus, joka muuttaa Latin-1:n mukaiset \u00e4\u00e4kk\u00f6set 7-bittisen ASCII:n kirjaimiksi D, d, V ja v.<\/li>\n<li><strong>Oookkon^\u00c4 Oulusta, pelk^\u00c4^\u00c4kk^\u00d4n^\u00c4 polliisia?<\/strong> T\u00e4lt\u00e4 n\u00e4ytt\u00e4v\u00e4t puolestaan MS-DOSin koodisivujen 437 tai 850 mukaiset skandit Latin-1-merkist\u00f6ss\u00e4 tarkasteltuina. T\u00e4m\u00e4n kanssa sai askarrella jatkuvasti, kun siirsi teksti\u00e4 dossipeeseelt\u00e4\u00e4n koulun Unix-koneille tai oman koneen Linux-puolelle.<\/li>\n<li><strong>Ookkon\u03a3 Oulusta, pelk\u03a3\u03a3kk\u00f7n\u03a3 polliisia?<\/strong> Ja sama toiseen suuntaan.<\/li>\n<li><strong>Ookkon Oulusta, pelkkkn polliisia?<\/strong> Joskus ep\u00e4ilytt\u00e4v\u00e4t merkit suodatettiin tulostuksesta varmuuden vuoksi kokonaan.<\/li>\n<li><strong>Ookkona Oulusta, pelkaakkona polliisia?<\/strong> Er\u00e4s strategia olikin varmuuden vuoksi korvata \u00e4\u00e4t ja \u00f6\u00f6t aalla ja oolla. Huumorilta ei voinut v\u00e4ltty\u00e4, kun vaikkapa &#8220;n\u00e4in Petrin t\u00e4n\u00e4\u00e4n&#8221;.<\/li>\n<li><strong>Ookkon\u00c3\u00a4 Oulusta, pelk\u00c3\u00a4\u00c3\u00a4kk\u00c3\u00b6n\u00c3\u00a4 polliisia?<\/strong> Viimeisen\u00e4 irkist\u00e4 tuttu tilanne, kun oma asiakasohjelmasi puhuu Latin-1:t\u00e4 ja joku solkkaa UTF-8:aa: kahdesta tavusta koostuvat merkit n\u00e4kyv\u00e4t kahtena eri merkkin\u00e4. Aiheesta on k\u00e4yty kanavilla pitk\u00e4llisi\u00e4 keskusteluja p\u00e4\u00e4tym\u00e4tt\u00e4 ikin\u00e4 mihink\u00e4\u00e4n varsinaiseen konsensukseen.<\/li>\n<\/ul>\n<p>Sin\u00e4ns\u00e4 oikein toimivia, mutta hankalalukuisia ovat lis\u00e4ksi mm. HTML-koodissa k\u00e4ytetty <strong>Ookkon&amp;auml; Oulusta, pelk&amp;auml;&amp;auml;kk&amp;ouml;n&amp;auml; polliisia?<\/strong> sek\u00e4 webbisivujen osoitteisiin enkoodattu <strong>Ookkon%C3%A4%20Oulusta%2C%20pelk%C3%A4%C3%A4kk%C3%B6n%C3%A4%20polliisia%3F<\/strong>. Aivojen mukautuvuudesta kertoo se, kuinka riitt\u00e4v\u00e4n pitk\u00e4\u00e4n v\u00e4\u00e4r\u00e4nlaista merkist\u00f6\u00e4 katseltuaan tilanteeseen tottuu ja sotkun alkaa lukea \u00e4\u00e4kk\u00f6sin\u00e4 ilman eri vaivaa. Lis\u00e4tietoa merkist\u00f6jen ihmeist\u00e4 vaikkapa Wikipedian <a href=\"http:\/\/fi.wikipedia.org\/wiki\/%C3%84%C3%A4kk%C3%B6set\">\u00c4\u00e4kk\u00f6set-sivulta<\/a> ja Linuxin <a href=\"http:\/\/www.tldp.org\/HOWTO\/html_single\/Finnish-HOWTO\/\">Finnish HOWTO:sta<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vuosien varrella on tullut vastaan monenlaisia ongelmia skandinaavisten kirjainten so. \u00e4\u00e4kk\u00f6sten kanssa, kun eri j\u00e4rjestelmiss\u00e4 merkkej\u00e4 on esitetty eri tavoin, mink\u00e4 lis\u00e4ksi etenkin jenkkiper\u00e4isill\u00e4 ohjelmilla oli vuosikymmenten ajan tapana tarkoituksella nollata luetuista merkeist\u00e4 ylin bitti, jotta luetut tavut varmasti olisivat &#8220;kirjaimia&#8221;, mik\u00e4 on aiheuttanut loputtomasti ongelmia muualla. 1987 standardoidun Latin-1:n eli ISO-8859-1:n my\u00f6t\u00e4 alettiin 1990-luvun [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[15,1,24],"tags":[],"class_list":["post-2413","post","type-post","status-publish","format-standard","hentry","category-retro","category-uncategorized","category-softat"],"_links":{"self":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/2413","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2413"}],"version-history":[{"count":13,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/2413\/revisions"}],"predecessor-version":[{"id":2430,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=\/wp\/v2\/posts\/2413\/revisions\/2430"}],"wp:attachment":[{"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2413"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2413"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.kameli.net\/marq\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2413"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}