Friday, June 30, 2006

Signo-kodigo

Okazadas ofte, ke la retpaĝo montriĝas bone ĉe la komputilo de sia aŭtoro, sed kiam aliaj vizitantoj legas ĝin surrete la teksto fariĝas nelegebla. Anstataŭ supersignitaj literoj aperadas kvadratetoj, demandosignoj, aŭ tute misaj literoj. La kialo estas, ke aŭtoro en la paĝo ne specifis la kodigon (aŭ specifis ĝin malĝuste). Tiu ĉi eraro estas relative ofta, ĉar la aŭtoro mem ĝin ne rimarkos – iu alia devas atentigi ŝ/lin.

Kio estas la kodigo? Simplege dirite, laŭ teknika vidpunkto ĉiuj datumoj estas en komputilo stokitaj kiel numeroj (kaj ĉiuj numeroj estas stokitaj kiel unuoj kaj nuloj – sed pri tio ni hodiaŭ ne zorgos). Do ankaŭ literojn kaj aliajn signojn skribitajn en teksta redaktilo la komputilo memoras kiel numerojn; al ĉiu signo apartenas iu numero, ekzemple „A“ estos 65, „B“ estos 66,... kaj la teksta dosiero estas konservita al disko kiel sinsekvo de numeroj, poste estas ŝargita de disko kiel sinsekvo de numeroj; kaj ankaŭ tra interreto estas sendita kiel la sinsekvo de numeroj.

La problema parto estas, al kiu signo apartenas kiu numero. Pro historiaj kialoj ekzistas kelkaj malsamaj normoj. Ĉiu subtenas iun aron de signoj kaj apartenigas iel al ili numerojn. La 8-bitaj normoj celas uzi nur numerojn 0 ĝis 255 – kompreneble tio ne sufiĉas por ĉiuj literoj, do la unuopa normo nur subtenas literojn de kelkaj lingvoj. Ĉapelitaj literoj de Esperanto ne estas subtenataj fare de kodigoj de MS Windows. (Se vi skribos ĉapelitajn literojn en TXT dosiero kaj konservos ĝin, ili malaperos.) La „sud-Eŭropaj“ versioj de Linukso kutime uzas normon de ISO „ISO-8859-3“, subtenantan ĉapelitajn literojn.

Krom tio ekzistas normo Unikodo, celanta enhavi ĉiujn literojn de ĉiuj alfabetoj; unu el ĝiaj kodigoj estas „UTF-8“. Se vi konservos la tekstan dosieron en UTF-8, ĝi povas esti skribita en ajna lingvo. Do mi rezolute rekomendas uzi tiun ĉi kodigon.

Grave estas, ke la retumilo de la vizitanto de via paĝo sciu, en kiu kodigo la paĝo estis kreita. Hodiaŭaj retumilo kutime komprenas multajn kodigojn, kaj la uzanto povas elekti la ĝustan kodigon de la menuo. Sed se vi specifas la ĝustan kodigon en la paĝo mem, la vizitanto de devas elekti ion ajn, ĉar tio elektiĝos aŭtomate. Do se vi uzas la kodigon „ISO-8859-3“, bonvolu skribi en la kapo de la paĝo:

<meta equiv="Content-Type" content="text/html; charset=ISO-8859-3"/>

En MS Windows, se vi volas konservi la paĝon en la kodigo UTF-8, en programo Notilo (Notepad) elektu en menuo „Dosiero | Konservu kiel...“ kaj en la malsupra parto elektu „Kodigo: UTF-8“. Tion faru je la unua konservigo de la dosiero, poste la programo jam memoros tion. Kaj en la kapo de la paĝo skribu:

<meta equiv="Content-Type" content="text/html; charset=UTF-8"/>

2 Comments:

Blogger Kolonjano said...

S'n,

jen kelkaj eraroj, kiujn mi rimarkis legante tiun ĉi afiŝon:

"surretem" -> "surrete"

"demand-markoj" -> "demandosignoj"

"iu alias" -> "iu alia"

"tiu ne sufiĉas" -> "tio ne sufiĉas"

"verzioj" -> "versioj"

"subtenantan" -> "subtenanta"

"elektiĝo" -> "elektiĝos"

"el la kapo" -> "en la kapo"

Krome tute bona prezento de la problemo.

Ĝis,
Kolonjano

2:02 PM  
Blogger Viliam Búr said...

Dankon!

12:12 AM  

Post a Comment

<< Home