“Word format” ili (ponovno) o problemu formata elektroničkih dokumenata
S obzirom da sam zadnjih tjedana imao kojekakvih okapanja oko jednog svog teksta, koji je po uputama uredništva kojemu sam ga namijenio, trebao biti poslan u, kako bi oni rekli, “word formatu”, odlučio sam još jednom, ovaj puta u Zarezu, upozoriti našu javnost na problem s formatima elektroničkih dokumenata koji se koriste u javnoj komunikaciji ovdje u Hrvatskoj. Običaj korištenja “vlasničkih” formata elektroničkih dokumenata (detaljniju definiciju ovih pojmova vidi nešto niže) pri razmjeni podataka između “fizičkih” i “pravnih” osoba, predstavlja vrlo značajan problem koji u našoj javnosti, iz raznih razloga, nije prepoznat pa se zato i ne uspijeva riješiti na najprikladniji način. Taj se problem pojavljuje gotovo na svakom koraku - i u privatnoj komunikaciji, i u komunikaciji s raznim manje ili više službenim instancama (s predstavnicima raznih organizacija, tajništvima udruga, uredništvima časopisa), i u javnim institucijama, i u obrazovnom sustavu, i u poslovnom svijetu - primjerice (što je posebno problematično) pri “službenoj” razmjeni podataka s FINOM ili Poreznom upravom, koje su ne samo neke takve formate, nego i određenu “klasu” vlasničkih operativnih sustava za (PC) računala praktički proglasili obaveznima za primjenu u našem gospodarstvu. Nejasno je zbog čega se ovaj problem nikako ne uočava, odnosno zašto mu se ne poklanja primjerena pažnja. Možda je stvar u tome što u nas još uvijek vlada uvriježeno mišljenje kako su .doc i još eventualno .pdf jedini (“normalni”) formati elektroničkih dokumenata pa se oni kao takvi u elektroničkoj komunikaciji i podrazumijevaju - često se u kojekakvim “uputama” uopće eksplicitno i ne navodi u kojem se formatu tekstovi primaju, a kad se pošalju u nekom “krivom”, onda se ignoriraju (u ovom se smislu posebno zabavnima pokazuju pokušaji komuniciranja s “institucijama hrvatske kulture”). Međutim, treba naglasiti kako se u slučaju .doc formata radi o vlasničkom (proprietary) formatu dokumenata za koji ne postoji detaljna specifikacija (premda su neki njezini dijelovi objavljeni), zbog čega se pri njegovom korištenju javljaju brojni problemi, ne samo “tehničke”, nego i “pravne” prirode, dok je .pdf format tvrtke Adobe (do pred nekoliko godina također vlasnički) pogodan samo za dokumente koje nije potrebno mijenjati (editirati). Zbog toga se nameće potreba izbora i usvajanja jedinstvenog formata za elektroničke dokumente, koji će se koristiti u javnoj komunikacije u našoj zemlji, a koji će biti otvoren (slobodan) i prikladan za sve vrste dokumenata, odnosno za sve ili većinu mogućih primjena.
Sve je počelo od jedinice i nule... Pošto se čini da čak ni oni od kojih bi se to moglo i moralo očekivati, ne razumiju što su to formati elektroničkog dokumenta, ili općenitije, formati “datoteke”, kao skupa istovrsnih podataka koji se zajedno čuvaju u elektronskom obliku, ovdje ćemo malo detaljnije rastumačiti značenje ovoga pojma.
Poznato je da sve informacije koje se unose u elektroničko računalo, moraju biti pretvorene u binarnu formu (u niz “jedinica i nula”). Primjerice, da bi se napisani tekst mogao spremiti na magnetskom mediju računala i kasnije pravilno “reproducirati”, na njegovom zaslonu ili na pisaču (printeru), potrebno je svako slovo, tj. tekstualni znak, prema nekoj konvenciji pretvoriti u određeni binaran “obrazac”, pri čemu se slaganjem tih obrazaca dobije cjelina teksta u elektroničkom obliku, kao što se cjelina teksta na papiru dobije slaganjem slova. Da bi se ovaj postupak mogao provoditi na jednoznačan način, nužno je uvesti standard, odnosno konvenciju prema kojoj se ovakva pretvorba odvija. Tako su tokom vremena stvoreni razni standardi koji se odnose na pretvorbu tekstualnih znakova u binarnu formu. Prvi među njima, koji je ujedno poslužio i kao osnova za sve ostale, bio je tzv. ASCII standard (ASCII je kratica za American Standard Code for Information Interchange), stvoren šezdesetih godina prošlog stoljeća, kod kojega je svaki znak predstavljen binarnim obrascem od 7 bita (tj. sa sedam binarnih znamenaka) - primjerice slovu A je pridružen obrazac 1000001, kojemu u decimalnom obliku odgovara broj 65, slovu B obrazac 1000010 kojemu odgovara broj 66 itd. Ukupan broj znakova koji ASCII standard može obuhvatiti iznosi 27 = 128. Ovaj broj se pokazao nedostatnim kad je bilo potrebno uvesti razne druge tekstualne znakove i simbole, kao što su recimo “hrvatska” slova s dijakritičkim znakovima ili slična takva slova u drugim jezicima. Tako su nastale razne “kodne stranice”, odnosno ISO standardi kod kojih su tekstualni znakovi predstavljeni s 8 bita (tj. jednim byteom) informacije, a postoje i oni kod kojih imamo 16, 24 ili 32 bita (UTF-8 kao “realizacija” Unicode standarda). Međutim, danas više nije važno samo kako će se u elektroničkom obliku predstaviti pojedina slova ili znakovi, već i kako će tekst koji pišemo izgledati na zaslonu, odnosno ispisan na papiru. Tu su u igri još i veličine teksta, vrste fontova, širine margina, poravnanja paragrafa, dimenzije i prijelomi stranica te mnoštvo drugih “standardnih” i “naprednih” opcija za koje zna svatko tko je ikada pisao u nekom tekst procesoru poput OpenOffice Writera. Prema tome, elektronički dokument osim samog teksta u binarnoj formi, mora, u istoj toj formi, sadržavati još brojne druge informacije potrebne da bi mogao biti prikazan u prikladnom obliku. Format elektroničkog dokumenta predstavlja konvenciju (standard) prema kojoj se sve te informacije definiraju i “kodiraju” unutar datoteke koja predstavlja dotični elektronički dokument. Ova definicija odnosi se i na sve ostale vrste datoteka, kao što su izvršne, podatkovne, grafičke, audio/video datoteke i drugo.
Otvoreni i zatvoreni formati Problem s formatima dokumenata nastaje zbog činjenice da su ih “ustanovljavale” razne organizacije i softverske kompanije pa je tako nastalo mnoštvo različitih formata za elektroničke dokumente koji su međusobno “inkompatibilni”. I ne samo to, već su neke kompanije odbile javno obznaniti detaljne specifikacije svojih formata te su ih zaštitile i zakonski, čime su nastali tzv. zatvoreni odnosno vlasnički (proprietary) formati dokumenata za čije je korištenje potreban softver (redovno također vlasnički) kompanije koji je taj format izmislila. Onima koji bi željeli dokument u istom tom formatu kreirati i uređivati pomoću svojih vlastitih programa, to je praktički onemogućeno. Kao što smo već rekli, “uobičajeni” .doc format predstavlja primjer jednog upravo takvog formata dokumenata. Prema tome, zahtjev koji smo ranije istaknuli - da se za potrebe normalne javne komunikacije u elektroničkom obliku odredi jedinstven standardni format dokumenata koji bi bio slobodan, tj. takav da se svatko njime može služiti bez ikakvih ograničenja i da mu je specifikacija poznata, u ovom se svjetlu pokazuje kao jedan neizbježan korak koji će se morati učiniti kad-tad (što prije - to bolje).
Format koji se ovdje sam nameće je Open Document Format (ODF odnosno .odt za tekstualne dokumente), temeljen na prilično popularnom jeziku za “označavanje podataka” koji se naziva xml (Extensible Markup Language). Ovaj format inače ima vrlo široku primjenu, posebno na području Evrope i Sjeverne Amerike - preporučuju ga sve nadležne evropske institucije, a NATO ga koristi kao svoj službeni standard. Premda se ovaj format može kreirati i čitati i pomoću nekih “vlasničkih” softverskih paketa (za “uredske poslove”), zbog stanovite bi se nekompatibilnosti, u službenim primjenama trebalo također propisati da se u radu s ovakvim dokumentima koristi isključivo slobodni softverski paket OpenOffice, odnosno LibreOffice.
OpenOffice je uredski paket čiji je razvoj započela njemačka tvrtka Star Division još sredinom osamdesetih godina prošlog stoljeća, da bi ga 1999. kupila velika američka informatička tvrtka Sun Microsystems, koja je nešto kasnije izvorni kod toga programa proglasila otvorenim i njegov razvoj prepustila “open source” zajednici. Taj se razvoj nastavio duže vrijeme uz potporu Suna, a kasnije i Oraclea, da bi pred godinu-dvije ovaj projekt došao pod pokroviteljstvo Apache Software Fundacije. Najnovija verzija ovoga uredskog paketa danas nosi oznaku 3.4.1. LibreOffice i predstavlja “fork” projekta OpenOffice, nastalog 2010., čiji je motiv izgleda prvenstveno predstavljala vezanost projekta OpenOffice uz velike igrače u softverskom biznisu. Prednost LibreOffice predstavlja “bolja” licenca pod kojom se taj softver nalazi - osim GNU LGPLv3, različite verzije OpenOfficea stavljene su i pod neke specifične licence (Sunova, Apacheova) - te značajnija podrška “free software”/”open source” zajednice, zbog čega se on razvija znatno dinamičnije u odnosu na svoga “parenta”. Najnovija verzija LibreOfficea danas je 4.0.1.
Prihvaćanje slobodnog softvera Još jedan format koji bi po mišljenju i preferencijama autor ovoga teksta trebao biti bolje prihvaćen u radu s elektroničkim dokumentima je .tex format. Ovaj format široko se primjenjuje u prirodoznanstvenoj zajednici, jer ima velike mogućnosti za rad s matematičkim izrazima, no to ne predstavlja prepreku da se koristi i za pisanje tekstova druge vrste. .tex format i cijeli TeX sustav (radi se o još jednom sustavu za obradu teksta) razvio je američki softverski stručnjak Donald E. Knuth krajem sedamdesetih godina prošlog stoljeća i on je tokom osamdesetih postao standardnim dijelom većine operativnih sustava za računala baziranih na UNIX-u. TeX je danas dogurao do verzije 3.1415926. Prednosti TeX/LaTeX sustava (LaTeX je dodatak TeX-u koji uključuje dodatne opcije za rad s tekstom), odnosno .tex formata predstavljaju njegova jednostavnost (uz male zahtjeve na hardverske resurse), “postojanost” (u slučaju “grafičkih” tekst procesora, često su se “kroz povijest”, u različitim verzijama, mijenjali osnovni formati dokumenata, dok je .tex format već nekoliko desetljeća isti) te prikladnost za integraciju u razne (slobodne) softverske projekte.
Međutim, treba ipak priznati da ovaj format/sustav nije primjeren za najširi krug korisnika, premda postoje grafička sučelja pomoću kojih se rad u TeX/LaTeX-u pojednostavljuje (poput onoga pod nazivom Kile). Možda bi popularnosti ovoga sustava pridonijelo neko znatno usavršenije grafičko sučelje te bolji konverteri između standardnih formata dokumenata i .tex-a (ovo je dakle još jedan od zadataka za razvoj slobodnih softverskih rješenja).
Recimo na kraju da bi usvajanje ovih “standarda” predstavljalo značajan doprinos akciji razbijanja staklene fasade (ili zgrade) tzv. “softverskog biznisa”, što je očito nužno da bi stvari u suvremenoj informatici napokon došle “na svoje mjesto”. A kad se u tome uspije, kad koncepcija slobodnog softvera bude prihvaćena u potpunosti, zasigurno će biti stvorena mogućnost da na svoje mjesto dođu i mnoge druge stvari. Na taj bi način i ukupnost života ovoga našeg društva mogla polako postajati sve normalnija i bolja pa i usprkos tolikim očiglednim naporima i zalaganjima onih koji to ne žele.