2 august 2004

Elogiul nebuniei

Pe 1 august 2004, echipa de voluntari a DEX online a terminat de cules şi transpus pe internet ediţia 1998 a Dicţionarului explicativ al limbii române. Acesta conţine 65531 definiţii însumând circa 1200 pagini şi 13,5 milioane de caractere. Prin comparaţie, Biblia are circa 4 milioane de caractere.

Proiectul DEX online a debutat acum trei ani sub deviza "e cazul". Pentru toţi românii din România şi din afara ei care doresc să-şi vorbească limba puţin mai bine, existenţa pe internet a unui dicţionar explicativ nu este un moft, ci o necesitate. Cineva trebuia să facă acest efort şi noi am fost aceia. Din păcate, am fost nevoiţi să alegem calea mai puţin netedă, care în esenţă a presupus retastarea de la zero a tuturor definiţiilor.

Am demarat proiectul DEX online pe 28 august 2001, cu serioase îndoieli că se vor găsi suficienţi oameni cu devotament şi timp liber care să contribuie la acest efort. Şi totuşi, entuziasmul a zeci de oameni a depăşit orice închipuire. În calitate de iniţiator al proiectului, doresc să le mulţumesc din inimă tuturor acestor oameni -- jucători de scrabble, rebusişti, programatori, bibliografi, traducători. Dacă aţi fost alături de DEX online din primele zile şi vă mai amintiţi că la început fundalul era mov; :) dacă v-aţi alăturat nouă în ultimele luni şi aţi scurtat enorm timpul necesar pentru completare; dacă aţi contribuit cu definiţii însumând milioane de litere (sensibil mai mult decât Un veac de singurătate); dacă ne-aţi ajutat numai cu o definiţie, o sugestie sau un mesaj de încurajare, vă mulţumim pentru că aţi fost alături de DEX online.

Dacă vreodată aţi scris un mesaj pe o listă de discuţii argumentând de ce DEX online nu are nici un viitor şi este o nebunie, vă mulţumim în mod deosebit. Ne-aţi făcut să spunem "ei da?" şi ne-aţi dat un binevenit spor de adrenalină :) Şi mai ales, aţi pus punctul pe i, arătând exact ce este DEX online: o idee nebună în care o mână de entuziaşti au crezut suficient încât să o ducă la îndeplinire.

Dacă vreodată DEX online v-a fost de folos, lor trebuie să le mulţumiţi. Ei şi-au rupt ore din timpul lor şi al familiei lor pentru a le dedica limbii române şi celor care o vorbesc. Ei au privit dincolo de efortul sisific şi au văzut roadele. O parte din ei, cei care au cules efectiv definiţiile, sunt listaţi aici. O altă parte, cei care au adăugat bucăţi de cod la DEX online pentru a-l face mai util şi mai atractiv, sunt listaţi aici.

Ce facem mai departe? Mai întâi, ne odihnim. Pe urmă, avem multe extensii în curs de dezvoltare. Există multe dicţionare valoroase în afară de DEX şi sperăm să vi le oferim într-un viitor nu prea lung. De asemenea, pornind de la baza de cuvinte existentă, dorim să producem un corector ortografic pentru limba română. Avem deja programe-client care pot descărca întreaga bază de date a DEX online, pentru ca aceia dintre noi care nu au o legătură permanentă la internet să poată beneficia offline de acest dicţionar. Şi aici mai este mult loc pentru îmbunătăţiri. Sperăm că voi ne veţi da idei şi pentru alte direcţii de dezvoltare. Baza de date a DEX online este liberă. Folosiţi-o oriunde vă trebuie.

Şi, pentru că fiecare din noi, la orice vârstă şi indiferent de preocupări, tot de cei dragi caută să se înconjure, profit de ocazie pentru a mulţumi familiei mele şi tuturor prietenilor mei. Slavă Domnului, nu-s puţini, şi m-am sustras de nenumărate ori de la obligaţii familiale şi prieteneşti pentru a mai lucra un pic la DEX online. Nu ştiu de câte ori mi-au auzit urechile cuvântul geek în aceşti ani.

Mai ales, vreau să-i mulţumesc Dariei. Cea mai mare scăpare a Dicţionarului explicativ al limbii române este că au uitat să pună o poză a ei lângă cuvântul răbdare.

24 iunie 2004

9 iunie 2004

50.000 de cuvinte! Si, ca de obicei, www.scrabble.ro au fost primii care au consemnat evenimentul.

Am adaugat campuri in tabela si cod pentru contorizarea numarului de afisari ale fiecarei definitii. Sunt contorizate numai cautarile reusite (cand a existat cel putin un rezultat) si cele cu expresii regulate. Pe primele locuri incep sa se detaseze, desigur, obscenitatile :)

Ce software foloseste DEX online? Lista a ajuns la dimensiuni impresionante:

- Fedora Linux (sistemul de operare)
- Apache httpd (serverul de web)
- MySQL (baza de date)
- PHP (paginile de web)
- gcc (compilatorul de C, pentru unele bucati de cod)
- emacs (editorul de texte)
- Smarty (generatorul de sabloane PHP)
- PHP Accelerator (caching; merge de minune in combinatie cu Smarty)
- zip/gzip/bzip2 (pentru comprimarea bazei de date)
- CVS (pentru intretinerea codului si editarea lui in mai multi clienti simultan)
- Galeon, Mozilla (browsere de web, pentru testare)
- ABBYY FineReader (OCR - singurul program comercial din lista!)

Aceasta spune multe despre ce inseamna Open Source si care e frumusetea sa.

27 mai 2004

Gata si cu litera L.

Ma gandesc din ce in ce mai serios sa nu mai accept definitii decat din paginile scanate. Pe de o parte, ar fi pacat pentru ca s-ar pierde spiritul heirupist, "oricine vrea poate sa contribuie". Acum nu ar mai putea contribui decat cine s-ar angaja sa faca o pagina intreaga. Pe de alta parte, insa, moderarea definitiilor scanate merge mult mai repede (de 5-6 ori).

19 mai 2004

Câţiva dintre voluntari au introdus sute de mii de caractere, maximul fiind de două milioane. Numărul în sine nu spune mult. Ajută însă dacă ne gândim că două milioane de caractere înseamnă vreo 800 de pagini de carte în format normal (RAO, de exemplu).
Eu unul am introdus vreo 300.000 de caractere în trei ani de zile şi, recunosc, m-am plictisit de moarte. Răbdarea e o virtute rară.

Astăzi am scris prima oară în blog. M-am hotărât să creez acest blog pentru că, la nici trei ani de la înfiinţare, DEX online creşte cu o viteză uluitoare şi capătă ajutor din cele mai neaşteptate surse. Nici în visurile mele cele mai optimiste nu am crezut că atâta lume se va mobiliza. Este impresionant că, pe lângă introducerea de cuvinte, fiecare a ajutat aşa cum s-a priceput mai bine, venind cu idei proprii pentru îmbogăţirea DEX online. Toţi aceşti oameni merită ca efortul lor să fie făcut cunoscut, iar odiseea DEX online să fie consemnată.

Începând de aici, am să încerc să rămân la zi cu evoluţia proiectului, dar şi să completez retroactiv jurnalul cu lucrurile care s-au întâmplat înaintea apariţiei lui. Jurnalul va creşte, deci, în ambele sensuri. Scrisul cu diacritice mă încetineşte mult, mai ales că nu pot scrie decât de pe un calculator cu Windows.

18 mai 2004

Aplicaţiile off-line încep să prindă contur. Astăzi am adăugat un script pe server cu care clienţii pot comunica pentru a transfera integral sau parţial baza de date. În cazul ideal, un client va transfera prima oară baza de date completă, apoi se va conecta periodic pentru a prelua cele mai noi definiţii adăugate. Avantajele acestei abordări sunt că (1) toţi clienţii vor ocupa foarte puţin loc şi (2) fiecare utilizator îşi poate sincroniza baza de date oricât de des doreşte, fără a fi nevoit să aştepte următoarea versiune a clientului.

A fost nevoie ca Gecko să mă bată în repetate rânduri la cap pentru a mă urni să implementez scriptul ăsta. Problema cea mai mare zilele astea este că, tocmai fiindcă primim atât de mult ajutor şi lumea vine cu atât de multe idei, este nevoie de multă muncă pentru a extinde codul. Lista de cuvinte LOC3 stă şi acum nefolosită...

17 mai 2004

Mi se pare incredibil că unul dintre cei mai activi voluntari este un austriac care munceşte în Taiwan (Christian). Dânsul vorbeşte alte trei limbi romanice, iar interesul pentru limba română i-l datorează unui coleg şi bun prieten. Christian ne-a semnalat până acum mii de greşeli de tipar şi a început lucrul sistematic la litera C.