Tag Archives: Processing

Experimentul Eminescu (1)

Zilele acestea mă las în totalitate fascinat de Processing. Pare a fi cel mai accesibil limbaj de programare pentru începători. Cel mai motivant aspect al Processingului este feedbackul foarte rapid pe care îl primesti de la cele câteva linii de cod pe care, ca începător, înveți să le scrii. Plus că se găsesc foarte multe coduri sursă cu care poti experimenta, începând de la cele de pe OpenProcessing pâna la codurile sursa ale unor giganți cum ar fi Flight 40 sau Jeremy Thorp.
Bineînțeles că ești mult mai motivat să înveți ceva dacă ai un proiect clar în minte. Azi mi-am amintit cum în liceu ni se spunea că Eminescu a reușit să își scrie întreaga operă folosind în jur de 5.000 de cuvinte (s-ar putea să îmi amintesc greșit sau să fi fost o informație falsă). Oricum ar fi, m-am gândit că e o bună provocare să folosesc processing pentru a analiza cât mai mult din opera sa și pentru a reda rezultatele cât mai spectaculos. E un bun început și poate vor fi și alții interesați de rezultate.

Scopuri:

  • să învăț comenzile legate de manipularea textului.
  • să realizez diverse statistici legate de corpusului unui text (să obțin numărul total de caractere, de cuvinte, numărul de ocurențe a fiecărui cuvânt, legăturile dintre diverse cuvinte, sa se facă automat distincția între diverse poezii și și acestea să poată fi analizate separat).
  • să redau aceste statistici sub formă grafică (cuvintele cele mai folosite să umple o imagine vectorială).

Opțional:

  • să realizez o interfață interactivă pentru analizarea corpusului de texte.

Primul lucru pe care l-am făcut a fost să caut o colecție cât mai mare a operelor sale. Bineînțeles, am preferat un format digital. Există un CD-ROM cu operele sale complete. Am intrat în posesia fișierului eminescu.iso. Interfața este doar pentru Windows, dar oricum nu cred ca mi-ar fi fost de mare ajutor. Din fericire informația este destul de accesibilă. În structura CD-ului există un director Program files > PETAR > Eminescu > DATA > OPERE cu multe fișiere HTML. Din păcate aceste fișiere sunt cam dezordonate și fiind o ediție critică conțin multe note de care nu am nevoie. Am căutat mai departe.

Pe WikiSource am găsit pagina dedicată lui Eminescu, cu multe texte. Dar cum sunt peste 500 de linkuri, am avut nevoie de o metodă rapidă de a salva toate fișierele din browser. Cea mai eficientă a fost pluginul de Firefox DownThemAll!. Foarte rapid am obținut toate paginile cu texte pornind de la pagina principală. Ceea ce m-a interesat in continuare a fost să obțin un fișier .txt care să conțină toate textele descărcate. Le-am deschis pe toate în Pages, dar cred ca la fel ar funcționa și în Word. Pages a recunoscut doar textul din interiorul fișierelor .html, igonorând tagurile. Printr-un șir de “Find and replace” am reușit să curăț acceptabil textul. Totuși, va mai dura o vreme până când voi avea o variantă măcar beta a textului de folosit.
De ce am nevoie de o versiune în format .txt a textului? Pentru că Processing are o grămadă de opțiuni foarte utile, există deja o tradiție de analizare a clasicilor cu ajutorul acestor unelte  (Shakespeare a fost deja supus unui tratament mult mai riguros). Uneori rezultatele sunt de-a dreptul spectaculoase.

.

Analizarea artefactelor culturale cu ajutorul tehnologiilor digitale

Ieri am avut o prezentare de aproximativ 35 de minute în cadrul Seminarului de Cercetare Calitativă Analizarea artefactelor culturale cu ajutorul tehnologiilor digitale (PDF, 17 MB) s-a dorit a fi o înșiruire de exemple de bune practici legate de vizualizarea sub noi forme a artefactelor culturale specifice științelor umaniste. În timpul prezentării am încercat să demonstrez că există o legătură între faptul că științele naturale au folosit de la bun început metode de vizualizare a informației și evoluția lor. Apoi am oferit exemple de vizualizare a informațiilor din științele umaniste, mai ales din perspectiva analiticii culturale (cultural analytics e în prezent foarte folosită de Lev Manovich) și a infografiei (infographics). Am atras atenția că diferența dintre metodele clasice de vizualizare a informației (tabelul sau graficele derivate din acestea – piecharts, de exemplu) și infografii e că în infografii legenda se găsește în interiorul reprezentării grafice. În final am prezentat câteva exemple de reprezentări interactive a arhivelor realizate în Processing (Commons Explorer), încheind cu cel mai complex proiect, We Feel Fine.

Mai jos sunt imaginile din slideshowul folosit. Pentru linkuri complete la exemplele folosite, vă rog accesați versiunea pdf.