Category Archives: metode de vizualizare

Experimentul Eminescu (1)

Zilele acestea mă las în totalitate fascinat de Processing. Pare a fi cel mai accesibil limbaj de programare pentru începători. Cel mai motivant aspect al Processingului este feedbackul foarte rapid pe care îl primesti de la cele câteva linii de cod pe care, ca începător, înveți să le scrii. Plus că se găsesc foarte multe coduri sursă cu care poti experimenta, începând de la cele de pe OpenProcessing pâna la codurile sursa ale unor giganți cum ar fi Flight 40 sau Jeremy Thorp.
Bineînțeles că ești mult mai motivat să înveți ceva dacă ai un proiect clar în minte. Azi mi-am amintit cum în liceu ni se spunea că Eminescu a reușit să își scrie întreaga operă folosind în jur de 5.000 de cuvinte (s-ar putea să îmi amintesc greșit sau să fi fost o informație falsă). Oricum ar fi, m-am gândit că e o bună provocare să folosesc processing pentru a analiza cât mai mult din opera sa și pentru a reda rezultatele cât mai spectaculos. E un bun început și poate vor fi și alții interesați de rezultate.

Scopuri:

  • să învăț comenzile legate de manipularea textului.
  • să realizez diverse statistici legate de corpusului unui text (să obțin numărul total de caractere, de cuvinte, numărul de ocurențe a fiecărui cuvânt, legăturile dintre diverse cuvinte, sa se facă automat distincția între diverse poezii și și acestea să poată fi analizate separat).
  • să redau aceste statistici sub formă grafică (cuvintele cele mai folosite să umple o imagine vectorială).

Opțional:

  • să realizez o interfață interactivă pentru analizarea corpusului de texte.

Primul lucru pe care l-am făcut a fost să caut o colecție cât mai mare a operelor sale. Bineînțeles, am preferat un format digital. Există un CD-ROM cu operele sale complete. Am intrat în posesia fișierului eminescu.iso. Interfața este doar pentru Windows, dar oricum nu cred ca mi-ar fi fost de mare ajutor. Din fericire informația este destul de accesibilă. În structura CD-ului există un director Program files > PETAR > Eminescu > DATA > OPERE cu multe fișiere HTML. Din păcate aceste fișiere sunt cam dezordonate și fiind o ediție critică conțin multe note de care nu am nevoie. Am căutat mai departe.

Pe WikiSource am găsit pagina dedicată lui Eminescu, cu multe texte. Dar cum sunt peste 500 de linkuri, am avut nevoie de o metodă rapidă de a salva toate fișierele din browser. Cea mai eficientă a fost pluginul de Firefox DownThemAll!. Foarte rapid am obținut toate paginile cu texte pornind de la pagina principală. Ceea ce m-a interesat in continuare a fost să obțin un fișier .txt care să conțină toate textele descărcate. Le-am deschis pe toate în Pages, dar cred ca la fel ar funcționa și în Word. Pages a recunoscut doar textul din interiorul fișierelor .html, igonorând tagurile. Printr-un șir de “Find and replace” am reușit să curăț acceptabil textul. Totuși, va mai dura o vreme până când voi avea o variantă măcar beta a textului de folosit.
De ce am nevoie de o versiune în format .txt a textului? Pentru că Processing are o grămadă de opțiuni foarte utile, există deja o tradiție de analizare a clasicilor cu ajutorul acestor unelte  (Shakespeare a fost deja supus unui tratament mult mai riguros). Uneori rezultatele sunt de-a dreptul spectaculoase.

.

Hip-hop: care MC e cel mai bun?

Cei de la Staple Crops au iniţiat un proiect foarte interesant. Au luat versurile unor MC (Notorious Big, Tupac, Rakim, Jay-Z, Barack Obama) celebri şi le-au analizat: câte cuvinte folosesc, câte silabe are în medie fiecare cuvânt, care e nivelul de educaţie al ascultătorului necesar pentru a recepta corect mesajul. Mai jos sunt afişate câteva dintre exemplele de pe siteul lor.

Notorious BIG : Warning

Tupac Shakur: Trapped

Mai multe exemple:
Continue reading