Legea lui Zipf și dominația națiunilor în Turul Franței. O analiză surprinzătoare a câștigătorilor

Legea lui Zipf și dominația națiunilor în Turul Franței. O analiză surprinzătoare a câștigătorilor

Franța. Dacă te uiți de unde provin câștigătorii celei mai faimoase curse de ciclism din lume, apare un tipar surprinzător de comun. Turul Franței este, fără îndoială, cea mai faimoasă cursă de ciclism din lume. Sportivi din diferite țări ale lumii se înfruntă pe parcursul unei curse de trei săptămâni pentru faimosul tricou galben.

Ca mulți alți fani, îmi încep vara citind despre cursa care se apropie. Dar recent am dat peste un grafic pe care nu îl mai văzusem niciodată. Acesta vizează numărul de victorii din Tur în funcție de națiune. Ceea ce m-a frapat a fost arcul lin al curbei pe măsură ce scădea de la stânga la dreapta.

Ce stat a câștigat de cele mai multe ori Turul Franței?

În special, am observat că Belgia, țara clasată pe locul doi în ceea ce privește numărul de victorii, a obținut exact jumătate din cele 36 de victorii obținute de rutierii francezi. Următoarea țară cu cel mai mare număr de tricouri galbene este Spania. A avut exact o treime (12) din numărul de victorii ale Franței. Italia, următoarea națiune pe listă, a avut doar cu puțin mai mult de un sfert (10) din numărul victoriilor franceze.

Distribuția celor 103 câștigători ai Turului Franței în funcție de naționalitate - excluzând șapte victorii ale lui Lance Armstrong - produce un model care amintește de legea lui Zipf, Sursa foto BBC

Distribuția celor 103 câștigători ai Turului Franței în funcție de naționalitate - excluzând șapte victorii ale lui Lance Armstrong - produce un model care amintește de legea lui Zipf, Sursa foto BBC

Acest lucru mi-a amintit foarte mult de o distribuție misterioasă și omniprezentă la care par să se conformeze multe seturi de date din lumea reală. „Legea lui Zipf” este probabil cel mai bine cunoscută pentru a caracteriza frecvența cuvintelor într-un text scris. În acest context, legea afirmă că, pentru un text suficient de mare, atunci când cuvintele sunt aliniate în ordinea descrescătoare a frecvenței, acestea prezintă un model special. Mai exact, al doilea cuvânt ca frecvență apare aproximativ la jumătate față de cel mai frecvent. Al treilea cuvânt cel mai frecvent apare cu aproximativ o treime mai des decât primul. Al patrulea apare cu un sfert mai des și așa mai departe. Așa cum am văzut în cazul câștigătorilor Turului Franței.

Ne puteți urmări și pe Google News

Legea lui Zipf

Pentru a o pune la încercare, am constatat o concordanță uimitor de bună cu legea lui Zipf. Cel mai frecvent cuvânt pe care l-am folosit în carte a fost „the” - de 6.691 de ori. Pe locul al doilea s-a situat cuvântul „de”, cu 3.330 de apariții. A fost folosit de jumătate din numărul de apariții ale cuvântului „the”. Cuvântul „to” a urmat cu 2.445 de apariții, puțin peste o treime din frecvența lui „the”. De altfel, cuvintele „viață” și „matematică” s-au înregistrat de 64 de ori. În același timp, termenul „moarte” a apărut doar de 42 de ori, în ciuda faptului că titlul cărții este „Matematica vieții și a morții”.

Într-un text suficient de mare este mult mai puțin probabil ca un cuvânt rar precum „uimitor”. Legea lui Zipf este că există mult mai multe cuvinte rare decât cuvinte comune. Într-adevăr, legea lui Zipf sugerează că acești factori se echilibrează reciproc. Astfel încât, dacă extragem un cuvânt la întâmplare dintr-un text, este la fel de probabil să fie unul dintre multele cuvinte rare ca și unul dintre cele câteva cuvinte comune.

Lege de putere generală

Legea lui Zipf privind frecvența cuvintelor într-un text mare este universală. Aceasta nu este valabilă doar pentru limba engleză. Se pare că este valabilă și pentru multe alte limbi. Este vizată chiar și pentru limba artificială Esperanto. În mod fascinant, această relație aproape magică nu se limitează doar la cuvintele dintr-un text. Așa cum am văzut cu exemplul Turului Franței. De asemenea, s-a raportat că a fost găsită în scenarii extrem de diverse. Printre acestea se află numărul de lucrări scrise de oamenii de știință, mărimea populației așezărilor, lungimea secvențelor de aminoacizi legate de imunitate și chiar diametrul craterelor de pe Lună.

Legea lui Zipf este un caz special al unei reguli mai generale numită lege a puterii. În acest context, legile de putere sugerează că o variabilă variază invers cu o altă variabilă ridicată la o anumită „putere” matematică.

Cum se aplică legea lui Zipf în cazul gravitației Pământului?

Pentru gravitație, cu cât distanța de la centrul Pământului este mai mică, cu atât atracția este mai puternică. În timp ce cu cât distanța este mai mare, cu atât atracția este mai slabă. Legea puterii lui Zipf pentru cuvintele dintr-un text mare este un caz special pentru care „puterea” sau „exponentul” din legea puterii este unu. Aceasta înseamnă că dublarea unei variabile o înjumătățește pe cealaltă. Astfel, triplarea primei o reduce pe a doua cu o treime.

Cu toate acestea, pentru o lege de putere generală, acest lucru nu este, de obicei, cazul. „Legea pătratului invers” a gravitației, de exemplu, urmează o lege a puterii al cărei exponent este doi. Dacă v-ați îndepărta de două ori mai mult de centrul Pământului față de locul în care vă aflați în prezent, forța pe care ați resimți-o în noua poziție ar fi de patru ori mai slabă decât în locul în care vă aflați acum. Dacă vă deplasați la o distanță de trei ori mai mare, forța va fi de nouă ori mai slabă.

Care este impactul legii de putere generală?

S-a constatat că legile puterii descriu o gamă largă de seturi de date generate în mod natural. Ele sunt de la variația diversității speciilor în funcție de suprafața habitatului la frecvența numărului de tornade pe zi în Statele Unite și chiar modul în care numărul de artiști variază în funcție de prețul mediu al lucrărilor lor. Analizând datele privind războaiele din perioada 1809-1949, Lewis Richardson a constatat că frecvența conflictelor fatale variază în funcție de numărul de persoane ucise, conform unei legi de putere cu exponentul ½.

S-a constatat că războaiele în care au murit un milion de oameni sunt de 10 ori mai puțin probabile decât războaiele în care au murit 10.000 de oameni. Poate una dintre cele mai importante legi ale puterii descoperite vreodată a fost publicată de Charles Richter și Beno Gutenberg în 1956. Ea descrie modul în care frecvența cutremurelor variază în funcție de magnitudinea lor.

Este clar că legile puterii sunt importante pentru descrierea unei game largi de fenomene din lumea reală. Totuși, de ce par să fie atât de omniprezente? Matematic, se poate demonstra că legile puterii apar atunci când sistemele prezintă invarianță la scară sau autosimilaritate. Sistemele care prezintă aceste proprietăți conexe arată la fel (sau aproximativ la fel) atunci când le mărim sau le micșorăm.

Liniile de coastă la Turul Franței

Liniile de coastă fractale sunt un exemplu des citat de autosimilaritate - este greu de spus, având în vedere conturul unei bucăți de coastă, exact la ce scară se vede (după cum se poate vedea în conturul liniei de coastă galeză din imaginea de mai jos). Pe măsură ce măriți, structurile liniei de coastă rămân similare. Multe fenomene din lumea reală, de la rețele precum internetul, la fenomene fizice naturale precum fulgii de zăpadă și structuri biologice precum ferigile, prezintă proprietăți autosimilare. Legile puterii surprind matematic această proprietate autosimilară, conform bbc.com.

Poate cea mai convingătoare explicație pentru legea lui Zipf în sine susține că există variabile latente sau neobservate care acționează pentru a amesteca mai multe componente care, în sine, nu respectă legea lui Zipf, dar care, atunci când sunt combinate, o fac. În contextul frecvenței cuvintelor, de exemplu, componentele sunt diferitele părți de vorbire.

De exemplu, deoarece sunt generale și sunt utilizate în propoziții indiferent de context, există foarte puține conjuncții diferite, fiecare dintre acestea fiind relativ comună. În schimb, deși există mult mai multe substantive, fiecare dintre acestea poate fi utilizat doar în relativ puține contexte specifice care implică un lucru exact, ceea ce face ca fiecare dintre ele să fie relativ rar. În mod individual, aceste componente nu respectă legea lui Zipf, însă atunci când sunt amestecate cu altele pentru a forma limbajul, ele o fac.

În ce contexte mai apare legea lui Zipf? 

De asemenea, Turul Franței nu este singurul context sportiv în care s-a constatat că legea lui Zipf este valabilă. Ea apare în situații precum clasamentul medaliilor olimpice și premiile de snooker. Dar nu este clar de ce legea lui Zipf ar trebui să fie valabilă pentru câștigătorii Turului Franței. De fapt, după cum v-ați putea aștepta, atunci când se trasează distribuția lui Zipf peste datele reale, concordanța nu este perfectă.

Țările europene, Franța și vecinii săi apropiați, Belgia, Spania și Italia, care au câștigat cel mai mult Turul, sunt suprareprezentate. În anumite privințe, acest lucru nu este surprinzător. Componența primelor Tururi ale Franței a fost dominată de francezi și mai târziu de vecinii lor. În prima ediție a Turului din 1903, de exemplu, 49 din cei 60 de cicliști înscriși erau francezi. Dacă eliminăm toți câștigătorii de dinaintea Primului Război Mondial, putem constata o mai bună concordanță cu legea lui Zipf (a se vedea graficul de mai jos).

Distribuția celor 91 de câștigători ai Turului Franței din 1919 încoace seamănă foarte mult cu legea lui Zipf, așa cum arată crucile negre (Credit: BBC/Kit Yates)

Distribuția celor 91 de câștigători ai Turului Franței din 1919 încoace seamănă foarte mult cu legea lui Zipf, așa cum arată crucile negre (Credit: BBC/Kit Yates)

Având în vedere că Franța nu a mai câștigat cel mai faimos eveniment sportiv din 1985, unele dintre națiunile subreprezentate au avut șansa de a-și lua locul în distribuție.

Dar ce înseamnă asta pentru cursa din acest an? Din păcate, legea lui Zipf vorbește doar în generalități. Ea nu ne oferă răspunsuri la astfel de întrebări specifice.

Indiferent ce se va întâmpla, chiar dacă amintirea ultimei lor victorii va dispărea din conștiința publicului, va mai dura mulți ani până când dovezile dominației inițiale a Franței în Tur vor dispărea din date.

Revista presei