Se iau sondaje de opinie şi alte informaţii statistice. Se pun un strop de inteligenţă şi câteva grame de logică. A se servi fierbinte cu un pahar de echidistanţă.
joi, 2 februarie 2012
"Toate sondajele minte!" - un răspuns calm de la un sociolog
Înainte să începem, o explicaţie scurtă dar foarte importantă: când încerci să estimezi opinia a 18 milioane de oameni pe baza unui eşantion de 1200, apare în mod evident potenţialul de a greşi. Toate sondajele din România indică cuantumul maxim al acestei erori sub termenul "marjă de eroare". Exemplu: Partidul Z are în eşantion o intenţie de vot de 25%. La o marjă de eroare de 3%, rezultatul real la scrutin poate varia între 22% şi 28% (adică 25% +/-3%).
Corolar: dacă există o competiţie exclusivă şi directă (ex. turul doi al unor alegeri prezidenţiale), iar candidatul tău favorit conduce în sondaje cu 52 la 48, el nu este indicat de sondaje ca fiind câştigătorul alegerilor (52-3 = 49 iar 48+3 = 51). Şi nu vorbesc aici de diaspora sau fraudă, ci doar de efectul marjei de eroare.
Iar acum hai să vedem concret ce s-a întâmplat cu sondajele de la ultimele scrutine.
Turul unu al alegerilor prezidenţiale din 2009
Exit poll-uri:
Traian Băsescu
Insomar 32,8
CCSB 34,1
CSOP 33,2
CURS 33,7
Rezultat 32,4 (în marjă, superb).
Mircea Geoană - aceleaşi patru institute - 4 exit-poll-uri: între 30,3 şi 31,7. A obţinut 31,1.
Crin Antonescu - între 21,5 şi 22,0. A obţinut 20,0. Iarăşi, în interiorul marjei de eroare de 3%.
Turul doi al alegerilor prezidenţiale din 2009
Nu numai sondajele efectuate între turul unu şi turul doi, ci şi cele efectuate cu luni înainte arătau că cei doi competitori erau practic la egalitate. Scorurile variau între 47-53 şi 53-47. La o marjă de 3%, sondajele arătau practic o egalitate.
"Problema" Antonescu
Înainte de turul unu, un singur institut de sondare a opiniei publice îl "dădea" pe Crin Antonescu în turul doi (diferenţa a fost de 1 milion de voturi/ 10 procente). Un altul arăta o egalitate virtuală între el şi Mircea Geoană. Nu le acuz de nimic - este posibil ca ele să fi făcut greşeli, după cum veţi vedea mai jos. Alte şase institute de sondare au dat ierarhia corectă. Incidental, toate 8 au indicat un scor "în marjă" pentru Traian Băsescu.
"Problema" Oprescu
Absolut toate institutele de mai sus - toate sondajele efectuate înainte de turul unu - indicau un scor mai mare pentru Sorin Oprescu decât cel obţinut de acesta (3,2%). Dar vă propun să ne uităm la următoarele cifre:
INSOMAR 8-6-5
CCSB 14-10
Operation Research 12-8-7
CSOP 8-6
Ce reprezintă ele? Scorul lui Sorin Oprescu în scădere, săptămână de săptămână, lună de lună, un declin observat şi notat ca atare de sondaje (apropo, exit-poll-urile au indicat corect rezultatul acestuia). Edit: Datorită unei observaţii făcute de Diana Cismaru, am eliminat o presupunere privind comportamentul electoral al votanţilor potenţiali ai lui Sorin Oprescu. Puteţi găsi observaţia sub postare la "Comentarii".
Alegerile parlamentare din 2008
3 institute (BCS, Insomar, CCSB). Ultima lună înainte de alegeri: 4 sondaje cu rezultate asemănătoare, în marjă şi corecte:
PDL între 32% şi 36%, PSD între 31% şi 37%, PNL între 15% şi 21%.
Rezultatele de la urne?
PDL .... 32,3% , PSD .... 33,1% , PNL... 18,5%.
Detalii aici şi aici.
Vreau să fiu clar înţeles: da, uneori se manipulează rezultate. Până la sfârşitul universului vor exista petarde aruncate de unii sau de alţii (petarde care nu păcălesc pe nimeni, ba mai mult au efectul de a adormi proprii activişti întru calm şi bucurie când de fapt situaţia e neagră). Da, există uneori şi incompetenţă. Da, uneori se fac greşeli când vine vorba de alcătuirea eşantionului, pentru că noi, sociologii, avem o idee aproximativă apropo de structura populaţiei aflate în ţară. Şi nu, nu întotdeauna se manipulează. Dar, cum este imposibil ca toate sondajele să fie manipulate în acelaşi timp de acelaşi actor, situaţia reală poate fi triangulată.
De exemplu, dacă 3 sondaje diferite efectuate în luna noiembrie îmi spun că Partidul Y are 28-30% din intenţia de vot iar un alt sondaj îmi arată că are 20%, nu pornesc imediat de la prezumţia că cel din urmă sondaj este o încercare de manipulare, ci îmi pun înainte alte întrebări:
- este intervalul efectuării acestui sondaj diferit de cel al celorlaltor sondaje? Altfel spus, nu cumva măsoară o altă stare de fapt? (reacţia publicului la demisia unui politician, de exemplu)
- cum a fost construit eşantionul? Ce erori pot surveni din acest motiv?
- cum au fost formulate întrebările? Care este contextul lor în sondaj?
... şi alte întrebări, pe care nu le voi discuta aici pentru că intru în detalii.
Pe baza uneia din aceste întrebări de bun simţ sociologic, o diferenţă de zece procente între scorul USL aşa cum a fost el măsurat de două sondaje diferite devine inteligibilă (detalii aici). Nu era vorba de manipulare, ci doar de o opţiune de răspuns în plus. Care schimba, de fapt, tot.
"Prestigiul" sondajelor n-a fost ajutat deloc de faptul că am avut în 5 ani de zile 3 scrutine pe muchie:
2004: Băsescu vs. Năstase, turul 2
2008: PDL vs. PSD, parlamentare în luptă pentru locul 1
2009: Băsescu vs. Geoană, turul 2
Dacă noţiunea "marjei de eroare" ar fi fost mai bine înţeleasă, şi calmul ar fi fost mai mare.
Mulţumesc Dianei Cismaru şi lui Bogdan Voicu pentru că m-au corectat acolo unde a fost cazul.
Nu toate presupunerile din articol stau in picioare - de exemplu, ideea ca votantii lui Sorin Oprescu au stat acasa. Din cercetarile mele reiese ca multi dintre ei au fost convertiti pentru Crin Antonescu, pentru ca au estimat ca acesta din urma avea sansa mai mare sa intre in turul doi. A fost un model de vot util si rational, cum predomina in Romania ultimilor ani.
RăspundețiȘtergereMulţumesc pentru observaţie - este foarte interesantă. Dacă mi s-ar fi spus acum câteva zile că potenţialii votanţi ai lui Sorin Oprescu s-au îndreptat spre un alt candidat pe baza teoriei votului util, aş fi spus că acel candidat e Geoană.
RăspundețiȘtergereMarja de eroare maximă este calculată pentru procentele care conduc la dispersie maximă (adică 50%-50%). Ea descrește pentru procente mai mici. De exemplu, la un eșantion simplu aleator de 1000 de respondenți, o estimare de 5% (vot pentru candidatul X) se citește: "garantăm cu o probabilitate de 95% că acei care au votat cu X se plasează între 3,65% și 6,35%" (marja de eroare pentru procentul de 5% este de +/-1,35 puncte procentuale). Asta chiar dacă eroarea maximă ar fi +/-3,1 puncte procentuale (acest 3,1% este eroarea în cazul estimatul analizat este de 50%).
RăspundețiȘtergereDeci, ideea este că nu ar fi rău ca să fie revizuit Corolarul 1 de mai sus. Implicit, se pot modifica și concluziile despre acuratețea estimărilor de la varii exit-poll-uri, însă ele converg probabil către a observa că majoritatea erau destul de precise.
Mai apoi, trebuie văzut care a fost de fapt eroarea maximă REALĂ, adesea ea nefiind raportată tocmai corect. De exemplu, pentru cele 4 exit-poll-uri de la turul II din 2009, unele agenții de colectare a datelor au oferit atunci informații de-a dreptul năucitoare în această privință... Eu am căutat să estimez eroarea respectivă pe baza informațiilor publice disponibile la momentul respectiv, ajungând la concluzia de aici. În cazul respectivelor exit-poll-uri, estimările nu au mai fost, din păcate, chiar exacte ... :(
Sa nu uitam ca vorbim doar de eroarea matematica de esantionare si nu de toate erorile care pot aparea la o cercetare selectiva: cea mai importanta dintre ele fiind cea legata de calitatea operatorilor de interviu. De asemenea trebuie luat in calcul si procentul de nonraspunsuri. Daca scoti nonraspunsurile afara pur si simplu din analiza presupui ca distributia nonraspunsurile este la fel ca si cea a raspunsurilor. Ori, nu este intotdeauna asa, iar cand te confrunti cu un procent de 20-30% nonraspunsuri ai o problema, mai ales daca trebuie sa oferi estimari sau predictii....(v. situatia exit-poll-urilor)
RăspundețiȘtergereBogdan: Voi corecta, mulţumesc foarte mult. Analiza ta privind eroarea maximă reală de la exit-poll-uri e foarte interesantă.
RăspundețiȘtergere"Marja de eroare" - asta n-au inteles protanacii in 2009! In plus, mai este vorba si de acuratetea strângerii rezultatelor la exit poll, când stresul e mai mare.
RăspundețiȘtergereNu pot sa zic nimic despre analiza, este foarte corecta. Dar cum sunt sigur ca stii, in alte parti, se mai face agregat de toate sondajele de pe piata pentru a creste numarul observatiilor si a scadea nemernica aia de marja de eroare. Problema la noi este ca nu da nici dracu' bazele de date sau macar o raportare complexa a ceea ce au facut, ca sa ne facem si noi un http://fivethirtyeight.blogs.nytimes.com/ si sa mai terminam dracului cu psihoza asta a sondajelor falsificate si mai stiu eu ce. Sunt mult prea putini oameni in Ro care stiu sa citeasca un sondaj, dar nici cei care sunt nu au acces/incurajare/cale libera sa largeasca putin piata cu vreo 2-3 operatori profesional independenti. Mai toti cei care fac poll-uri politice sunt "angajati" pe termen lung politic.
RăspundețiȘtergereN-ar fi frumos sa avem si noi un Roper, un Gallup, un Rasmussen? Ma rog, ma plang si eu de pielea ursului din padure.
Anonim, problema e următoarea: cine-ţi plăteşte sondajul? Să zicem că găseşti un client: partidul Ţ. Faci sondajul, pe bune. Rezultatele lui Ţ. sunt mai proaste decât se aşteptau. Reacţia lor: 1. "Mai adaugă nişte procente!" -> dacă nu vrei, pentru că ţi-ai face reputaţia praf: "Nu fă sondajul public!". Dacă rezultatele sunt mai bune decât se aşteptau, te vor încurajau să le faci publice. Deci vei apărea public drept "institutul care dă rezultate mişto pentru partidul Ţ", ceea ce-ţi scade credibilitatea. Mai mult: pentru că piaţa în România e mică de tot (3 partide şi ceva), celelalte partide vor şti că lucrezi cu Ţ. şi le va fi frică - nu exagerez - să aibă încredere în tine şi să comande să le faci sondaje. Deci vei lucra cu Ţ. în continuare - pentru că vrei să plăteşti salarii, chirie, şi chiar şi să faci un profit. Vei deveni "institutul care lucrează cu Ţ." -> iarăşi pierdere de credibilitate.
RăspundețiȘtergereO să spui: bine, dar nu numai partidele vor să ştie cum stă situaţia din punct de vedere politic. Din nefericire, chiar aşa e. Acum vreo 5-10 ani se interesa fundaţia Soroş. Îmi place că Adevărul (lunar) şi Realitatea TV (din când în când) mai comandă sondaje, dar şi ele pot fi oricând acuzate că Patriciu bla bla sau Vântu bla bla.
Trăim într-o lume de perspective în conflict. Obiectivitatea a murit cu bietul Isaac N.
"538"-ul a fost odată - în 2004 - un blog mic şi independent, care triangula rezultate. Ceea ce sper să pot face şi eu anul ăsta în RO.
RăspundețiȘtergereApreciez raspunsul, si plusez cu explicatii.
RăspundețiȘtergere1. Societatea civila din Romania baga bani seriosi in sondaje. Arunca o privire la domnul Dancu sa vezi cate sondaje scoate, mai ai un CSCI, sunt cele de care ai spus si tu si altele care exista fara sa stiu, ca nu mai sunt in tara de o vreme.
2. Nu ma refeream la sondaje platite de partide, asta e buba. Noi avem o problema cu clientii institutionali de sondaje sociale, politice, etc. Ai studiat la Penn, stii doar ca orice universitate cu vreo 3-4 profesori de soi pe cantitativ fac sondaje licitatie, unde un centru de cercetare, o corporatie, un ziar, etc pun bani intr-un pot comun si avanseaza niste intrebari. Intrebarile pe bani le faci publice daca sunt clientii de acord, dar intrebarile - 5-10-15 - pe care le pui tu in plus le poti face publice oricum, ca e cosmelia ta.
3. Intr-o vreme, era vorba sa se faca ceva de genul asta si in Ro. Cat a existat un mini-Gallup corps in Romania si ce alte institute mai sunt, astea faceau sondaje si vindeau rezultatele/interpretarile/scenariile strategice, etc unor corporatii, unor clienti institutionali. Nu prea mai avem asta pentru ca cei mari, care inca lucreaza pe sondaje, le fac in-house, iar celor mici li se cam rupe de cercetari sociologice.
4. Eu sunt un mare fan al lui Silver si mi se pare ca a crescut teribil de cand am inceput sa-l citesc. Daca chiar vrei sa faci treaba asta si ai nevoie de ajutor, lasa-mi un contact si poate te ajut si eu cu ce-oi putea. Din vara sau de la sfarsitul anului ma astept sa revin in Romania.