sabato, giugno 09, 2012

Di Marco Camisani Calzolari e del metodo scientifico


Questa mattina trovo la mail di uno studente che mi invita ad andare a leggere una "ricerca scientifica" di Marco Camisani Calzolari sull'argomento, spesso trattato a lezione, dei falsi follower nei social.

Titolo interessantissimo e promettente, testata un poco ridicola perché nella mia non breve vita professionale io un articolo che si autodefinisse "ricerca scientifica" non lo avevo mai visto, non si capisce bene se sia in attesa di pubblicazione da qualche parte... non potevo comnque fare a meno di leggerlo e confesso di averlo letto tre volte prima di capire che di scientifico non c'è proprio nulla.

Marco parte molto bene definendo il suo obiettivo: valutare quanti follower "non umani" abbiano alcuni dei principali siti del mondo.  Dopo questa ottima partenza propone un algoritmo per valutare se un utente sia umano o un programma.

Qui dovrebbe venire il pezzo forte: la dimostrazione della affidabilità dell'algoritmo, ma non arriva nulla! L'algoritmo viene dato per buono e comincia una statistica con deduzioni del tutto opinabili che portando a dire che TUTTI i brand esaminati fanno grande uso di utenti fake, una cosa che fa colpo sui giornalisti, ma che alla fine è opinabile in quanto non dimostrata!

Un algoritmo si può ricavare in modo deduttivo o induttivo.  Per fare una deduzione bisogna avere dati certi, in questi caso, sul comportamento e sulle caratteristiche dei follower e da questi ricavare un modello matematico, per indurre si fa come Camisani: si ipotizza un algoritmo e poi lo si sperimenta per vedere se funziona sulla base anche qui di dati, entro certi limiti, certi.  Matteo ha una bella idea sul come fare questa sperimentazione, ma ve la racconta se vuole lui.

Se i dati sperimentali non ci sono non c'è traccia di metodo scientifico, tutto è opinabile.

In realtà nel lavoro c'è un tentativo divertente quando si afferma che l'algoritmo funziona perché da sui diversi brand risultati diversi, affascinante nella sua rozza semplicità.

Le motivazioni per le quali un algoritmo del genere può dare risultati diversi sui diversi brand sono molteplici, per esempio la differente demografia degli utenti dei vari brand.  L'algoritmo proposto tende a considerare fake utenti non molto internetizzati: è abbastanza logico pensare che siano più interessati a Ikea che a Cisco!

Un po' come se facessi una analisi dei portatori di occhiali all'ingresso di una balera e di una discoteca, trovassi più gente con gli occhiali tra i frequentatori della balera e ne deducessi che ballare il liscio fa diventare ciechi.

A parte l'idea di Matteo che in qualche modo ha pensato come stimolare il sistema per studiarlo si potrebbe per esempi pensare a una "prova in bianco": ripetere la analisi su Brand che di certo non spendono soldi per aumentare il numero di follower e depurare i numeri da questo rumore di fondo.

Interessante sarebbe anche una analisi del peso dell'incidenza dei vari parametri utilizzati e non solo il risultato dell'algoritmo nel suo insieme.

Di idee ne possono venire tante, ma ipotizzare un algoritmo ed utilizzarlo in modo acritico porta a risultati che sono di fatto casuali.

Colpisce anche la mancanza, in una ricerca che si definisce scientifica, di una minima bibliografia anche perché di lavori scientifici veri ne esistono moltissimi:

http://ceas.cc/2010/papers/Paper%2021.pdf
http://faculty.cs.tamu.edu/caverlee/pubs/lee11icwsm.pdf
http://amnesiablog.wordpress.com/2009/03/22/how-to-spot-a-twitter-user-with-a-fake-follower-count/
https://docs.google.com/viewer?url=http://cs229.stanford.edu/proj2010/GeeTeh-TwitterSpammerProfileDetection.pdf
https://docs.google.com/viewer?url=http://www.zichu.org/files/campaign_2012.pdf
https://docs.google.com/viewer?url=http://www.cs.sunysb.edu/~aychakrabort/courses/cse508/report.pdf

Sono lavori molto corretti dal punto di vista scientifico, propongono algoritmi molto più complessi, ma non arrivano a risultati tanto eclatanti.

Il fatto che questi lavori scientifici non abbiano avuto grande rilevanza da parte dei giornalisti mentre quello di Marco viene citato a destra e a manca la dice molto lunga sul livello di certi giornalisti!

O no?

dadda

PS Camisani da molto mi ha tagliato fiori dalla cerchia delle sue amicizie, credo che faccia fatica ad accettare di essere contraddetto e io ho questa terribile colpa, qualcuno per favore lo informa di questo mio scritto, sarebbe bellissimo avere una sua illuminante risposta.

14 commenti:

  1. Calzolari lo conoscono tutti, è un buon comunicatore che cerca sempre di essere sulla stampa per ragioni professionali, ecco perchè crea ad arte le notizie per poterci ricamare sopra. Questa ricerca di scientifico non ha nulla, il tutto è nato in un post di un gruppo faebook, lui ci ha lavorato fino a renderla una notizia da utilizzare sulla stampa.

    RispondiElimina
  2. Nella mia ingenuità la domanda che più mi ronza in testa é come faccia lo IULM a rimanere in silenzio ...

    RispondiElimina
  3. Effettivamente lo ho pensato anch'io, mettere il nome di una università su un lavoro del genere non da certo una bella immagine della università stessa, non so bene che regole abbia lo IULM

    RispondiElimina
  4. Io non definirei Calcolari un "buon" comunicatore, diciamo che è un buon intrallazzatore, punto.
    E mi fermo qui per evitare querele.

    RispondiElimina
  5. Ma sono tutti anonimi (o con link a siti insesistenti) quelli che commentano qui? Non è strano? Non è per caso Dadda che si commenta da solo perché non sta nella pelle a non essere cagato da camisani che invece ho visto che risponde tranquillamente alle domande del Financial Times? Io ho letto la ricerca, non capisco molto di cose scientifiche, ma è evidente che non sia una ricerca endorsata IULM, non c'è il logo ne il nome... è solo una sua ricerca personale che ha firmato con il suo titolo in IULM. se dadda dice il contrario, è come al soltio in malafede. Per cui è ovvio che IULM non dica nulla. Non gli compete.
    Saluti a tutto il branco invidiosi del bar dadda :)

    RispondiElimina
  6. @mario rigoldi Vieni qui sul mio sito a insultarmi? Non entri nemmeno nell'argomento? Guarda che io non sono qui a farmi insultare dal primo idiota che passa: STAI AL TUO POSTO! E vergognatene! Adesso ti posto su Facebook così magari qualcuno mi spiega che raza di cafone idiota tu sei, anche se non ce ne è bisogno, basta leggerti...

    Sei così cretino da criticare gli altri e da mettere un nome senza nessun link, un nome che potresti benissimo avere inventato!

    RispondiElimina
  7. insulto su insulto mi sono persa per strada e me ne dispiaccio perché pur essento oramai in meritato riposo (materiale pensionamento) ma intellettualmente ancora curiosa, l'argomento mi interessa, quindi per piacere ritorniano in palla Francesca Corner

    RispondiElimina
  8. > @Roberto Dadda
    > Non entri nemmeno nell'argomento?
    A me sembra che Mario sia entrato nell'argomento come puoi leggere di seguito.

    > @Mario Rigoldi
    > Io ho letto la ricerca, non capisco molto di cose
    > scientifiche, ma è evidente che non sia una
    > ricerca endorsata IULM

    > @Roberto Dadda
    > STAI AL TUO POSTO
    Questa è bella...

    RispondiElimina
  9. In effetti lo studio di MCM azzera gli ultimi 50 anni di sviluppi nell'apprendimento automatico (spicca, come i più han notato, la totale assenza di una fase di validazione dell'algoritmo di classificazione)... però il tentativo ha subito raggiunto l'obiettivo di far parlare un pò a vuoto le solite roboanti testate... Come al solito ci si chiede se pure le altre notizie hanno lo stesso livello di contenuti...

    RispondiElimina
  10. Dimenticavo... credo di avere una probabilità su due di essere un BOT

    RispondiElimina
  11. leggere qui prego http://www.mind-spa.it/2012/06/14/finti-follower-e-finti-tonti-3-shooting-the-messenger/

    RispondiElimina
  12. In realtà non stiamo sparando sul messaggero perché non ci piace il messaggio, stiamo sparando sul messaggero perché il messaggio se lo è inventato! http://robertodadda.blogspot.com/2012/06/marco-camisani-calzolari-segnala-un.html

    RispondiElimina
  13. In effetti comunque dietro alcune formule ed un po' di numeri very sciency il report proposto da MCC ha un paio di grossi problemi metodologici e solleva più di qualche dubbio. Ho provato a metterne un fila tre: http://larica.uniurb.it/redline/2012/07/25/grillo-twitter-i-bot-e-lestate/

    RispondiElimina

Qualche esperimento...