Roberto Dadda, ciclostilato in proprio: Di Marco Camisani Calzolari e del metodo scientifico

sabato, giugno 09, 2012

Di Marco Camisani Calzolari e del metodo scientifico

Questa mattina trovo la mail di uno studente che mi invita ad andare a leggere una "ricerca scientifica" di Marco Camisani Calzolari sull'argomento, spesso trattato a lezione, dei falsi follower nei social.

Titolo interessantissimo e promettente, testata un poco ridicola perché nella mia non breve vita professionale io un articolo che si autodefinisse "ricerca scientifica" non lo avevo mai visto, non si capisce bene se sia in attesa di pubblicazione da qualche parte... non potevo comnque fare a meno di leggerlo e confesso di averlo letto tre volte prima di capire che di scientifico non c'è proprio nulla.

Marco parte molto bene definendo il suo obiettivo: valutare quanti follower "non umani" abbiano alcuni dei principali siti del mondo. Dopo questa ottima partenza propone un algoritmo per valutare se un utente sia umano o un programma.

Qui dovrebbe venire il pezzo forte: la dimostrazione della affidabilità dell'algoritmo, ma non arriva nulla! L'algoritmo viene dato per buono e comincia una statistica con deduzioni del tutto opinabili che portando a dire che TUTTI i brand esaminati fanno grande uso di utenti fake, una cosa che fa colpo sui giornalisti, ma che alla fine è opinabile in quanto non dimostrata!

Un algoritmo si può ricavare in modo deduttivo o induttivo. Per fare una deduzione bisogna avere dati certi, in questi caso, sul comportamento e sulle caratteristiche dei follower e da questi ricavare un modello matematico, per indurre si fa come Camisani: si ipotizza un algoritmo e poi lo si sperimenta per vedere se funziona sulla base anche qui di dati, entro certi limiti, certi. Matteo ha una bella idea sul come fare questa sperimentazione, ma ve la racconta se vuole lui.

Se i dati sperimentali non ci sono non c'è traccia di metodo scientifico, tutto è opinabile.

In realtà nel lavoro c'è un tentativo divertente quando si afferma che l'algoritmo funziona perché da sui diversi brand risultati diversi, affascinante nella sua rozza semplicità.

Le motivazioni per le quali un algoritmo del genere può dare risultati diversi sui diversi brand sono molteplici, per esempio la differente demografia degli utenti dei vari brand. L'algoritmo proposto tende a considerare fake utenti non molto internetizzati: è abbastanza logico pensare che siano più interessati a Ikea che a Cisco!

Un po' come se facessi una analisi dei portatori di occhiali all'ingresso di una balera e di una discoteca, trovassi più gente con gli occhiali tra i frequentatori della balera e ne deducessi che ballare il liscio fa diventare ciechi.

A parte l'idea di Matteo che in qualche modo ha pensato come stimolare il sistema per studiarlo si potrebbe per esempi pensare a una "prova in bianco": ripetere la analisi su Brand che di certo non spendono soldi per aumentare il numero di follower e depurare i numeri da questo rumore di fondo.

Interessante sarebbe anche una analisi del peso dell'incidenza dei vari parametri utilizzati e non solo il risultato dell'algoritmo nel suo insieme.

Di idee ne possono venire tante, ma ipotizzare un algoritmo ed utilizzarlo in modo acritico porta a risultati che sono di fatto casuali.

Colpisce anche la mancanza, in una ricerca che si definisce scientifica, di una minima bibliografia anche perché di lavori scientifici veri ne esistono moltissimi:

http://ceas.cc/2010/papers/Paper%2021.pdf
http://faculty.cs.tamu.edu/caverlee/pubs/lee11icwsm.pdf
http://amnesiablog.wordpress.com/2009/03/22/how-to-spot-a-twitter-user-with-a-fake-follower-count/
https://docs.google.com/viewer?url=http://cs229.stanford.edu/proj2010/GeeTeh-TwitterSpammerProfileDetection.pdf
https://docs.google.com/viewer?url=http://www.zichu.org/files/campaign_2012.pdf
https://docs.google.com/viewer?url=http://www.cs.sunysb.edu/~aychakrabort/courses/cse508/report.pdf

Sono lavori molto corretti dal punto di vista scientifico, propongono algoritmi molto più complessi, ma non arrivano a risultati tanto eclatanti.

Il fatto che questi lavori scientifici non abbiano avuto grande rilevanza da parte dei giornalisti mentre quello di Marco viene citato a destra e a manca la dice molto lunga sul livello di certi giornalisti!

O no?

dadda

PS Camisani da molto mi ha tagliato fiori dalla cerchia delle sue amicizie, credo che faccia fatica ad accettare di essere contraddetto e io ho questa terribile colpa, qualcuno per favore lo informa di questo mio scritto, sarebbe bellissimo avere una sua illuminante risposta.

14 commenti:

Anonimodomenica, giugno 10, 2012 6:22:00 AM
Calzolari lo conoscono tutti, è un buon comunicatore che cerca sempre di essere sulla stampa per ragioni professionali, ecco perchè crea ad arte le notizie per poterci ricamare sopra. Questa ricerca di scientifico non ha nulla, il tutto è nato in un post di un gruppo faebook, lui ci ha lavorato fino a renderla una notizia da utilizzare sulla stampa.
RispondiElimina
Risposte
Gmdomenica, giugno 10, 2012 8:27:00 AM
Nella mia ingenuità la domanda che più mi ronza in testa é come faccia lo IULM a rimanere in silenzio ...
RispondiElimina
Risposte
Unknowndomenica, giugno 10, 2012 10:29:00 AM
Effettivamente lo ho pensato anch'io, mettere il nome di una università su un lavoro del genere non da certo una bella immagine della università stessa, non so bene che regole abbia lo IULM
RispondiElimina
Risposte
L.domenica, giugno 10, 2012 10:48:00 AM
Io non definirei Calcolari un "buon" comunicatore, diciamo che è un buon intrallazzatore, punto.
E mi fermo qui per evitare querele.
RispondiElimina
Risposte
Mario Rigoldidomenica, giugno 10, 2012 12:47:00 PM
Ma sono tutti anonimi (o con link a siti insesistenti) quelli che commentano qui? Non è strano? Non è per caso Dadda che si commenta da solo perché non sta nella pelle a non essere cagato da camisani che invece ho visto che risponde tranquillamente alle domande del Financial Times? Io ho letto la ricerca, non capisco molto di cose scientifiche, ma è evidente che non sia una ricerca endorsata IULM, non c'è il logo ne il nome... è solo una sua ricerca personale che ha firmato con il suo titolo in IULM. se dadda dice il contrario, è come al soltio in malafede. Per cui è ovvio che IULM non dica nulla. Non gli compete.
Saluti a tutto il branco invidiosi del bar dadda :)
RispondiElimina
Risposte
Unknowndomenica, giugno 10, 2012 1:01:00 PM
@mario rigoldi Vieni qui sul mio sito a insultarmi? Non entri nemmeno nell'argomento? Guarda che io non sono qui a farmi insultare dal primo idiota che passa: STAI AL TUO POSTO! E vergognatene! Adesso ti posto su Facebook così magari qualcuno mi spiega che raza di cafone idiota tu sei, anche se non ce ne è bisogno, basta leggerti...

Sei così cretino da criticare gli altri e da mettere un nome senza nessun link, un nome che potresti benissimo avere inventato!
RispondiElimina
Risposte
Anonimodomenica, giugno 10, 2012 5:47:00 PM
insulto su insulto mi sono persa per strada e me ne dispiaccio perché pur essento oramai in meritato riposo (materiale pensionamento) ma intellettualmente ancora curiosa, l'argomento mi interessa, quindi per piacere ritorniano in palla Francesca Corner
RispondiElimina
Risposte
Thomas Mortonlunedì, giugno 11, 2012 9:58:00 AM
STAI AL TUO POSTO
RispondiElimina
Risposte
D4nn0lunedì, giugno 11, 2012 10:10:00 AM
> @Roberto Dadda
> Non entri nemmeno nell'argomento?
A me sembra che Mario sia entrato nell'argomento come puoi leggere di seguito.

> @Mario Rigoldi
> Io ho letto la ricerca, non capisco molto di cose
> scientifiche, ma è evidente che non sia una
> ricerca endorsata IULM

> @Roberto Dadda
> STAI AL TUO POSTO
Questa è bella...
RispondiElimina
Risposte
Anonimolunedì, giugno 11, 2012 12:31:00 PM
In effetti lo studio di MCM azzera gli ultimi 50 anni di sviluppi nell'apprendimento automatico (spicca, come i più han notato, la totale assenza di una fase di validazione dell'algoritmo di classificazione)... però il tentativo ha subito raggiunto l'obiettivo di far parlare un pò a vuoto le solite roboanti testate... Come al solito ci si chiede se pure le altre notizie hanno lo stesso livello di contenuti...
RispondiElimina
Risposte
Anonimolunedì, giugno 11, 2012 2:41:00 PM
Dimenticavo... credo di avere una probabilità su due di essere un BOT
RispondiElimina
Risposte
xxxgiovedì, giugno 14, 2012 2:19:00 PM
leggere qui prego http://www.mind-spa.it/2012/06/14/finti-follower-e-finti-tonti-3-shooting-the-messenger/
RispondiElimina
Risposte
Unknowngiovedì, giugno 14, 2012 9:52:00 PM
In realtà non stiamo sparando sul messaggero perché non ci piace il messaggio, stiamo sparando sul messaggero perché il messaggio se lo è inventato! http://robertodadda.blogspot.com/2012/06/marco-camisani-calzolari-segnala-un.html
RispondiElimina
Risposte
Lucamercoledì, luglio 25, 2012 11:08:00 AM
In effetti comunque dietro alcune formule ed un po' di numeri very sciency il report proposto da MCC ha un paio di grossi problemi metodologici e solleva più di qualche dubbio. Ho provato a metterne un fila tre: http://larica.uniurb.it/redline/2012/07/25/grillo-twitter-i-bot-e-lestate/
RispondiElimina
Risposte

Aggiungi commento

DISCLAIMER

Questo blog contiene pensieri espressi a livello personale che non coinvolgono nessuna delle organizzazioni con le quali collaboro o ho collaborato nel passato.
---
Questo blog non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62 del 7.03.2001.
Il materiale reperito in rete è stato in buona fede ritenuto di pubblico dominio.
Chiunque ritenesse danneggiati i suoi diritti di autore dai contenuti di questo blog mi può contattare per richiedere la rimozione degli stessi.

Roberto Dadda, ciclostilato in proprio

sabato, giugno 09, 2012

Di Marco Camisani Calzolari e del metodo scientifico

14 commenti:

Qualche esperimento...

Chi sono...

Flickr & OpenDNS

Cerca nel blog

I siti che scrivo

Archivio blog

DISCLAIMER

FEEDJIT Live Traffic Feed

Roberto Dadda, ciclostilato in proprio

sabato, giugno 09, 2012

Di Marco Camisani Calzolari e del metodo scientifico

14 commenti:

Qualche esperimento...

Chi sono...

Iscriviti a

Flickr & OpenDNS

Cerca nel blog

I siti che scrivo

Archivio blog

DISCLAIMER

FEEDJIT Live Traffic Feed