26 aprile 2021

"Character exclusion" vs "Taxon exclusion"

La parte iniziale di due filogenesi alternative ottenute estraendo a caso 238 caratteri su un campione totale di oltre 1800 e poi ripetendo la medesima procedura con altri 238 caratteri estratti a caso dallo stesso campione totale. Anche senza visualizzare i due alberi interi, notate come essi siano completamente in disaccordo tra loro. Se uno dei due è "corretto", come posso identificarlo?


 

Nel suo blog di pseudo-scienza, l'illustratore David Peters manda avanti una campagna di diffamazione degli zoologi e paleontologi (specialmente se dotati di dottorato di ricerca) costruita intorno alla retorica che egli sia il solo ad aver costruito una filogenesi attendibile dei vertebrati. Il fulcro della sua retorica è il così detto concetto di "taxon exclusion", ovvero l'idea che tutte le filogenesi pubblicate (a parte la sua) siano viziate da un difetto nel campionamento delle specie incluse. Secondo Peters, il campionamento tassonomico (l'inclusione delle specie nell'analisi), qualora sia ampio, è sufficiente per determinare la filogenesi accurata poiché il gran numero dei taxa tenderebbe "automaticamente" a convergere verso la topologia più parsimoniosa in virtù delle serie di transizioni anatomiche che proprio il ricco campionamento permetterebbe di identificare. In pratica, il ragionamento di Peters è che una filogenesi è come un puzzle: se si dispone di un gran numero di pezzi, questi potranno assemblarsi solamente in un solo modo, quello reale. La filogenesi sarebbe quindi una proprietà automatica del campionamento tassonomico una volta che sia superata un numero adeguato di specie.

Al contrario, sostiene Peters, un ricco campionamento di caratteri morfologici, ma privo di ricco campionamento tassonomico, sarebbe incapace di produrre una filogenesi corretta.

Corollario dell'argomentazione di Peters è che una filogenesi sufficientemente ricca di specie non richiede un adeguato campionamento di caratteristiche anatomiche, le quali, oltre un certo numero di caratteri, sarebbero solo dati ridondanti, rumore inutile.

Dato che io dispongo di una filogenesi dei theropodi mesozoici molto ricca sia in termini di taxa che di caratteri (>500 taxa vs >1800 caratteri), posso testare l'ipotesi di Peters. [NB: il campionamento tassonomico dei theropodi della mia matrice è ben maggiore del suo, quindi, secondo la sua logica, la mia matrice è migliore della sua per ricostruire Theropoda]

Se Peters ha ragione, la grande maggioranza dei caratteri nella mia matrice è ridondante e superflua, mentre la mera presenza di centinaia e centinaia di taxa renderebbe la ricostruzione delle "vere relazioni" automatica senza ricorrere a così tanti caratteri.

Per testare questa ipotesi, ho quindi ridotto il numero dei caratteri in matrice, selezionando 238 caratteri estratti a caso. Il numero (238) è lo stesso della pseudo-filogenesi dei vertebrati di Peters.

Se l'ipotesi di Peters è corretta, io dovrei ricavare la filogenesi dei Theropoda mesozoici solamente usando 238 caratteri, indipendentemente da quali siano i 238 caratteri selezionati: ciò che conta è solo l'abbondanza delle specie. Se così fosse, anche con 238 caratteri io mi dovrei aspettare di ricavare una filogenesi molto simile alla tipologia generale che tendo ad ottenere usando tutti gli oltre 1800 caratteri.

Purtroppo per Peters, ciò non accade: la topologia della filogenesi a 238 caratteri è molto diversa da quella con 1800 caratteri, e - dato non secondario - è del tutto incompatibile con qualsiasi filogenesi pubblicata finora negli oltre 35 anni di filogenetica dei theropodi quantitativa.

Non solo, ma se ripeto l'analisi con altri 238 caratteri, ovvero usando un diverso gruppo di caratteri selezionati a caso, non ottengo mai una filogenesi che sia simile al test precedente, né tanto meno alla filogenesi con tutti i 1800 caratteri, né a qualche filogenesi pubblicata in passato.

Perché? Molto brutalmente, perché usare solo 238 caratteri con un campionamento tassonomico di oltre 500 specie è del tutto insufficiente per ricavare relazioni stabili e sensate. Il mero insieme delle specie, se non è accompagnato da un adeguato campionamento dei caratteri, tende ad essere massicciamente influenzato dal più classico degli errori nelle scienze: l'errore di campionamento derivante da pochi dati. Dato che l'omoplasia (convergenze e reversioni) è pervasiva nei vertebrati, dato che i fossili non sono mai completi, dato che diverse regioni anatomiche producono un diverso segnale filogenetico, è evidente che estraendo solo 238 caratteri da un campione di (almeno!) 1800 caratteri validi significa mutilare pesantemente la quantità di informazione disponibile.

Se, come sostiene Peters, una filogenesi di 238 caratteri e centinaia di taxa è "consistente", ed io posso in teoria ottenere un'infinità di filogenesi alternative estraendo a caso 238 caratteri dalla mia lista di oltre 1800, esistono in teoria un'infinità di filogenesi "consistenti". Ma allora, come faccio a decidere quale tra le innumerevoli opzioni alternative ricavabili è quella "corretta"? Siccome ogni singola filogenesi a 238 caratteri è legittimata a considerarsi "valida" dato che comunque qualche segnale corretto contiene, il solo modo per risolvere la questione è creando una filogenesi che includa simultaneamente tutti i "segnali parziali" presenti in ciascuna versione a 238 caratteri. Ovvero, devo usare una filogenesi costruita con tutti e 1800 caratteri. Ovvero, proprio ciò che Peters nega.

Attenzione: non sto dicendo che la mia filogenesi a 1800 caratteri è "quella giusta", sto solo constatando che sicuramente non può esserlo quella realizzato usando solamente "238", perché ridurre i dati per arrivare alla soluzione è improbabile che sia una opzione più solida rispetto a quella con più dati possibili. 

In breve, l'impianto retorico di Peters crolla su sé stesso: noi dobbiamo usare un set di dati che sia ricco e dettagliato sia nei caratteri che nei taxa.

8 commenti:

  1. Oh, finalmente. Bravo, bella dimostrazione, semplice e chiara. Grazie.
    Diego Sala

    RispondiElimina
  2. No, no. You see Peters just happened to choose the correct 238 characters to resolve all chordates, and you can tell because his alone shows a gradual accumulation of traits. Yours doesn't, so you did something wrong. You probably don't even know that he showed all theropods have tiny complete fifth pedal digits a decade ago, while you foolishly believe the PhDs and/or try to hide the truth from everyone else. Because we're all in a conspiracy to do bad science and ignore the only person who knows the truth about phylogeny because... I don't know! Bwa ha ha ha!

    RispondiElimina
    Risposte
    1. Shame on me, Mickey, because I am unable to detect the 238 good ones among all the false ones ;-)

      Elimina
  3. Senza niente togliere alla doverosa demolizione di Peters, quando vedo strutture logiche viziate da bias di conferma, mi torna sempre in mente l'esperimento di Millikan della determinazione della carica dell'elettrone mediante gocce sospese, il suo scontro con Ehrenhaft e tutta la questione dei dati scartati.

    Lo lascio da leggere a chi volesse, anche se non è paleontologia. La morale decidetela da soli.
    https://digilander.libero.it/roberto20129/esperimenti/gocciaolio.html


    Emanuele

    PS
    Non sostiene Peters, almeno, non con la morale che ne traggo io.

    RispondiElimina
    Risposte
    1. Le analisi di Peters sono sistematicamente sbagliate sul piano del metodo. Non solo egli omette di includere caratteri che devono essere testati, ma il modo con cui codifica quei (pochi e spesso definiti in modo grossolano) caratteri rasenta il ridicolo.
      Non occorre scomodare i fondamenti dell'epistemologia per sapere che una matrice che codifica taxa che vanno dall'anfiosso al cavallo usando 200 caratteri ricavati photoshoppando delle foto in jpg è una scemenza.

      Elimina
    2. Mi pare che il primo e l'ultimo periodo del mio commento, concordino in pieno con quel che hai ribadito.
      La storia della determinazione della carica dell'elettrone non l'ho messa per argomentare. L'ho messa perché è importante, perché tutti dovrebbero conoscerla e perché (relativamente) pochi hanno la fortuna di averla letta. In incursione di fisica in un blog di paleontologia, vedila come una forma di parassitismo divulgativo. :-P

      Emanuele

      Elimina
    3. Ok, volevo meglio capire le tue parole senza rischiare di averle fraintese.

      Elimina
  4. Really nice post. I can't deny I'm waiting for Peter's reply, just for plain fun.

    RispondiElimina

I commenti anonimi saranno ignorati
Anonymous comments are being ignored