26 aprile 2021

"Character exclusion" vs "Taxon exclusion"

La parte iniziale di due filogenesi alternative ottenute estraendo a caso 238 caratteri su un campione totale di oltre 1800 e poi ripetendo la medesima procedura con altri 238 caratteri estratti a caso dallo stesso campione totale. Anche senza visualizzare i due alberi interi, notate come essi siano completamente in disaccordo tra loro. Se uno dei due è "corretto", come posso identificarlo?


 

Nel suo blog di pseudo-scienza, l'illustratore David Peters manda avanti una campagna di diffamazione degli zoologi e paleontologi (specialmente se dotati di dottorato di ricerca) costruita intorno alla retorica che egli sia il solo ad aver costruito una filogenesi attendibile dei vertebrati. Il fulcro della sua retorica è il così detto concetto di "taxon exclusion", ovvero l'idea che tutte le filogenesi pubblicate (a parte la sua) siano viziate da un difetto nel campionamento delle specie incluse. Secondo Peters, il campionamento tassonomico (l'inclusione delle specie nell'analisi), qualora sia ampio, è sufficiente per determinare la filogenesi accurata poiché il gran numero dei taxa tenderebbe "automaticamente" a convergere verso la topologia più parsimoniosa in virtù delle serie di transizioni anatomiche che proprio il ricco campionamento permetterebbe di identificare. In pratica, il ragionamento di Peters è che una filogenesi è come un puzzle: se si dispone di un gran numero di pezzi, questi potranno assemblarsi solamente in un solo modo, quello reale. La filogenesi sarebbe quindi una proprietà automatica del campionamento tassonomico una volta che sia superata un numero adeguato di specie.

Al contrario, sostiene Peters, un ricco campionamento di caratteri morfologici, ma privo di ricco campionamento tassonomico, sarebbe incapace di produrre una filogenesi corretta.

Corollario dell'argomentazione di Peters è che una filogenesi sufficientemente ricca di specie non richiede un adeguato campionamento di caratteristiche anatomiche, le quali, oltre un certo numero di caratteri, sarebbero solo dati ridondanti, rumore inutile.

Dato che io dispongo di una filogenesi dei theropodi mesozoici molto ricca sia in termini di taxa che di caratteri (>500 taxa vs >1800 caratteri), posso testare l'ipotesi di Peters. [NB: il campionamento tassonomico dei theropodi della mia matrice è ben maggiore del suo, quindi, secondo la sua logica, la mia matrice è migliore della sua per ricostruire Theropoda]

Se Peters ha ragione, la grande maggioranza dei caratteri nella mia matrice è ridondante e superflua, mentre la mera presenza di centinaia e centinaia di taxa renderebbe la ricostruzione delle "vere relazioni" automatica senza ricorrere a così tanti caratteri.

Per testare questa ipotesi, ho quindi ridotto il numero dei caratteri in matrice, selezionando 238 caratteri estratti a caso. Il numero (238) è lo stesso della pseudo-filogenesi dei vertebrati di Peters.

Se l'ipotesi di Peters è corretta, io dovrei ricavare la filogenesi dei Theropoda mesozoici solamente usando 238 caratteri, indipendentemente da quali siano i 238 caratteri selezionati: ciò che conta è solo l'abbondanza delle specie. Se così fosse, anche con 238 caratteri io mi dovrei aspettare di ricavare una filogenesi molto simile alla tipologia generale che tendo ad ottenere usando tutti gli oltre 1800 caratteri.

Purtroppo per Peters, ciò non accade: la topologia della filogenesi a 238 caratteri è molto diversa da quella con 1800 caratteri, e - dato non secondario - è del tutto incompatibile con qualsiasi filogenesi pubblicata finora negli oltre 35 anni di filogenetica dei theropodi quantitativa.

Non solo, ma se ripeto l'analisi con altri 238 caratteri, ovvero usando un diverso gruppo di caratteri selezionati a caso, non ottengo mai una filogenesi che sia simile al test precedente, né tanto meno alla filogenesi con tutti i 1800 caratteri, né a qualche filogenesi pubblicata in passato.

Perché? Molto brutalmente, perché usare solo 238 caratteri con un campionamento tassonomico di oltre 500 specie è del tutto insufficiente per ricavare relazioni stabili e sensate. Il mero insieme delle specie, se non è accompagnato da un adeguato campionamento dei caratteri, tende ad essere massicciamente influenzato dal più classico degli errori nelle scienze: l'errore di campionamento derivante da pochi dati. Dato che l'omoplasia (convergenze e reversioni) è pervasiva nei vertebrati, dato che i fossili non sono mai completi, dato che diverse regioni anatomiche producono un diverso segnale filogenetico, è evidente che estraendo solo 238 caratteri da un campione di (almeno!) 1800 caratteri validi significa mutilare pesantemente la quantità di informazione disponibile.

Se, come sostiene Peters, una filogenesi di 238 caratteri e centinaia di taxa è "consistente", ed io posso in teoria ottenere un'infinità di filogenesi alternative estraendo a caso 238 caratteri dalla mia lista di oltre 1800, esistono in teoria un'infinità di filogenesi "consistenti". Ma allora, come faccio a decidere quale tra le innumerevoli opzioni alternative ricavabili è quella "corretta"? Siccome ogni singola filogenesi a 238 caratteri è legittimata a considerarsi "valida" dato che comunque qualche segnale corretto contiene, il solo modo per risolvere la questione è creando una filogenesi che includa simultaneamente tutti i "segnali parziali" presenti in ciascuna versione a 238 caratteri. Ovvero, devo usare una filogenesi costruita con tutti e 1800 caratteri. Ovvero, proprio ciò che Peters nega.

Attenzione: non sto dicendo che la mia filogenesi a 1800 caratteri è "quella giusta", sto solo constatando che sicuramente non può esserlo quella realizzato usando solamente "238", perché ridurre i dati per arrivare alla soluzione è improbabile che sia una opzione più solida rispetto a quella con più dati possibili. 

In breve, l'impianto retorico di Peters crolla su sé stesso: noi dobbiamo usare un set di dati che sia ricco e dettagliato sia nei caratteri che nei taxa.

17 commenti:

  1. Oh, finalmente. Bravo, bella dimostrazione, semplice e chiara. Grazie.
    Diego Sala

    RispondiElimina
  2. No, no. You see Peters just happened to choose the correct 238 characters to resolve all chordates, and you can tell because his alone shows a gradual accumulation of traits. Yours doesn't, so you did something wrong. You probably don't even know that he showed all theropods have tiny complete fifth pedal digits a decade ago, while you foolishly believe the PhDs and/or try to hide the truth from everyone else. Because we're all in a conspiracy to do bad science and ignore the only person who knows the truth about phylogeny because... I don't know! Bwa ha ha ha!

    RispondiElimina
    Risposte
    1. Shame on me, Mickey, because I am unable to detect the 238 good ones among all the false ones ;-)

      Elimina
  3. Senza niente togliere alla doverosa demolizione di Peters, quando vedo strutture logiche viziate da bias di conferma, mi torna sempre in mente l'esperimento di Millikan della determinazione della carica dell'elettrone mediante gocce sospese, il suo scontro con Ehrenhaft e tutta la questione dei dati scartati.

    Lo lascio da leggere a chi volesse, anche se non è paleontologia. La morale decidetela da soli.
    https://digilander.libero.it/roberto20129/esperimenti/gocciaolio.html


    Emanuele

    PS
    Non sostiene Peters, almeno, non con la morale che ne traggo io.

    RispondiElimina
    Risposte
    1. Le analisi di Peters sono sistematicamente sbagliate sul piano del metodo. Non solo egli omette di includere caratteri che devono essere testati, ma il modo con cui codifica quei (pochi e spesso definiti in modo grossolano) caratteri rasenta il ridicolo.
      Non occorre scomodare i fondamenti dell'epistemologia per sapere che una matrice che codifica taxa che vanno dall'anfiosso al cavallo usando 200 caratteri ricavati photoshoppando delle foto in jpg è una scemenza.

      Elimina
    2. Mi pare che il primo e l'ultimo periodo del mio commento, concordino in pieno con quel che hai ribadito.
      La storia della determinazione della carica dell'elettrone non l'ho messa per argomentare. L'ho messa perché è importante, perché tutti dovrebbero conoscerla e perché (relativamente) pochi hanno la fortuna di averla letta. In incursione di fisica in un blog di paleontologia, vedila come una forma di parassitismo divulgativo. :-P

      Emanuele

      Elimina
    3. Ok, volevo meglio capire le tue parole senza rischiare di averle fraintese.

      Elimina
  4. Really nice post. I can't deny I'm waiting for Peter's reply, just for plain fun.

    RispondiElimina
  5. Dear Dr Cau: Curious why are your results illegible? And which results, left or right, are the result of 1800 traits? Curious also if the traits you use are general (e.g. longer than vs. no longer than) and if you have multistate scores for each of your traits? Multistate traits greatly multiply the effectiveness of each trait to lump and separate taxa and clades.

    Earlier you indicated an unwillingness to share your .nex file for testing. On the other hand you indicated that I was a pseudoscientist for doing the same thing... which is odd since the .nex file has always been available by email request, as shown on the LRT cladogram webpage here: http://reptileevolution.com/reptile-tree.htm

    Complete transparency in materials and methods is a hallmark of good science. To your point, though, the goal of any cladogram is to model or replicate actual evolutionary events. To test this, all taxa should physically resemble one another more than they do more distant taxa. If I am wrong about any two sister taxa at ReptileEvolution.com, please let me know so I can make corrections. Making corrections is something I do all the time. Once I am able to see your results with clarity, may I make similar suggestions to your cladogram? (If any.) Wouldn't you prefer all cladograms to match your own? Let's work toward that goal.

    RispondiElimina
    Risposte
    1. The list of characters used in my matrices is published in my peer-reviewed literature. Your list of characters is not published and was not peer-reviewed.
      Both binary and multistate characters are valid for inferring relationships, what matters is that they are well-formed: https://onlinelibrary.wiley.com/doi/10.1111/j.1096-0031.2007.00161.x .

      D.P. wrote: "And which results, left or right, are the result of 1800 traits?"

      Your above question shows that you have not undertood the post. Both results are based on two alternative subsets of 238 characters each.

      As me and other paleontologists have experienced too many times in the past, any attempt to have a logical and rational discussion with you is doomed to failure. You keep to misunderstand what a phylogenetic analysis is, how characters are defined and encoded, what "reproducibility" means, and what "phylogenetic tree" actually means. You don't understand what "cladogram", "sister taxa", "evolutionary events" mean. All you blog is full of nonsense and absurd claims about all above mentioned terms.
      I have no time to waste in giving you a phylogenetic lesson that you will surely misunderstand. You keep ignoring all testable evidence, the scientific methods, any epistemological basis and the experience of the scientific community.

      Trying to show you your mistakes is a waste of time because you don't listen and you don't want to understand.

      Your site is pseudoscience: it is based on unsupported claims, it propagates nonsense and absurd hypotheses which have no support elsewhere but only in your photoshopped artworks.

      There is nothing else to say. You are like flat-earthers and creationists: you have created a religion called LRT, you believes in a myth called "taxon exclusion" and you need an enemy called "PhDs" in order to justify all the nonsense in your blog.

      Elimina
    2. Dr. Cau, you wrote: "Your list of characters is not published and was not peer-reviewed." This is true. The project is not yet finished and may never be finished. ReptileEvolution.com has been growing online for the last ten years. Nevertheless anyone interested can have the complete character and taxon list (now broken up into three overlapping parts due to size constraints on the software) at any time simply by asking. I have corrected over 100,000 mistakes over the last ten years, either in the figures or the scores as I learn about taxa as time goes by. Later versions have fewer errors. Thank you for the reference to the Sereno paper.

      Elimina
  6. You ask: "And which results, left or right, are the result of 1800 traits?"

    The caption says:"The initial part of two alternative phylogenies obtained by randomly extracting 238 characters from a total sample of over 1800 and then repeating the same procedure with another 238 characters extracted at random from the same total sample"

    I wonder if you understand what the caption says.

    RispondiElimina
    Risposte
    1. Apparently I did not understand the translation to English correctly. Thank you for pointing out that both illegible versions were incorrect based on chopping 1800 characters down to 238. Still wondering how the 'correct' cladogram of Dr. Cau differs from my 'incorrect' one? Is there a 2021 cladogram of theropods from Dr. Cau available? Also wondering why Dr. Cau wasted time creating this blogpost in the first place if "Trying to show you your mistakes is a waste of time."

      Elimina
    2. "Also wondering why Dr. Cau wasted time creating this blogpost in the first place if "Trying to show you your mistakes is a waste of time.""

      This post is for those really interested to science, not for you.

      Elimina
  7. Dear Dr. Cau: I am comparing the theropod subset of the large reptile tree to your cladogram in Cau 2020 and will present the comparisons in the next day or two. At present I note that many taxa I use are omitted from Cau 2020. Likewise, taxa found in Cau 2020 are not present in the LRT. Many taxa Cau 2020 nested together likewise nest together in the LRT. We'll figure this out apart or together.

    RispondiElimina
    Risposte
    1. I am not interested to read whatever comparison between your pseudo-scientific "tree" and my 2020 peer-reviewed publication focusing on Coelurosauria. Please, avoid any future comment here. If you believe the two analyses can be compared, you should submit your work to a peer-reviewed journal. But I am sure you would not do anything like that, because you have already expressed a long list of excuses for not doing what real scientists do. So, any argument based on your "matrix" is intrinsically flawed by the non-scientific nature of that "dataset".
      A matrix assembled scoring taxa or specimens from photoshopped jpg photos is not science, it's a sort of naive cosplaying.

      Elimina
  8. As expected, in his blog, Peters published a "reply" to this post. The same guy who depicted me and other scientists as "shenanigans" now suggests there that we should "be cordial ( = nice, kind, respectful) to colleagues".
    Oh sweet hypocritical person.
    PS: is Peters someone we could call "colleague"? No, because he does not work like a scientist. He does not follow the scientific method.
    Contrary to Peters' claim, "pseudoscience" does not mean "belief without evidence" (that's the definition of "faith"). Pseudoscience is any statement which apparently sounds as based on the scientific method but which fails to respect the basis of a proper scientific investigation. Peters' "phylogenetics" is pseudoscience not because it is based on no evidence, but because it does not follow the proper methods of any phylogenetic investigation.
    I hope this is my last comment on that person.

    RispondiElimina

I commenti anonimi saranno ignorati
Anonymous comments are being ignored