Theropoda: "Character exclusion" vs "Taxon exclusion"

26 aprile 2021

"Character exclusion" vs "Taxon exclusion"

La parte iniziale di due filogenesi alternative ottenute estraendo a caso 238 caratteri su un campione totale di oltre 1800 e poi ripetendo la medesima procedura con altri 238 caratteri estratti a caso dallo stesso campione totale. Anche senza visualizzare i due alberi interi, notate come essi siano completamente in disaccordo tra loro. Se uno dei due è "corretto", come posso identificarlo?

Nel suo blog di pseudo-scienza, l'illustratore David Peters manda avanti una campagna di diffamazione degli zoologi e paleontologi (specialmente se dotati di dottorato di ricerca) costruita intorno alla retorica che egli sia il solo ad aver costruito una filogenesi attendibile dei vertebrati. Il fulcro della sua retorica è il così detto concetto di "taxon exclusion", ovvero l'idea che tutte le filogenesi pubblicate (a parte la sua) siano viziate da un difetto nel campionamento delle specie incluse. Secondo Peters, il campionamento tassonomico (l'inclusione delle specie nell'analisi), qualora sia ampio, è sufficiente per determinare la filogenesi accurata poiché il gran numero dei taxa tenderebbe "automaticamente" a convergere verso la topologia più parsimoniosa in virtù delle serie di transizioni anatomiche che proprio il ricco campionamento permetterebbe di identificare. In pratica, il ragionamento di Peters è che una filogenesi è come un puzzle: se si dispone di un gran numero di pezzi, questi potranno assemblarsi solamente in un solo modo, quello reale. La filogenesi sarebbe quindi una proprietà automatica del campionamento tassonomico una volta che sia superata un numero adeguato di specie.

Al contrario, sostiene Peters, un ricco campionamento di caratteri morfologici, ma privo di ricco campionamento tassonomico, sarebbe incapace di produrre una filogenesi corretta.

Corollario dell'argomentazione di Peters è che una filogenesi sufficientemente ricca di specie non richiede un adeguato campionamento di caratteristiche anatomiche, le quali, oltre un certo numero di caratteri, sarebbero solo dati ridondanti, rumore inutile.

Dato che io dispongo di una filogenesi dei theropodi mesozoici molto ricca sia in termini di taxa che di caratteri (>500 taxa vs >1800 caratteri), posso testare l'ipotesi di Peters. [NB: il campionamento tassonomico dei theropodi della mia matrice è ben maggiore del suo, quindi, secondo la sua logica, la mia matrice è migliore della sua per ricostruire Theropoda]

Se Peters ha ragione, la grande maggioranza dei caratteri nella mia matrice è ridondante e superflua, mentre la mera presenza di centinaia e centinaia di taxa renderebbe la ricostruzione delle "vere relazioni" automatica senza ricorrere a così tanti caratteri.

Per testare questa ipotesi, ho quindi ridotto il numero dei caratteri in matrice, selezionando 238 caratteri estratti a caso. Il numero (238) è lo stesso della pseudo-filogenesi dei vertebrati di Peters.

Se l'ipotesi di Peters è corretta, io dovrei ricavare la filogenesi dei Theropoda mesozoici solamente usando 238 caratteri, indipendentemente da quali siano i 238 caratteri selezionati: ciò che conta è solo l'abbondanza delle specie. Se così fosse, anche con 238 caratteri io mi dovrei aspettare di ricavare una filogenesi molto simile alla tipologia generale che tendo ad ottenere usando tutti gli oltre 1800 caratteri.

Purtroppo per Peters, ciò non accade: la topologia della filogenesi a 238 caratteri è molto diversa da quella con 1800 caratteri, e - dato non secondario - è del tutto incompatibile con qualsiasi filogenesi pubblicata finora negli oltre 35 anni di filogenetica dei theropodi quantitativa.

Non solo, ma se ripeto l'analisi con altri 238 caratteri, ovvero usando un diverso gruppo di caratteri selezionati a caso, non ottengo mai una filogenesi che sia simile al test precedente, né tanto meno alla filogenesi con tutti i 1800 caratteri, né a qualche filogenesi pubblicata in passato.

Perché? Molto brutalmente, perché usare solo 238 caratteri con un campionamento tassonomico di oltre 500 specie è del tutto insufficiente per ricavare relazioni stabili e sensate. Il mero insieme delle specie, se non è accompagnato da un adeguato campionamento dei caratteri, tende ad essere massicciamente influenzato dal più classico degli errori nelle scienze: l'errore di campionamento derivante da pochi dati. Dato che l'omoplasia (convergenze e reversioni) è pervasiva nei vertebrati, dato che i fossili non sono mai completi, dato che diverse regioni anatomiche producono un diverso segnale filogenetico, è evidente che estraendo solo 238 caratteri da un campione di (almeno!) 1800 caratteri validi significa mutilare pesantemente la quantità di informazione disponibile.

Se, come sostiene Peters, una filogenesi di 238 caratteri e centinaia di taxa è "consistente", ed io posso in teoria ottenere un'infinità di filogenesi alternative estraendo a caso 238 caratteri dalla mia lista di oltre 1800, esistono in teoria un'infinità di filogenesi "consistenti". Ma allora, come faccio a decidere quale tra le innumerevoli opzioni alternative ricavabili è quella "corretta"? Siccome ogni singola filogenesi a 238 caratteri è legittimata a considerarsi "valida" dato che comunque qualche segnale corretto contiene, il solo modo per risolvere la questione è creando una filogenesi che includa simultaneamente tutti i "segnali parziali" presenti in ciascuna versione a 238 caratteri. Ovvero, devo usare una filogenesi costruita con tutti e 1800 caratteri. Ovvero, proprio ciò che Peters nega.

Attenzione: non sto dicendo che la mia filogenesi a 1800 caratteri è "quella giusta", sto solo constatando che sicuramente non può esserlo quella realizzato usando solamente "238", perché ridurre i dati per arrivare alla soluzione è improbabile che sia una opzione più solida rispetto a quella con più dati possibili.

In breve, l'impianto retorico di Peters crolla su sé stesso: noi dobbiamo usare un set di dati che sia ricco e dettagliato sia nei caratteri che nei taxa.

17 commenti:

Unknown26/4/21 16:09
Oh, finalmente. Bravo, bella dimostrazione, semplice e chiara. Grazie.
Diego Sala
RispondiElimina
Risposte
Mickey Mortimer27/4/21 08:08
No, no. You see Peters just happened to choose the correct 238 characters to resolve all chordates, and you can tell because his alone shows a gradual accumulation of traits. Yours doesn't, so you did something wrong. You probably don't even know that he showed all theropods have tiny complete fifth pedal digits a decade ago, while you foolishly believe the PhDs and/or try to hide the truth from everyone else. Because we're all in a conspiracy to do bad science and ignore the only person who knows the truth about phylogeny because... I don't know! Bwa ha ha ha!
RispondiElimina
Risposte
Unknown29/4/21 16:00
Senza niente togliere alla doverosa demolizione di Peters, quando vedo strutture logiche viziate da bias di conferma, mi torna sempre in mente l'esperimento di Millikan della determinazione della carica dell'elettrone mediante gocce sospese, il suo scontro con Ehrenhaft e tutta la questione dei dati scartati.

Lo lascio da leggere a chi volesse, anche se non è paleontologia. La morale decidetela da soli.
https://digilander.libero.it/roberto20129/esperimenti/gocciaolio.html

Emanuele

PS
Non sostiene Peters, almeno, non con la morale che ne traggo io.
RispondiElimina
Risposte
João2/5/21 20:18
Really nice post. I can't deny I'm waiting for Peter's reply, just for plain fun.
RispondiElimina
Risposte
D.P.13/5/21 19:13
Dear Dr Cau: Curious why are your results illegible? And which results, left or right, are the result of 1800 traits? Curious also if the traits you use are general (e.g. longer than vs. no longer than) and if you have multistate scores for each of your traits? Multistate traits greatly multiply the effectiveness of each trait to lump and separate taxa and clades.

Earlier you indicated an unwillingness to share your .nex file for testing. On the other hand you indicated that I was a pseudoscientist for doing the same thing... which is odd since the .nex file has always been available by email request, as shown on the LRT cladogram webpage here: http://reptileevolution.com/reptile-tree.htm

Complete transparency in materials and methods is a hallmark of good science. To your point, though, the goal of any cladogram is to model or replicate actual evolutionary events. To test this, all taxa should physically resemble one another more than they do more distant taxa. If I am wrong about any two sister taxa at ReptileEvolution.com, please let me know so I can make corrections. Making corrections is something I do all the time. Once I am able to see your results with clarity, may I make similar suggestions to your cladogram? (If any.) Wouldn't you prefer all cladograms to match your own? Let's work toward that goal.
RispondiElimina
Risposte
João13/5/21 20:06
You ask: "And which results, left or right, are the result of 1800 traits?"

The caption says:"The initial part of two alternative phylogenies obtained by randomly extracting 238 characters from a total sample of over 1800 and then repeating the same procedure with another 238 characters extracted at random from the same total sample"

I wonder if you understand what the caption says.
RispondiElimina
Risposte
D.P.14/5/21 03:27
Dear Dr. Cau: I am comparing the theropod subset of the large reptile tree to your cladogram in Cau 2020 and will present the comparisons in the next day or two. At present I note that many taxa I use are omitted from Cau 2020. Likewise, taxa found in Cau 2020 are not present in the LRT. Many taxa Cau 2020 nested together likewise nest together in the LRT. We'll figure this out apart or together.
RispondiElimina
Risposte
Andrea Cau15/5/21 09:36
As expected, in his blog, Peters published a "reply" to this post. The same guy who depicted me and other scientists as "shenanigans" now suggests there that we should "be cordial ( = nice, kind, respectful) to colleagues".
Oh sweet hypocritical person.
PS: is Peters someone we could call "colleague"? No, because he does not work like a scientist. He does not follow the scientific method.
Contrary to Peters' claim, "pseudoscience" does not mean "belief without evidence" (that's the definition of "faith"). Pseudoscience is any statement which apparently sounds as based on the scientific method but which fails to respect the basis of a proper scientific investigation. Peters' "phylogenetics" is pseudoscience not because it is based on no evidence, but because it does not follow the proper methods of any phylogenetic investigation.
I hope this is my last comment on that person.
RispondiElimina
Risposte

Aggiungi commento

I commenti anonimi saranno ignorati
-------------------------------------------------------------
Anonymous comments are being ignored
-------------------------------------------------------------

CITAZIONI NEL WEB

-The amount of detail Andrea puts in to his posts is awesome, as are the many novel excellent illustrations he uses (virtually all of which he produces himself). - Darren Naish

-Just another of Andrea Cau's always interesting writings. If anyone out there is still trying to use the excuse that they can't read his blog because it isn't in English, then they should be firmly made aware that this is no excuse. ;D - Nick Gardner

-A proposito, con un sito che ha toccato le 70.000 visite a questa data e le 130.000 pagine lette dagli utenti è un crimine ignorare "Theropoda", il miglior blog mondiale sui teropodi, aggiornato costantemente da Andrea Cau, nonchè fonte inesauribile di notizie, informazioni e novità sulla paleontologia italiana e non. - Leonardo Ambasciano

-Andrea Cau: Dinos, not just for kids!“I hate the childish stereotype of paleontology being of primary interest for children and adolescents.” Switch the word "paleontology" with "animation" and you have one of my pet peeves. Check out Andrea’s inspiring art work and scientific writing at his blog. - David Maas

-L'excellent blog Theropoda d'Andrea Cau qui est à ma connaissance le meilleur site web pour être au courant des nouveautés sur les dinosaures carnivores. La section Spinosauroidea présente un grand nombre d'articles sur les Spinosauridae. - Christophe Hendrickx

-Да, "теропода" - отличный блог, там появляется вся самая свежая информация по динозаврам. - Anonimo.

-Can the world handle TWO theropod blogs (*cough* Andrea Cau *cough*)? - Mickey Mortimer

-Si ayer mismo hablábamos de cómo se ha rellenado una laguna que parecía insalvable, el día de hoy se presenta muy -como diría nuestro colega Andrea Cau- teropodológicamente activo. - Francisco Gascó

-Italian-language blog Theropoda (love the cladistic in-joke tag line) - Matt Martyniuk

- Og for de interesserede er her et link til Andrea Cau’s udmærkede blog: Theropoda. Foruden fantastiske tegninger og rekonstruktioner, indeholder den rigeligt med kommentarer til den nyeste forskning og dybe tanker om de kødædende dinosaurer og fuglenes udvikling (så vidt oversættelsesprogrammet tillader mig at forstå). - Bent Lindow

- Theropoda, di Andrea Cau. Non ho nient’altro da dire, perché se avete anche solo un minimo di interesse per la paleontologia lo conoscete, e se non lo conoscete non sapete cosa vi perdete. E sì, tendenzialmente è un blog tecnico, ma se gran parte della roba la capisco io, la potete benissimo capire anche voi. - DoppiaM

- Perché seguire "Theropoda"? Vi dico perché lo seguo io, da quando l'ho scoperto circa due anni fa: per la qualità dei contenuti in primis, possibile soltanto quando si produce divulgazione diretta e non semplice divulgazione di nozioni.
Lo stile chiaro e diretto di Andrea rende accessibili contenuti complessi anche a semplici appassionati, non forniti di competenze specifiche nel campo dei Teropodi. Pure essendo un fisico, amo la scienza in tutte le sue declinazioni. La Paleontologia è sicuramente una delle scienze più affascinanti e coinvolgenti. "Theropoda" di Andrea Cau è, a mio avviso, uno dei migliori blog sui Teropodi, a livello internazionale. Merita sicuramente di essere conosciuto il più possibile perché costituisce un vero fiore all'occhiello per la blogosfera scientifica italiana. - Annarita Ruberto

Pagine

(Rough) Translator

26 aprile 2021

"Character exclusion" vs "Taxon exclusion"

17 commenti: