Universitat Politècnica de Catalunya. Facultat de Matemàtiques i Estadística
DOCTORAT EN BIOINFORMÀTICA (Pla 2022)
(English) The advent of omics technologies, such as high-throughput experiments, has revolutionized modern biology. They allow the study of the behavior of hundreds of features (such as genes, proteins, or metabolites) under different experimental conditions. While obtaining feature lists from these experiments suggests substantial progress, it is more relevant to provide functional meaning to these lists, that is, to understand and evaluate the biological significance of their elements. This work concentrates on developing a method to identify the functional similarity between a set of feature lists. The method is based on the premise that two or more feature lists reveal biological similarity if they share a significant proportion of enriched GO terms. The metric selected to assess this proportion is obtained from the Sorensen-Dice index, which we proved follows an asymptotically normal distribution; however, in cases of low enrichment, a distribution based on the Bootstrap approach is more suitable. This asymptotic analysis has led to the development of a statistic hypothesis test based on the equivalence approach, enabling the inference of biological similarity between two or more lists when the Sorensen dissimilarity is null, except for an irrelevant deviation, which is defined by an irrelevance limit developed according to the geometric bioavailability ratio, which prevents using an arbitrary irrelevance limit, typically associated with most tests using this equivalence approach. This hypothesis test has been tested through a simulation study, which proves that it works effectively, maintaining a controlled type I error probability and acceptable power. In addition, a dissimilarity matrix has been developed based on the irrelevance limit that makes the compared lists equivalent. The values of this matrix measure the degree of functional similarity between the compared lists. Their graphical representation allows for observing a grouping structure according to the degree of biological similarity. From this, detecting the biological functions associated with these clusterings has been possible. The R-package goSorensen, hosted on Bioconductor, is a validated computational tool for effectively managing this analysis's extensive inputs and outputs. This R-package has been built to apply the method proposed in this thesis. The method has been implemented on real gene lists. The results facilitated the visualisation of outputs and enabled a comparison of the method's consistency and efficacy against alternative methods employed for analogous purposes.
(Català) L'adveniment de tecnologies òmiques, com ara els experiments d'alt rendiment, ha revolucionat la biologia moderna. Elles permeten estudiar el comportament de centenars de característiques (com gens, proteïnes o metabòlits) en diferents condicions experimentals. Si bé lobtenció de llistes de característiques a partir daquests experiments suggereix un progrés substancial, és més rellevant proporcionar un significat funcional a aquestes llistes, és a dir, comprendre i avaluar el significat biològic dels seus elements. Aquest treball es concentra en el desenvolupament d‟un mètode per identificar la similitud funcional entre un conjunt de llistes de característiques. El mètode es basa en la premissa que dues o més llistes de característiques revelen similitud biològica si comparteixen una proporció significativa de termes GO enriquits. La mètrica seleccionada per avaluar aquesta proporció s'obté de l'índex de Sorensen-Dice, que demostrem que segueix una distribució asimptòticament normal; en casos de baix enriquiment, però, una distribució basada en l'enfocament Bootstrap és més adequada. Aquesta anàlisi asimptòtica ha portat al desenvolupament d'un test d'hipòtesi estadístic basat en l'enfocament d'equivalència, que permet inferir la similitud biològica entre dues o més llistes quan la dissimilitud de Sorensen és nul·la, llevat d'una desviació irrellevant, definida per un límit d'irrellevància desenvolupat en funció de la raó geomètrica de biodisponibilitat, cosa que evita utilitzar un límit d'irrellevància arbitrari, típicament associat a la majoria dels tests que utilitzen aquest. Aquest test dhipòtesi ha estat provat mitjançant un estudi de simulació, que demostra que funciona de forma eficaç, mantenint una probabilitat derror de tipus I controlada i una potència acceptable. A més, s'ha desenvolupat una matriu de dissimilitud basada en el límit d'irrellevància que fa que les llistes comparades siguin equivalents. Els valors d'aquesta matriu mesuren el grau de similitud funcional entre les llistes comparades. La representació gràfica permet observar una estructura d'agrupament en funció del grau de similitud biològica. A partir d'això, ha estat possible detectar les funcions biològiques associades a aquests agrupaments. El paquet R goSorensen, allotjat a Bioconductor, és una eina computacional validada per gestionar de manera eficaç les nombroses entrades i sortides d'aquesta anàlisi. Aquest paquet R ha estat creat per aplicar el mètode proposat en aquesta tesi. El mètode s'ha implementat a llistes de gens reals. Els resultats van facilitar la visualització de les sortides i van permetre una comparació de la consistència i eficàcia del mètode davant de mètodes alternatius emprats per a fins anàlegs.
(Español) El advenimiento de tecnologías ómicas, como los experimentos de alto rendimiento, ha revolucionado la biología moderna. Ellas permiten estudiar el comportamiento de cientos de características (como genes, proteínas o metabolitos) en diferentes condiciones experimentales. Si bien la obtención de listas de características a partir de estos experimentos sugiere un progreso sustancial, es más relevante proporcionar un significado funcional a estas listas, es decir, comprender y evaluar el significado biológico de sus elementos. Este trabajo se concentra en el desarrollo de un método para identificar la similitud funcional entre un conjunto de listas de características. El método se basa en la premisa de que dos o más listas de características revelan similitud biológica si comparten una proporción significativa de términos GO enriquecidos. La métrica seleccionada para evaluar esta proporción se obtiene del índice de Sorensen-Dice, que demostramos que sigue una distribución asintóticamente normal; sin embargo, en casos de bajo enriquecimiento, una distribución basada en el enfoque Bootstrap es más adecuada. Este análisis asintótico ha llevado al desarrollo de un test de hipótesis estadístico basado en el enfoque de equivalencia, que permite inferir la similitud biológica entre dos o más listas cuando la disimilitud de Sorensen es nula, salvo por una desviación irrelevante, que viene definida por un límite de irrelevancia desarrollado en función de la razón geométrica de biodisponibilidad, lo que evita utilizar un límite de irrelevancia arbitrario, típicamente asociado a la mayoría de los tests que utilizan este. Este test de hipótesis ha sido probado mediante un estudio de simulación, que demuestra que funciona de forma eficaz, manteniendo una probabilidad de error de tipo I controlada y una potencia aceptable. Además, se ha desarrollado una matriz de disimilitud basada en el límite de irrelevancia que hace que las listas comparadas sean equivalentes. Los valores de esta matriz miden el grado de similitud funcional entre las listas comparadas. Su representación gráfica permite observar una estructura de agrupamiento en función del grado de similitud biológica. A partir de ello, ha sido posible detectar las funciones biológicas asociadas a estos agrupamientos. El paquete R goSorensen, alojado en Bioconductor, es una herramienta computacional validada para gestionar de forma eficaz las numerosas entradas y salidas de este análisis. Este paquete R se ha creado para aplicar el método propuesto en esta tesis. El método se ha implementado en listas de genes reales. Los resultados facilitaron la visualización de las salidas y permitieron una comparación de la consistencia y eficacia del método frente a métodos alternativos empleados para fines análogos.
high-throughput experiments; feature lists; functional similarity; gene ontology; Sorensen-Dice; equivalence; normal distribution; bootstrap.
51 - Matemàtiques
Àrees temàtiques de la UPC::Matemàtiques i estadística