Genomic Prediction and Genome-Wide Association Analysis in Common Bean (Phaseolus vulgaris l.) × Tepary bean (P. acutifolius a. gray) Inter-specific Advanced Lines at the Caribbean Coast of Colombia

Resumen

The negative effects of the climate change are risking global food security with 828 million people facing hunger, which is almost 16 times the population of Colombia. Given this scenario, legumes as common bean has offered a nature-based solution to source nutrients for rural communities in Latin America thanks to their high content of nutrients. For this reason, it is imperative to speed up the molecular genetic breading of common beans so that they can be cultivated in regions affected by extreme climate change, one of which is coastal Colombian. Therefore, in order to bridge this gap, this study aimed coupling an advanced panel of common bean (Phaseolus vulgaris L.) × tepary bean (P. acutifolius A. Gray) inter-specific lines with Bayesian regression algorithms to identify novel sources of adaptation to the humid and dry sub-regions at the Caribbean coast of Colombia, where common bean typically exhibits maladaptation to extreme heat waves. A total of 87 advanced lines with inter-specific ancestries were genotyped by sequencing (GBS), leading to the discovery of 15,645 single-nucleotide polymorphism (SNP) markers. Three yield components and two biomass variables were recorded for each genotype and inputted in several Bayesian regression models to identify the top genotypes with the best genetic breeding values across three localities in coastal Colombia. We explored the comparative analysis of several regression approaches where the model with the best performance in all traits and environments was BayesC. Also, we compared the utilization of all markers and only those determined as associated by a priori GWAS models. Better prediction ability with the complete SNP set was indicative of missing heritability as part of GWAS reconstructions. Furthermore, optimal SNP sets per environment and trait were determined to the top 500 most explicative markers according to their β regression effects. These 500 SNPs on average overlapped in 5.24 % across localities, which reinforced the environmentally dependent nature of polygenic adaptation. Finally, we retrieved the genomic estimated breeding values (GEBVs), and selected the top 10 genotypes for each environment and trait as part of a recommendation scheme targeting narrow adaption. The genotypes and SNP markers identified in this study as candidates for abiotic stress have the potential to be used in the following cycles as part of the long-term bean breeding program for coastal tropical regions.

Descripción

Los efectos negativos del cambio climático están poniendo en riesgo la seguridad alimentaria mundial con 828 millones de personas pasando hambre, casi 16 veces la población de Colombia. Ante este escenario, las leguminosas como el frijol común han ofrecido una solución basada en la naturaleza como fuente de alimento para las comunidades rurales de América Latina gracias a su alto contenido de nutrientes. Por ello, es imperativo acelerar el mejoramiento genético molecular del frijol común para que pueda ser cultivado en regiones afectadas por el cambio climático extremo, una de las cuales es la costa colombiana. Por lo tanto, para cerrar esta brecha, este estudio tuvo como objetivo acoplar un panel avanzado de líneas interespecíficas de frijol común (Phaseolus vulgaris L.) × frijol tepary (P. acutifolius A. Gray) con algoritmos de regresión bayesianos para identificar nuevas fuentes de adaptación. a las subregiones húmedas y secas de la costa caribeña de Colombia, donde el frijol común presenta típicamente una mala adaptación a las olas de calor extremo. Se genotiparon mediante secuenciación (GBS) un total de 87 líneas avanzadas con ancestros interespecíficos, lo que condujo al descubrimiento de 15 645 marcadores de polimorfismo de un solo nucleótido (SNP). Se registraron tres componentes de rendimiento y dos variables de biomasa para cada genotipo y se ingresaron en varios modelos de regresión bayesiana para identificar los principales genotipos con los mejores valores de mejoramiento genético en tres localidades de la costa de Colombia. Exploramos el análisis comparativo de varios enfoques de regresión donde el modelo con el mejor desempeño en todos los rasgos y entornos fue BayesC. Además, comparamos la utilización de todos los marcadores y solo aquellos determinados como asociados por modelos GWAS a priori. Una mejor capacidad de predicción con el conjunto completo de SNP fue indicativa de falta de heredabilidad como parte de las reconstrucciones de GWAS. Además, los conjuntos de SNP óptimos por entorno y característica se determinaron en los 500 marcadores más explicativos de acuerdo con sus efectos de regresión β. Estos 500 SNP se superpusieron en promedio en un 5,24 % entre localidades, lo que reforzó la naturaleza ambientalmente dependiente de la adaptación poligénica. Finalmente, recuperamos los valores genéticos estimados genómicos (GEBV) y seleccionamos los 10 genotipos principales para cada entorno y rasgo como parte de un esquema de recomendación dirigido a la adaptación estrecha. Los genotipos y marcadores SNP identificados en este estudio como candidatos para el estrés abiótico tienen el potencial de ser utilizados en los siguientes ciclos como parte del programa de mejoramiento de frijol a largo plazo para las regiones tropicales costeras.

Palabras clave

Modelamiento, Bayesiano, Predicción genómica, Inteligencia artificial, Biología computacional, Mejoramiento genético, Bioinformática, Aprendizaje de máquina

Citación