Moderne genetik har udviklet en kraftfuld metode kaldet genomisk selektion, der bruger data indeholdt i planters og dyrs genomer til at forbedre avlen.
Genomisk selektion muliggør forudsigelse af et individs genetiske potentiale for ønskede kvaliteter, såsom sygdomsresistens, udbytte eller kvalitet, ved at undersøge DNA-sekvensforskellene på tværs af individer.
Disse genetiske data hjælper med at træffe bedre informerede beslutninger, fremskynde udvælgelsesprocessen og skabe avlsprogrammer, der er mere effektive og frugtbare.
I dette interessante område af genetik, machine learning har skabt vidundere og forbedret feltet. Lad os dykke ned i og lære om maskinlæring i genomisk selektion.
Hvad er genomisk selektion helt præcist?
Genomisk selektion er en teknik, der bruges i dyre- og planteavl til at forudsige et individs præstationer baseret på deres genetiske sammensætning.
Det indebærer at se på folks DNA for at finde bestemte markører forbundet med ønskværdige egenskaber.
Forskere kan bestemme en persons genetiske potentiale for egenskaber som sygdomsresistens, udbytte eller kvalitet ved at analysere disse markører på tværs af hele genomet.
Opdrættere kan forudsige afkoms ydeevne mere præcist takket være genomisk selektion uden behov for tidskrævende og dyre fænotypiske vurderinger.
Ved at gøre det muligt for opdrættere at vælge individer med det bedste genetiske potentiale til avlsprogrammer, hjælper denne metode med at accelerere avlsprocessen ved at muliggøre mere effektiv og fokuseret forbedring af ønskede egenskaber i plante- og dyrepopulationer.
Planteavl via genomisk selektion
Planteavl har gennemgået en revolution takket være genomisk selektion, som har fremskyndet processen og øget afgrødeudbyttet.
Men for at løse de kommende problemer, som klimaforandringerne medfører, er mere udvikling nødvendig.
For at løse dette bruger forskere pangenomer og banebrydende maskinlæringsmetoder i genomisk selektion.
Hele det genomiske materiale af en art, også kendt som pangenomet, giver mulighed for en grundig forståelse af genetisk variation.
Vi kan åbne vejen for afgrødeforbedring og afbøde de skadelige virkninger af klimaændringer på landbruget ved at se på eksempler fra afgrødeavl, forstå begrænsningerne ved maskinlæring og fremhæve løftet om disse teknikker.
Pangenomer af planter: Afsløring af genomisk mangfoldighed
Traditionelt har enkeltreferencegenomsamlinger været det primære fokus for genomisk selektion, men pangenomer bliver nu mere udbredte. Plantepangenomer, snarere end individuelle genomsamlinger, afspejler det genetiske materiale af en art eller familie.
Signifikante genvarianter, herunder dem, der ikke er inkluderet i referencesamlingen, afsløres af dem. For adskillige afgrøder er der blevet skabt pangenomer, der belyser historien om plantetæmning og forædling.
Deres kombination med genetisk selektion er dog kun delvist effektiv.
Opdrættere kan bruge et bredere udvalg af genetiske markører, forbedre forudsigelsesnøjagtigheden og fange alle potentielle forbindelser ved at kombinere pangenomer i genomisk selektion.
Genomisk selektion baseret på maskinlæring
Traditionelle genomiske selektionsmetoder har vanskeligheder med at adressere ikke-additive effekter som epistase, genomisk prægning og genotype-interaktioner. Ved at simulere disse påvirkninger giver maskinlæringstilgange levedygtige svar.
Nylige undersøgelser har brugt maskinlæringsmetoder i genomisk selektion, med resultater, der spænder mellem datasæt og afgrøder.
Maskinindlæringsalgoritmer er i stand til at håndtere komplicerede datarepræsentationer, såsom blandede fænotyper og interaktioner mellem fænotyper eller genotyper.
For eksempel er maskinlæringsalgoritmer blevet brugt til at forudsige produktions- og frugtkvalitetsfunktioner i polyploide afgrøder såsom jordbær og blåbær.
Selvom disse systemer har et stort potentiale, er forståelsen af deres fortolkbarhed og justering af hyperparametre afgørende for effektiv anvendelse.
Forskellige metoder til maskinlæring
I genomiske forudsigelsesstudier vokser brugen af maskinlæringsteknikker. Disse teknikker kan opdeles i måder til superviseret og uovervåget læring.
Metoder til superviseret læring er særligt nyttige, da de kan opdage mønstre i mærkede data og forudse resultater.
Mens forskellige undersøgelser har undersøgt forudsigelseseffektiviteten af specifikke maskinlæringstilgange, mangler der forskning, der sammenligner forskellige sæt metoder.
Det er afgørende at forstå, hvilke grupper af metoder der fungerer bedre og at afveje deres fordele og ulemper i sammenligning med konventionelle måder.
Lovende genomiske forudsigelsesmetoder
Lineære blandede modeller
I genomisk forudsigelse har konventionelle lineære blandede modeller vist sig at være pålidelige og nyttige. For at tage højde for genetisk variation i befolkningen, integrerer disse modeller både faste og tilfældige effekter.
Disse algoritmer kan præcist forudsige genomiske avlsværdier ved at tage hensyn til individuel slægtskab.
På grund af deres konkurrenceprægede prædiktive ydeevne, beregningseffektivitet og enkelhed anvendes lineære blandede modeller i vid udstrækning i plante- og dyreavl. De kræver færre tuning-parametre end andre tilgange, hvilket gør dem velegnede til genomisk selektion.
Reguleret regression
Til genomforudsigelse er regulariserede regressionsmetoder som LASSO (Least Absolute Shrinkage and Selection Operator) og ridge-regression effektive værktøjer.
Disse teknikker muliggør variabel udvælgelse og regularisering ved at tilføje et strafudtryk til den konventionelle regressionsmodel.
Disse metoder håndterer effektivt højdimensionelle data og forbedrer forudsigelsesnøjagtigheden ved at reducere mindre signifikante markører mod nul.
Regulariserede regressionsteknikker er tiltalende valg for genomisk selektion i både plante- og dyreavlsundersøgelser, fordi de rammer et kompromis mellem enkelhed og effektivitet.
Tilfældige skove
En ensemblelæringsteknik kaldet tilfældige skove laver forudsigelser ved hjælp af beslutningstræer. Tilfældige skove kan bruges til at vurdere højdimensionelle genomiske data i sammenhæng med genomisk forudsigelse.
Med denne metode bygges et stort antal beslutningstræer, der hver trænes på en tilfældig delmængde af markører, og deres forudsigelser kombineres for at producere en enkelt prognose.
Tilfældige skove er et nyttigt værktøj til genomisk selektion, fordi de kan identificere indviklede interaktioner og ikke-lineære korrelationer mellem karakteristika og markører.
Tilfældige skove er også modstandsdygtige over for outliers og kan rumme manglende data, hvilket øger deres værdi for genomisk forudsigelse.
ANN'er (kunstige neurale netværk)
Kunstig neurale netværk, nogle gange omtalt som ANN'er eller neurale netværk, er beregningsmodeller, der henter inspiration fra den menneskelige hjernes neurale arkitektur.
På grund af deres evne til at genkende indviklede mønstre og relationer i data, er ANN'er blevet mere og mere almindelige i genetisk forudsigelse.
ANN'er kan registrere ikke-lineære interaktioner mellem markører og attributter på grund af deres flerlagsarkitektur og indbyrdes forbundne noder (neuroner). Disse netværk har brug for grundig træning ved hjælp af store datasæt og streng hyperparameterjustering.
Ved at afsløre komplekse genetiske forbindelser og identificere skjulte mønstre i genomiske data har ANN'er potentialet til at øge nøjagtigheden af genomisk forudsigelse.
Målegenskaber og vigtigheden af data
Undersøgelser viser, at de særlige data og målattributter, der evalueres, har en indvirkning på forudsigelsesydelsen og beregningsomkostningerne ved maskinlæringstilgange.
Som det kan observeres, kan tilføjelse af kompleksitet til traditionelle regulariserede tilgange resultere i store computeromkostninger uden nødvendigvis at øge forudsigelsespræcisionen.
Beregningseffektivitetsinvesteringer
I betragtning af afhængigheden af måldatasæt og attributter til forudsigelig ydeevne og beregningsmæssig byrde, er det afgørende at investere i at forbedre beregningseffektiviteten af maskinlæringsalgoritmer og computerressourcer.
Dette ville hjælpe med at forbedre præcisionen og effektiviteten af genomisk selektion.
Konklusion - Hvad bringer fremtiden?
Maskinlæring i genomisk selektion ser ud til at have en lys fremtid. Maskinlæringsteknikker har potentialet til fuldstændig at ændre genetisk forudsigelse, efterhånden som teknologien udvikler sig, og computerressourcer bliver mere udbredt tilgængelige.
Disse metoder giver mulighed for håndtering af højdimensionelle genomiske data, opdagelse af indviklede mønstre og en stigning i forudsigelsesnøjagtighed.
Ved at facilitere en hurtigere og mere præcis udvælgelse af individer med ønskede funktioner, rummer kombinationen af maskinlæringsalgoritmer med genomisk udvælgelse muligheden for at forbedre avlsprogrammer.
For at forbedre disse teknikker, håndtere beregningsmæssige problemer og undersøge deres anvendelse på forskellige plante- og dyrearter, er der behov for mere undersøgelse.
Vi forventer, at maskinlæring bliver stadig vigtigere i genomisk selektion, efterhånden som teknologien udvikler sig, hvilket fremskynder hastigheden af genetiske fremskridt og hjælper landbrugssektoren.
Giv en kommentar