Úvod

Analýzy založené na masívnom paralelnom sekvenovaní detegujú obrovské množstvá variantov, pričom iba niekoľko z nich súvisí so skúmanou vlastnosťou. Úspešná identifikácie týchto variantov vyžaduje rozsiahlu anotáciu viacerými atribútmi – predovšetkým skóre funčnej predikcie a kozervačné skóre. Rôzne anotačné údaje sa nachádzajú v rôznych databázach, čo robí manuálnu anotáciu zdĺhavým a únavným procesom.

Variant Annotation Analyser

Pre uľahčenie anotácie varianton sme vyvinuli desktopovú aplikáciu zvanú Variant Annotation Analyzer (VAA) spolu s webovou službou Variant Annotation Service (VAS). Aplikácia VAA slúži ako thick klient, ktorý komunikuje so službou VAS, ktorá slúži ako poskytovateľ anotácií.

Pre anotáciu variantov musí používateľ v aplikácií otvoriť  VCF súbor a označiť požadované atribúty. Všetky práve zobrazené záznamy VCF sú automaticky oanotované jeden po jednom v poradí v ktorom sú zobrazené v aplikácií.  VAA taktiež podporuje následnú prioritizáciu pomocou operácií filtrovania a zoraďovania, ktoré sú špecifické pre každý dátový typ atribútu. Filtre atribútov sú definované vo Filter moduli, kde môžu byť zreťazené pomocou logických operácií a rozdelené do filtrovacích skupín podľa významu. Modul Prioritization umožňuje používateľovi priradiť váhy vybratej množine atribútov, čím sa automaticky priradí skóre každému variantu, podľa ktorého je možné varianty utriediť.

Údaje a nastavenia môžu byť z aplikácie exportované do formátov xlsx, csv a tsv pre ďalšiu analýzu v ľubovoľnom tabuľkovom editore. Ďalšou výhodou aplikácie je jej modulárna architektúra, ktorá umožňuje jednoduchú integráciu nových funkcionalít a ďalším poskytovateľov anotácií.

Variant annotation Service

Služba Variant Annotation Service (VAS) slúži ako webové rozhranie pre databázu funkčnej predikcie nesynonymných variantov – dbNSFP, ktorá zahŕňa viac ako 100 atribútov zozbieraných s viacerých bežne používaných databáz génov a variantov a nástrojov na predikciu konzervačného skóre a funkcie. Webová služba nie je obmedzená na použitie s VAA, ale je priamo dostupná pre akademické účely.

Prioritizácia so strojovým učením

Vyvinuli sme taktiež prioritizačný proces variantov, ktorý využíva strojové učenie, založený na preferencii používateľa. Tento však v aplikácii zatiaľ implementovaný nebol. Zmyslom tejto prioritizácie je používateľovi uľahčiť vyhľadávanie podobných variantov podľa jeho preferencie na základe manuálnej selekcie malého množstva variantov. Používateľ nemusí poznať všetky atribúty, ktoré súvisia s vyhľadávanou vlastnosťou. Všetky významné atribúty a ich váhy môžu byť odhadnuté natrénovaným modelom strojového učenia. Modul Prioritization by mal byť schopný tieto váhy importovať a podľa nich varianty utriediť.

Záver

Aplikácia VAA a webová služba VAS poskytuje výskumníkom bohatú a automatizovanú anotáciu variantov za zlomok času v porovnaní s manuálnou anotáciou. Webová anotácia naviac odstraňuje potrebu uchovávania obrovských databáz na lokálnom zariadení. S možnosťou následnej prioritizácie predstavuje VAA efektívny nástroj pre rýchlu identifikáciu potenciálnych kandidátov na varianty súvisiace so skúmaným javom.