Úvod

Rozvoj sekvenačných technológií so širokou paralelnou priepustnosťou dát umožnil laboratóriám po celom svete analyzovať fragmenty DNA rôznych organizmov. Avšak samotné použitie sekvenačných dát často znemožňujú dve prekážky. Po prvé, spracovanie DNA dát a ich interpretácia je často náročnou činnosťou pre výskumníkov a klinických pracovníkov s obmedzenými znalosťami informatiky. Po druhé, pre rôznorodosť dostupného bioinformatického softvéru, kde je jeden nástroj viazaný na konkrétnu verziu ďalšieho nástroja, reprodukovanie analýz dát na inom výpočtovom zariadení je častokrát príliš náročné.

Výsledky

Vytvorili sme framework s implementovanou sadou výpočtových postupov, nazývaný SnakeLines, pre spracovanie párových Illumina čítaní. Sada obsahuje mapovanie, skladanie, značenie variantov, identifikáciu vírusov, transkriptomickú, metagenomickú a metylačnú analýzu. Náš framework implementuje automaticky vytvorené virtuálne prostredie, ktoré obsahuje potrebné nástroje a knižnice a izoluje ich od operačného prostredia, čím zaisťuje ľahkú prenositeľnosť a reprodukovateľnosť na rôznych Unixových systémoch.

Dostupnosť

Zdrojové kódy výpočtových postupov, spolu s testovacími dátami, sú voľne dostupné na nekomerčné použitie v https://github.com/jbudis/snakelines.