Introducción a la calidad en NGS La secuenciación de próxima generación (NGS) genera millones de lecturas . Es fundamental evaluar la calidad de los datos antes de cualquier análisis downstream. El control de calidad evita resultados erróneos o interpretaciones sesgadas .
https://www.youtube.com/watch?v=EDVKxSNdSic
Formato FASTQ Almacena lecturas secuenciadas y sus calidades base por base. Cada lectura contiene 4 líneas : 1. Cabecera (@) 2. Secuencia 3. Separador (+) 4. Calidades (Phred codificado en ASCII)
Formato FASTQ
Problemas comunes en datos de secuenciación Adaptadores presentes en lecturas . Bases de baja calidad en los extremos . Sesgo de contenido GC. Lecturas duplicadas . Contaminación con otras secuencias .
FastQC: herramienta de QC Herramienta estándar para evaluar calidad de datos NGS. Genera reportes HTML y gráficos de calidad . Analiza adaptadores , contenido GC, calidades base a base, duplicados , etc.
Uso de fastqc #Instalar conda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh Cerrar y abrir #Instalar fastqc conda install bioconda :: fastqc fastqc – help #Instalar trimmomatic conda install bioconda ::trimmomatic trimmomatic – help #Analisis de calidad mkdir qc fastqc reads /*. fastq -o qc / #Filtrado de calidad Instalación de miniconda https://docs.vultr.com/how-to-install-miniconda-on-ubuntu-22-04
Uso de fastqc wget https://www.well.ox.ac.uk/~gav/projects/oxford_statgen_summer_school/day_one_morning.tgz tar - xzf day_one_morning.tgz rm day_one_morning.tgz cd sequence_data_analysis zless -S malaria/QG0033-C_Illumina-HiSeq_read1.fastq.gz mkdir fastqc_output fastqc -o fastqc_output malaria/*.fastq.gz trimmomatic PE QG0033-C_Illumina-HiSeq_read1.fastq.gz QG0033-C_Illumina-HiSeq_read2.fastq.gz - baseout trim_reads.fastq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:2:True MINLEN:30
Interpretación de módulos 1. Per base sequence quality : b oxplot de calidad por posición .
Interpretación de módulos 2. Per sequence quality scores: distribución de calidades promedio por lectura.
Interpretación de módulos 3. p er base sequence content: composición A/T/G/C en cada posición .
Interpretación de módulos 4. Per sequence GC content : distribución del %GC por lectura
Interpretación de módulos (II) 5. Per base N content: porcentaje de bases N.
Interpretación de módulos (II) Sequence Duplication Levels : Nivel de secuencias duplicadas
Cómo decidir si la secuenciación fue buena o mala Se consideran aceptables calidades Phred > 20-30 en la mayoría de las posiciones . El contenido GC debe seguir la distribución esperada para la especie . Alta presencia de adaptadores o duplicados indica problemas en la librería , pero esperable en estudios de metabarcoding . Reportes FAIL/WARN deben investigarse .
Procesos de limpieza Eliminación de adaptadores ( cutadapt , trimmomatic ). Filtrado por calidad ( descartar lecturas de baja calidad ). Recorte de extremos con baja calidad . Re- evaluar con FastQC tras limpieza .
Procesos de limpieza
Conclusiones La evaluación de calidad es un paso crítico en análisis NGS. FastQC permite detectar adaptadores , baja calidad , sesgos y contaminaciones . Un buen control de calidad asegura resultados confiables en análisis downstream.