A informação dos códigos genéticos sequenciados é na actualidade, provavelmente, a
fonte mais inspiradora para o estudo e avanço das teorias da informação e da
codificação. Algoritmos eficientes para a sua compressão antevêm-se essenciais para a
optimização do armazenamento e comunicação da informação genómica. A compressão
de informação genómica é um caso particular da compressão de informação. A entropia
das sequências de ADN é elevada, contudo variável. Ao nível intra-genómico é maior
nas regiões codificantes e menor nas regiões não codificantes. Ao nível inter-genómico
é maior nos seres procarióticos e menor nos eucarióticos. Na base da redução da
entropia estão as regularidades que perfazem as regiões repetitivas do ADN. As regiões
repetitivas compõem-se sobretudo de padrões aproximados, que incluem pontualmente
mutações, delecções, inserções ou gaps. Os padrões exactos são menos relevantes e
geralmente apresentam-se em numerosas repetições adjacentes. A redundância do ADN
também tem manifestações estatísticas e probabilísticas. As redundâncias das
sequências de ADN são a fonte de recursos de compressão, as grandes repetições
indicam-se para a compressão substitucional com recurso a dicionário, enquanto que as
evidências estatísticas e probabilísticas permitem modelar e predizer parcialmente a
sucessão de símbolos (bases), utilizando compressores estatísticos para capitalizar esse
potencial de compressão. Considerando a entropia máxima para o ADN, a sua
codificação corresponde a 2 bits por base. Em média, os melhores compressores
disponíveis, concebidos para a especificidade do ADN, alcançam os 1,7 bits/base, o que
corresponde a uma taxa de compressão de apenas 15%, valor que é demonstrativo da
dificuldade inerente.
O trabalho realizado corresponde a um framework de análise e compressão de
sequências de ADN, cuja aplicação principal corresponde ao DNALight. O DNALight é
uma solução híbrida para compressão de informação genómica baseada na cooperação
de várias metodologias vocacionadas para absorver ocorrências das diferentes tipologias
de redundâncias presentes nas cadeias de nucleótidos. De facto, a compressão não é
possível sem análise. É na completa análise que reside a obtenção dos recursos que
permitirão reduzir a entropia. Para a análise de sequências de ADN desenvolveram-se
algoritmos inovadores para a pesquisa de padrões exactos (GRASPm) e aproximados
v
(SimSearch) que alcançam desempenhos que superam destacadamente o estado da arte.
Estes algoritmos intervêm na primeira fase do DNALight que aproveita o potencial dos
padrões mais representativos para a compressão substitucional baseada em dicionário de
padrões exactos e aproximados. Para maximizar as captações de padrões, a pesquisa é
exaustiva e efectuada multi-nível, ou seja, na sequência normal 5’-3’, na complementar
natural 3’-5’, e também nas duas restantes complementares artificiais. Na segunda fase
do DNALight, que procura fazer o aproveitamento das redundâncias desconsideradas
pela captação da primeira fase, são construídos modelos probabilísticos de linguagem
compactos com bases nas regiões menos repetitivas que transitam para esta fase, e que
constituem o input para esta metodologia complementar. Em concorrência, os modelos
geram predições sustentadas nas apreciações probabilísticas de modelos de linguagem
globais e locais. As predições acertadas ou aproximadas permitem codificações mais
económicas pois criam maior desequilíbrio no modelo probabilístico de codificação,
beneficiando o desempenho da codificação aritmética que encerra o processo. O
processo de descompressão é similar mas reverso ao descrito para a compressão. Os
resultados experimentais colocam o DNALight como novo integrante do estado da arte
em compressão de sequências de ADN, superando consistentemente, mas em pequena
escala, os seus antecessores.
Genetics is nowadays, probably, the most inspiring source for coding theory study and
developments. Efficient compression algorithms are essential to optimise genomic data
storage and communication. Genomic data compression is a particular case of data
compression. The entropy present in DNA sequences is high, however variable. At
intra-genomic level, it is higher in coding regions and lower in non-coding regions. At
inter-genomic level, it is higher in the prokaryotes and lower in eukaryotes. DNA
entropy reduction is achieved by coding more efficiently the repetitive regions of the
ADN. Repetitive regions are mainly composed of inexact patterns. Patterns’ errors are
caused by biological processes and DNA dynamics including mutations, deletions,
insertions or gaps. Exact patterns are less relevant and generally are presented in tandem
repetitions. DNA redundancies have also statistical and probabilistic manifestations.
The redundancies of DNA sequences are the most proficuous source of compression
resources, the larger repetitions are indicated for substitucional compression based on a
dictionary, whereas the statistical and probabilistic evidences allow to model and predict
the succession of symbols (bases) in the sequence, using statistical compression to
capitalize this compression potential. Considering the maximum DNA entropy, its
codification cost corresponds to 2 bits per base. On average, the best available
compressors, conceived accordingly DNA data specificities, reach 1,7 bits/base, which
corresponds to a compression rate of only 15%, and this value is demonstrative of the
inherent difficulty.
The developed work corresponds to a framework for the analysis and compression of
DNA sequences, being DNALight the most representative application. DNALight is a
hybrid solution for DNA compression based on the cooperative integration of
complementary methodologies to absorb the different redundancies present in DNA
sequences. In fact, compression is not possible without analysis. Gathering resources for
compression relies mostly in analysis, and the emerged recurrences will allow to reduce
the entropy. Innovative algorithms were developed for exact pattern-matching
(GRASPm) and approximate and exact pattern discovery (SimSearch) and their
performance notoriously surpasses the state of the art. These algorithms play an
important role in the first phase of the DNALight to implement substitucional
vii
compression based on dictionary of exact and approximated repeats. To maximize
pattern recollection, the searching is performed multi-level, i.e., in normal sequence 5' -
3', in natural complementary sequence 3' - 5', and also in the two remaining artificial
complementary sequences. In the second phase of DNALight, focused on taking
advantage of the missed redundancies in the first phase, probabilistic language models
are built based on the less repetitive regions as they constitute the input of this
complementary methodology. In competition, the models generate predictions
supported in the probabilistic analysis of global and local language models. Accurate or
approximated predictions allow compact codifications as they provide a more
disproportional probabilistic model for codification, benefiting the arithmetic coding
performance that encloses the process. The decompression process is similar, but
reverse when compared with compression. The experimental results place DNALight as
a new constituent of the state of the art in DNA sequences compression, surpassing
consistently, but in small scale, its predecessors.
Tese de Doutoramento em Informática. Área de Investigação em Bioinformática.