PROGRAMA DE PÓS-GRADUAÇÃO EM AGROQUÍMICA
Por: Ednelso245 • 29/5/2018 • 3.534 Palavras (15 Páginas) • 304 Visualizações
...
1.2 Validação Cruzada
Esta validação divide os dados em dois segmentos: um utilizado para treinar (calibrar) um modelo e outro usado para validar o modelo. Na validação cruzada típica, os conjuntos de calibração e validação devem ser misturados, em sucessivos ciclos de tal forma que cada amostra tenha a chance de ser validada (TEÓFILO, 2009).
A validação cruzada é baseada na avaliação da magnitude dos erros de previsão comparando as concentrações das amostras do conjunto de calibração (yi, i=1:N) com as respectivas previsões ŷi quando as mesmas não participam na construção do modelo de regressão.
1 – Remove-se uma ou mais amostras i do conjunto de calibração e constrói-se o modelo com as restantes.
2 – Usa-se o novo modelo para prever os dados removidos ŷi utilizando-se diferentes número de variáveis latentes.
3 – Calcula-se o erro quadrático médio de validação cruzada para cada previsão:
[pic 3]
4 – isto é feito até que todas as amostras possam ser validadas.
1.3 MLR - Regressão Linear Múltipla
Este método é considerado mais simples que os demais (PCR e PLS), para que o mesmo possa ser aplicado alguns quesitos tem que ser satisfeitos:
• As colunas da matriz X (variáveis) tem que ser linearmente independentes;
• O número de amostras tem que ser maior que o número de variáveis (preciso ter mais equações I que incógnitas J);
• E é necessário que o número de variáveis seja maior que o número de analitos presentes no sistema.
Sua vantagem é que a regressão usando MLR é realizada com as variáveis originais (TEÓFILO, 2009).
O método MLR sofre do problema de colinearidade: o número de amostras deve exceder o número de variáveis, que por sua vez devem fornecer predominantemente informação única. Temos neste caso a opção de selecionar um certo número de variáveis que seja menor que o número de amostras e que produzam informação "única", o que pode ser demorado e tedioso (FERREIRA et al., 1999).
Os métodos PCR e PLS são considerados ideais para solucionar os problemas que o MLR possui.Estes dois métodos são consideravelmente mais eficientes para lidar com ruídos experimentais, colinearidades e não linearidades. Todas as variáveis relevantes são incluídas nos modelos via PCR ou PLS, o que implica que a calibração pode ser realizada eficientemente mesmo na presença de interferentes, não havendo necessidade do conhecimento do número e natureza dos mesmos. Os métodos PCR e PLS são robustos, isto é, seus parâmetros praticamente não se alteram com a inclusão de novas amostras no conjunto de calibração (FERREIRA et al., 1999).
1.4 PCR – Regressão por Componentes Principais
Um aspecto característico do método PCR é a construção das componentes principais utilizando unicamente as respostas instrumentais (X) sem levar em consideração informações provenientes das concentrações (y). Isto é uma fragilidade do método no caso em que o analito de interesse tem um sinal muito fraco e portanto não influencia fortemente nas primeiras componentes principais, fazendo com que um número maior delas seja necessário para a construção do modelo (FERREIRA et al., 1999).
Vantagens do método PCR
Funciona bem com dados ruidosos, na presença de interferentes e impurezas. Há remoção de ruído e compressão dos dados. Isto melhora a qualidade do modelo e a exatidão.
Vantagem multicanal.
A PCR resolve o problema da colinearidade (possibilidade de inverter a matriz).
Menor número de variáveis são necessárias.
Desvantagens do método PCR
Matematicamente é mais complexo.
A construção do modelo é mais trabalhosa.
É computacionalmente dispendiosa.
Considera apenas a variância em X e não considera informação em y quando da obtenção das componentes.
1.5 PLS – Quadrados Mínimos Parciais
Contorna a dificuldade característica do PCR descrita acima usando a informação das concentrações na obtenção dos fatores, o que só é justificável se tais concentrações tiverem valores confiáveis. O primeiro fator, neste caso chamado de variável latente, descreve a direção de máxima variância que também se correlaciona com a concentração. Estas variáveis latentes são na realidade combinações lineares das componentes principais calculadas pelo método PCR. Há vários algoritmos para calcular a decomposição usada em PLS (FERREIRA et al., 1999).
Vantagens do método PLS
Funciona bem com dados ruidosos, na presença de interferentes e impurezas.
Há remoção de ruído e compressão dos dados (remoção de colinearidade).
Isto melhora a qualidade do modelo e a exatidão.
Vantagem multicanal.
Menor número de variáveis são necessárias.
Considera a variância em X e y quando da obtenção das componentes, resultando em um melhor ajuste do modelo, quando comparado ao PCR.
Permite modelar pequenas não-linearidades.
Permite modelar mais de uma resposta experimental (y) simultaneamente – PLS2.
Permite realizar análise discriminante (classificação) – PLS-DA.
É computacionalmente mais simples que o PCR.
Desvantagens do método PLS
Matematicamente é mais complexo que o PCR.
A construção do modelo é trabalhosa.
...