A Detecção de face, aumentando, sensoriamento humana
Por: Hugo.bassi • 10/12/2018 • 5.130 Palavras (21 Páginas) • 363 Visualizações
...
o desempenho de generalização (Schapire et al., 1998).
A terceira maior contribuição deste trabalho é um método para combinar sucessivamente classificadores mais complexas em uma estrutura em cascata que aumenta drasticamente a velocidade do detector, concentrando a atenção em regiões promissoras da imagem. A noção atrás foco de atenção abordagens é que muitas vezes é possível determinar rapidamente onde em uma imagem pode ocorrer uma cara (Tsotsos et ai, 1995;.. Itti et ai, 1998; Amit e Geman, 1999; Fleuret e Geman, 2001 ). Mais um processamento complexo é reservada apenas para essas regiões promissoras. A principal medida de uma tal abordagem é a taxa de "falso negativo" do processo de atenção. Deve ser o caso em que todos, ou quase todos, os casos de face são seleccionados pelo filtro de atenção.
Vamos descrever um processo para treinar um classificador extremamente simples e eficiente que pode ser usado como um "supervisionado" foco de atenção operator.1 Um operador de Detecção de Rosto de atenção pode ser aprendido que irá filtrar mais de 50% da imagem, preservando 99% das faces (como avaliado ao longo de um grande conjunto de dados). Este filtro é extremamente eficiente; pode ser avaliada em 20 operações simples por local / escala (aproximadamente 60 instruções do microprocessador).
Esses sub-janelas que não são rejeitadas pelo classificador inicial são processados por uma sequência de classificadores, cada um pouco mais complexo do que o último. Se algum classificador rejeita a sub-janela, nenhum processamento adicional é realizada. A estrutura do processo de detecção em cascata é essencialmente a de uma árvore de decisão degenerada, e, como tal, está relacionado com o trabalho de Fleuret e Geman (2001) e Amit e Geman (1999).
A cascata de detecção de rosto completo tem 38 classificadores, que totalizam mais de 80.000 operações. Não obstante a estrutura em cascata resulta em extremamente rápidos tempos de detecção médios. Em um conjunto de dados difícil, com 507 rostos e 75 milhões de sub-janelas, rostos são detectados, utilizando uma média de 270 instruções do microprocessador por sub-janela. Em comparação, este sistema é de cerca de 15 vezes mais rápido do que uma aplicação do sistema de detecção construídos por Rowley et al. (1998) 0,2
Um detector de rosto extremamente rápido terá aplicações práticas gerais. Estes incluem interfaces de usuário, bancos de dados de imagem e de teleconferência. Este aumento na velocidade irá permitir aplicações de detecção de rosto em tempo real em sistemas onde estavam anteriormente inviável. Em aplicações onde rápidas frame-rate não são necessários, o nosso sistema irá permitir para pós-processamento adicional significativo e análise. Além disso o nosso sistema pode ser implementado em uma ampla gama de pequenos dispositivos de baixa potência, incluindo mão-helds e processadores embarcados. Em nosso laboratório temos implementado este detector de face em um baixo consumo de energia do processador Arm 200 MIPS forte que carece de hardware de ponto flutuante e ter alcançado a detecção em dois quadros por segundo.
1.1. Overview
As restantes secções do papel discutirá a aplicação do detector, teoria relacionada, e experimentos. Seção 2 vontade detalhadamente a forma dos recursos, bem como um novo esquema para computar-los rapidamente. Seção 3 vai discutir o método em que estas características são combinados para formar um classificador. O aprendizado de máquina método utilizado, uma aplicação de AdaBoost, também atua como um mecanismo de seleção de recurso. Enquanto os classificadores que são construídos desta maneira têm um bom desempenho computacional e classificação, eles são demasiado lentos para um classificador em tempo real. Secção 4 irá descrever um método para a construção de uma cascata de classificadores que em conjunto geram um detector de cara extremamente fiável e eficiente. Secção 5 vai descrever uma série de resultados experimentais, incluindo uma descrição detalhada da nossa metodologia experimental. Finalmente Seção 6 contém uma discussão deste sistema e sua relação com os sistemas relacionados.
2. Características
Nosso procedimento de detecção de rosto classifica imagens com base no valor dos recursos simples. Há muitas motivações para o uso de recursos e não os pixels diretamente. A razão mais comum é que os recursos podem agir para codificar o conhecimento de domínio ad-hoc que é difícil de aprender usando uma quantidade finita de dados de treinamento. Para este sistema, há também uma segunda motivação crítico para características: o sistema baseado em função opera muito mais rápido que um sistema baseado em pixel.
Os recursos simples usados são uma reminiscência de funções de base Haar, que têm sido utilizados por Papageorgiou et al. (1998). Mais especificamente, usamos três tipos de recursos. O valor de uma função de duas rectângulo é a diferença entre a soma dos pixels dentro de duas regiões rectangulares. As regiões têm o mesmo tamanho e forma e são horizontalmente ou verticalmente adjacentes (ver Fig. 1). Uma característica de três retângulo calcula a soma dentro de dois retângulos fora subtraído da soma em um retângulo centro. Finalmente um recurso de quatro retângulo calcula a diferença entre os pares diagonais de retângulos.
Tendo em conta que a resolução base do detector é de 24 × 24, o conjunto exaustivo de recursos retângulo é bastante grande, 160.000. Note-se que ao contrário da base Haar, o conjunto de características retângulo é overcomplete.3
Figura 1 - características Exemplo retângulo mostrado em relação à janela de detecção de inclusão. A soma dos pixels que se encontram dentro dos retângulos brancos são subtraídos da soma de pixels nos retângulos cinzentos. características dois retângulo são mostrados em (A) e (B). Figura (C) mostra uma característica de três retângulo, e um recurso de quatro retângulo (D).
2.1. Imagem integral
Características em forma retangular pode ser calculado usando-se muito rapidamente uma representação intermédia para a imagem que chamamos o imagem. integrante A imagem integrante na posição X, Y contém a soma dos pixels de cima e à esquerda de x, y, inclusive:
em que II (x, y) é a imagem integral e I (x, y) é a imagem original (ver Fig. 2). Usando o seguinte par de recorrências:
(Onde S (x, y) é a soma cumulativa
...