banner

Noticias

Oct 11, 2023

Uso de ISU

Scientific Reports volumen 12, Número de artículo: 11604 (2022) Citar este artículo

1991 Accesos

2 citas

Detalles de métricas

La detección de defectos superficiales es un proceso vital en la producción industrial y una importante dirección de investigación en visión artificial. Aunque los métodos de detección de defectos de aprendizaje profundo de hoy en día basados ​​en la visión por computadora pueden lograr una alta precisión de detección, se basan principalmente en el aprendizaje supervisado. Requieren muchas muestras de defectos para entrenar el modelo, lo que no es compatible con la situación actual en la que la muestra de defectos industriales es difícil de obtener y costosa de etiquetar. Por lo tanto, proponemos un nuevo modelo de detección de defectos de muestra pequeña no supervisado: ISU-GAN, que se basa en la arquitectura CycleGAN. Se agregan una conexión de salto, un módulo SE y un módulo Involution al Generador, lo que permite mejorar significativamente la capacidad de extracción de características del modelo. Además, proponemos un método de segmentación de defectos basado en SSIM que se aplica a la detección de defectos basada en GAN y puede extraer con precisión contornos de defectos sin la necesidad de un procesamiento posterior de reducción de ruido redundante. Los experimentos en el conjunto de datos DAGM2007 muestran que el ISU-GAN no supervisado puede lograr una mayor precisión de detección y perfiles de defectos más finos con menos de 1/3 de los datos de entrenamiento sin etiquetar que el modelo supervisado con el conjunto de entrenamiento completo. En relación con los modelos de segmentación supervisada UNet y ResUNet++ con más muestras de entrenamiento, nuestro modelo mejora la precisión de detección en un 2,84 % y un 0,41 % respectivamente y la puntuación F1 en un 0,025 y un 0,0012 respectivamente. Además, el perfil predicho obtenido con nuestro método está más cerca del perfil real que otros modelos utilizados para la comparación.

Los productos pueden tener defectos superficiales en el proceso de producción industrial real debido a errores de la máquina, errores de los trabajadores y problemas del proceso de producción. Los defectos de la superficie no solo afectan la estética y el rendimiento del producto, lo que resulta en una menor satisfacción del usuario, sino que también pueden ser un peligro para la seguridad, lo que representa una amenaza para la vida y la propiedad del usuario. Por lo tanto, la detección de defectos superficiales es una parte esencial de la producción industrial.

Durante mucho tiempo, el proceso de defecto superficial industrial se ha basado en el trabajo manual, que no solo requiere mucho tiempo y es laborioso, sino también muy subjetivo, que no puede satisfacer las necesidades de la producción industrial con alta eficiencia y precisión. Por lo tanto, la tecnología de detección automática de defectos basada en la visión por computadora ha sido una dirección de investigación más popular. Actualmente, los métodos automatizados de detección de defectos basados ​​en visión artificial incluyen principalmente métodos tradicionales y métodos de aprendizaje profundo.

Los métodos tradicionales se basan en la información estructural de la imagen para detectar defectos. Por lo general, requiere esfuerzos humanos para diseñar el algoritmo de detección correspondiente en función de las características del defecto y el escenario de aplicación real. Los métodos tradicionales actuales de detección de defectos basados ​​en la visión artificial incluyen principalmente el filtrado Gabor1, el algoritmo de patrón binario local mejorado (MB-LBP)2, el algoritmo Sobel mejorado3, etc. -detección final. El tiempo y el costo económico de diseñar diferentes algoritmos de inspección para diferentes defectos a mano son muy altos y requieren una gran cantidad de personas con gran experiencia, lo que es un desafío para cumplir con los requisitos de eficiencia y costos de la producción industrial. Además, en la práctica, los algoritmos de detección basados ​​en las características de los defectos vistos por el ojo humano son susceptibles a la interferencia de los cambios en el entorno externo, lo que dificulta lograr una robustez satisfactoria.

Con la llegada del aprendizaje profundo, varios algoritmos basados ​​en redes neuronales convolucionales (CNN) han logrado resultados sorprendentes en muchos subcampos de la visión artificial. En comparación con los métodos tradicionales de detección de defectos, los métodos de aprendizaje profundo eliminan en su mayoría la necesidad de modelar manualmente las características de los defectos y permiten la detección de un extremo a otro. También tienen las ventajas de alta precisión de detección, rápida convergencia y robustez.

Específicamente, los métodos estándar de aprendizaje profundo para la detección de defectos incluyen métodos de detección de objetivos, métodos de segmentación semántica y métodos novedosos de detección generativos basados ​​en redes antagónicas.

La detección de objetos es una tarea fundamental en el campo de la visión artificial. Su objetivo es detectar la posición o categoría de un objeto específico en una imagen dada. Específicamente en la aplicación de detección de defectos, el área donde se encuentra el defecto se utiliza como objeto a detectar. Las redes de detección estándar en el campo de la detección de defectos son SSD4, YOLO5, Faster R-CNN6, etc. En el área de detección de defectos, los modelos de detección de objetos suelen funcionar bien en velocidad y precisión. Sin embargo, la incapacidad de extraer perfiles de defectos sigue siendo una gran desventaja porque un perfil fino puede ayudar a explorar las causas de los defectos en la industria.

A diferencia de la clasificación a nivel de objeto para la detección de objetos, la segmentación semántica persigue la clasificación a nivel de píxel. A diferencia de la detección de objetos, que solo necesita proporcionar marcos de predicción a nivel de objeto, la segmentación semántica requiere una predicción de clasificación para cada píxel de la imagen. Así, el uso de redes de segmentación semántica para la detección de defectos localiza el defecto y segmenta el contorno real del defecto. Las principales redes de segmentación actuales en la detección de defectos son Mask R-CNN7, UNet8, SegNet9, etc. Los modelos de segmentación semántica pueden extraer los contornos de los defectos, pero dado que clasifica por píxel, requiere una gran cantidad de muestras de entrenamiento y anotación en píxeles.

Muchas técnicas de detección de defectos basadas en visión artificial todavía tienen dos desafíos importantes para las aplicaciones industriales prácticas. En primer lugar, las muestras de entrenamiento que contienen defectos son difíciles de obtener. En segundo lugar, el etiquetado manual de las muestras de formación es costoso. En este caso, Generative Adversarial Networks (GAN)10 ofrece una nueva forma de pensar en la detección de defectos con sus poderosas capacidades de generación de datos. Enfrenta creativamente dos redes funcionalmente diferentes (Generador G y Discriminador D) entre sí. Se entrenan entre sí para mejorar su rendimiento respectivo, lo que da como resultado un Generador que puede generar datos falsos a verdaderos. La red de detección de defectos utilizada en este documento se basa en una de las variantes de GAN-CycleGAN11. CycleGAN es esencialmente dos GAN con simetría de espejo, que pueden aprender dos distribuciones diferentes de muestras entre las relaciones de mapeo, y se usa ampliamente en campos de visión por computadora, como la traducción de imágenes y la migración de estilo.

Dado que el entrenamiento de las redes GAN generalmente no está supervisado, ahorra gran parte del costo asociado con la anotación de conjuntos de datos, lo que es una ventaja significativa en su aplicación práctica.

En los últimos años, ha habido una proliferación de métodos de aprendizaje profundo para la detección de defectos, con muchos modelos novedosos que logran buenos resultados de detección en conjuntos de datos específicos. Por ejemplo, Lee et al.12 propusieron un método de toma de decisiones en tiempo real para la detección de defectos en superficies de acero basado en CNN y mapas de activación de clases. Mei et al.13 utilizaron redes de autocodificadores de eliminación de ruido con pirámides gaussianas para reconstruir defectos y combinaron con fusión multiescala para detectar defectos superficiales en tejidos con buenos resultados. Zhong et al.14 propusieron PVANET++ basado en Faster R-CNN, que asocia el mapa de características de bajo nivel con el mapa de características de alto nivel para formar un nuevo mapa de superexpresión para la extracción de propuestas, aplicado en la detección de defectos en pasadores de chaveta ferroviarios. Tabernik et al.15 diseñaron un modelo de detección en dos etapas basado en la red de segmentación y la red discriminativa. Extrajo perfiles finos de defectos en el conjunto de datos KolektorSDD. Huang et al.16 propusieron un módulo MCue mejorado con UNet para generar imágenes sobresalientes para detectar defectos magnéticos en la superficie de las baldosas. Li et al.17 propusieron una UNet mejorada con módulo de bloque denso y conexión de salto de suma para detectar grietas en la superficie del concreto, y el método logró una precisión de píxeles promedio del 91,59 % y un IoU promedio del 84,53 % en el conjunto de datos de defectos del concreto. Inspirada en UNET y DenseNet, la DefectSegNet propuesta por Roberts et al.18 adopta una conexión de salto dentro y entre bloques, lo que muestra una alta precisión de píxeles en conjuntos de datos de defectos de acero de alta calidad.

Los modelos actuales de detección de defectos superficiales basados ​​en el aprendizaje profundo general pueden lograr una alta precisión de detección y requisitos en tiempo real, pero en su mayoría requieren una gran cantidad de muestras negativas y etiquetas para el entrenamiento, lo cual es costoso y difícil de implementar en aplicaciones industriales.

El uso de GAN para la detección de defectos en la superficie es un enfoque relativamente novedoso, visto por primera vez en AnoGAN19 propuesto por Schlegl et al. en 2017. AnoGAN aprende una distribución de transmisión de muestras positivas en el espacio potencial durante la fase de entrenamiento, mientras que la fase de prueba encuentra iterativamente el vector más cercano en este espacio y luego compara la salida del generador con el mapa original para encontrar la región anómala. Como la optimización iterativa en la fase de entrenamiento requería demasiado tiempo, los autores propusieron una versión mejorada de f-AnoGAN con estructura de codificador20 en 2019. f-AnoGAN alivia el problema del enorme consumo de tiempo hasta cierto punto. Otras versiones mejoradas similares incluyen Zenati et al.21 y Akcay et al.22. Niu et al.23 utilizaron el CycleGAN original para corregir y detectar defectos. Usaron muchas más muestras para entrenar la red y es difícil obtener un rendimiento de detección estable en el caso de antecedentes de defectos complejos.

En respuesta a la dificultad de obtener muestras de defectos en aplicaciones industriales, Di et al.24 combinaron el autocodificador convolucional (CAE) y la red adversarial generativa semisupervisada (SGAN) para proponer un CAE-SGAN semisupervisado para obtener mejores resultados de detección. con menos formación de imágenes de chapa laminada en caliente. He et al.25 propusieron un algoritmo de fusión basado en cDCGAN y ResNet para generar pseudoetiquetas para muestras no etiquetadas y lo usaron para entrenar un modelo de detección de defectos, que logró buenos resultados en el conjunto de datos NEU-CLS. Zhao et al.26 propusieron un método de detección basado en muestras positivas que utilizó un módulo de generación de defectos para crear defectos para las muestras positivas y luego entrenó un DCGAN para reparar los defectos. Pero cómo generar defectos cercanos a la verdadera distribución es un problema más difícil.

Aunque los métodos actuales de detección de defectos basados ​​en GAN pueden ser semisupervisados ​​o no supervisados, solo funcionan bien en superficies texturadas uniformes simples. Las redes GAN que se pueden aplicar a entornos de inspección industrial complejos necesitan más investigación.

Para abordar los problemas comunes de alto costo de anotación y dificultad para obtener datos de entrenamiento para la detección de defectos de aprendizaje profundo, diseñamos un modelo ISU-GAN no supervisado y un método de extracción de defectos basado en SSIM. ISU es una abreviatura de Involution-SE-U, lo que significa una red estructurada en forma de U que utiliza el operador Involution y el operador SE. ISU-GAN es esencialmente una versión mejorada de CycleGAN. Las diferencias con la estructura de red CycleGAN original incluyen: 1. El generador adopta una estructura similar a UNet para reducir la posible pérdida de funciones defectuosas durante el proceso de codificación y decodificación de la imagen de entrada; 2. el operador SE se utiliza para los mapas de características de las capas críticas para suprimir los canales menos importantes; 3. El operador Involution se utiliza para los mapas de características obtenidos por reducción de muestreo para satisfacer la demanda de diferentes capacidades visuales de regiones defectuosas y no defectuosas.

En la fase de entrenamiento, queremos aprender a obtener generadores que mapeen muestras positivas (muestras libres de defectos) y muestras negativas (muestras defectuosas) entre sí. La red de reparación de defectos asigna muestras negativas a muestras positivas y la red de fabricación de defectos asigna muestras positivas a muestras negativas. En fase de pruebas. Introducimos la imagen de prueba en la red de reparación de defectos en la fase de prueba. Luego usamos el algoritmo de similitud estructural (SSIM)27 para comparar la imagen original y la imagen de reparación para obtener un mapa de puntuación SSIM con la misma resolución que la imagen original. Finalmente usamos el algoritmo OTSU28 para extraer los contornos de los defectos adaptativamente.

Nuestro método logra una precisión promedio del 98,43 % y una puntuación F1 de 0,9792 en el conjunto de datos DAGM2007 usando solo una pequeña cantidad de muestras de entrenamiento. Puede segmentar perfiles de defectos muy precisos. También validamos la superioridad de nuestra estructura de red ISU-GAN sobre otros modelos de detección de defectos de uso común y la efectividad de sus módulos principales a través de experimentos comparativos y de ablación.

En general, la innovación de nuestro trabajo incluye principalmente los siguientes dos aspectos.

Proponemos una nueva red de detección de defectos GAN, ISU-GAN, que converge rápidamente y logra una excelente precisión de detección con un pequeño conjunto de datos de entrenamiento.

Proponemos un método de segmentación de defectos basado en SSIM que se aplica a la detección de defectos basada en GAN. Sin necesidad de etiquetas, nuestro método puede extraer con precisión contornos de defectos sin necesidad de un posprocesamiento de reducción de ruido redundante.

Principio de nuestro método de detección. (a) Etapa de entrenamiento. (b) Etapa de prueba. \(G_{n2p}\) y \(G_{p2n}\) son generadores de muestras positivas y negativas respectivamente, \(D_p\) y \(D_n\) son discriminadores de muestras positivas y negativas respectivamente. SSIM es el Algoritmo de Similitud Estructural, y OTSU es el Algoritmo de Segmentación de Umbral Adaptativo de OTSU.

En esa sección, describimos el principio del método de detección de defectos propuesto en este documento y la estructura del modelo de ISU-GAN. En la fase de entrenamiento, entrenamos a ISU-GAN para aprender la relación de mapeo entre muestras negativas y positivas. ISU-GAN se basa en la arquitectura CycleGAN y consta de dos GAN cooperantes, como se muestra en la Fig. 1. La línea naranja continua indica \(GAN_P\) y la línea azul continua indica \(GAN_N\), que son las GAN para reparar defectos y generar defectos, respectivamente.

La primera red antagónica \(GAN_P\) consiste en un Generador \(G_{n2p}\) y un Discriminador \(D_p\). La entrada a \(G_{n2p}\) es el conjunto de muestras negativas N en el conjunto de datos de entrenamiento, que repara las regiones de imagen defectuosas en N y genera muestras pseudopositivas \(\widetilde{P}\) que no contienen defectos . La entrada al discriminador \(D_p\) es la muestra verdadera P y la muestra pseudopositiva \(\widetilde{P}\), cuya función es distinguir P ​​de \(\widetilde{P}\). En consecuencia, otra red antagónica \(GAN_N\) consta de un generador \(G_{p2n}\) y un discriminador \(D_n\). La entrada a \(G_{p2n}\) es el conjunto de muestras positivas P en el conjunto de datos de entrenamiento, que sirve para agregar defectos a las imágenes en P y generar muestras pseudo-negativas \(\widetilde{N}\) que contienen defectos . La entrada al discriminador \(D_n\) es la muestra negativa verdadera N y la muestra pseudonegativa \(\widetilde{N}\), cuya función es distinguir N de \(\widetilde{N}\).

Según el criterio de consistencia del ciclo de CycleGAN, es necesario ingresar \(\widetilde{P}\) en \(G_{p2n}\) para generar muestras pseudonegativas cuadráticas \(\overline{N}\). Esperamos que \(\overline{N}\) y N sean lo más similares posible, es decir, \(n\approx G_{p2n}(G_{n2p}(n)), n\in N\). En consecuencia, \(\widetilde{N}\) se ingresa en \(G_{n2p}\) para generar una muestra pseudopositiva cuadrática \(\overline{P}\), \(p\approx G_{n2p}( G_{p2n}(p)), p\in P\).

En la fase de prueba, el conjunto de datos de prueba X (que contiene muestras positivas y negativas) se alimenta al generador de reparación de defectos \(G_{n2p}\) obtenido del entrenamiento. Para cualquier muestra \(x\in X\), el algoritmo SSIM se usa para comparar x y \(G_{n2p}(x)\) para obtener el mapa de puntuación SSIM con la misma resolución que x (cuanto mayor sea la puntuación significa cuanto mayor sea la similitud de la región). Luego, el algoritmo de segmentación de umbral adaptativo de OTSU se usa para segmentar el mapa de puntuación SSIM para determinar si hay defectos en x y extraer los posibles contornos de defectos.

El Generador se basa en las pautas de diseño del Codificador-Decodificador y tiene una estructura general similar a UNet, como se muestra en la Fig. 2. Después de ingresar la imagen al Generador, primero se reduce la muestra en tres \(3 \times 3\) capas convolucionales para obtener un mapa de características de 256 canales, que luego se pasa a través del módulo SE para filtrar los canales del mapa de características por importancia. Su propósito es aprovechar al máximo las propiedades independientes del canal del próximo módulo Involution para centrarse en los canales más críticos. Nueve bloques residuales consecutivos siguen la capa de Involución para mejorar la convergencia del modelo. Más adelante están los módulos Involution y SE diseñados simétricamente, y una capa de muestreo superior implementada por tres \(4 \times 4\) circunvoluciones transpuestas. En particular, para reducir la pérdida de características de la operación de submuestreo-sobremuestreo, utilizamos una conexión de salto para agregar información de los mapas de características superficiales y profundas. Por lo tanto, filtramos los mapas de funciones de 64 canales y 256 canales de la operación de muestreo descendente mediante el módulo SE, luego los concatenamos con los mapas de funciones correspondientes al mismo número de canales de la operación de muestreo ascendente y usamos \(3 \times 3 \) capa convolucional para restaurar el recuento de canales a su estado original.

En la estructura del Generador, todas las capas convolucionales excepto en \(\bigstar \) llevan Instance Norm y ReLU.

Con una arquitectura similar a UNet, la estructura de la red Generator contiene tres capas de muestreo descendente convolucional y tres capas de muestreo ascendente convolucional transpuestas. La red agrega información de los mapas de características inferiores a través de conexiones de salto, con una capa intermedia que contiene un módulo Squeeze Excitation (SE) y un módulo Involution para mejorar la extracción de características. *Inspirado en StyleGANv229, eliminamos la capa IN \(\bigstar \) para eliminar los artefactos que pueden aparecer en la imagen generada.

Discriminator utiliza la estructura PatchGAN30, que contiene solo cuatro capas convolucionales \(4 \times 4\) superficiales. La imagen de entrada se transforma primero en un mapa de características de 512 canales pasando a través de tres capas convolucionales con un número multiplicativo de filtros, y luego se reduce a un mapa de características X de un solo canal por la acción de una capa convolucional con un número de filtro de 1 Cada píxel en X representa la puntuación del discriminador de la región de ubicación correspondiente de la imagen de entrada. En comparación con los discriminadores convencionales, el Discriminador de la estructura PatchGAN puede discriminar cada parche de la imagen de entrada de manera diferente, lo que permite la extracción de características locales de la imagen, lo que conduce a mejorar la calidad de los detalles de la imagen generada.

En la estructura Discriminator, todas las capas convolucionales vienen con Instance Norm y LeakyReLU con pendiente 0.2. LeakyReLU se usa en lugar de ReLU para aliviar el problema de desaparición del gradiente durante el entrenamiento.

Para reducir la pérdida de características de detalles de la imagen debido al proceso de reducción de muestreo y aumento de muestreo, realizamos una conexión de salto entre los mapas de características intermedias de 64 canales y 128 canales, consulte la Fig. 2. La conexión de salto en ISU-GAN es para conectar el mapa de características superficiales al mapa de características profundas en la dimensión del canal (usando un panel de reflexión para ajustar la resolución exacta si los dos mapas de características tienen resoluciones diferentes). Luego se utiliza una convolución de 3 \(\times \) 3 para restaurar el mapa de características con el doble de canales que el número original de canales. A diferencia de la conexión de salto convencional, el mapa de características poco profundas se vuelve a escalar según la importancia del canal antes de la conexión del canal, utilizando el SE Block. El beneficio de agregar el módulo SE a la conexión de salto es que proporciona una mejor agregación de las características esenciales de los mapas de características superficiales, lo que permite que el modelo extraiga perfiles de defectos con mayor potencia.

El bloque Squeeze-and-excitation es un módulo propuesto en la Ref.31 que aprende la relación entre los canales de características individuales para obtener el peso de cada canal, redimensionando así la importancia de todos los canales. Permite que el modelo se centre más en los canales con información importante y suprima los que no lo son. El diagrama de flujo del Bloque SE se muestra en la Fig. 3.

La operación Squeeze realiza compresión de funciones en cada canal del mapa de funciones, convirtiendo el mapa bidimensional en un número real que agrega todas las funciones en el canal. En este caso, se utiliza la agrupación promedio global para implementar la operación de compresión, como en la ecuación. (1).

Estructura del módulo SE. \(\alpha \) es la relación de reducción de muestreo del canal y \(\otimes \) denota la operación de multiplicación del tensor.

La operación de Excitación tiene como objetivo aprender las interrelaciones entre los diferentes canales del mapa de características y evaluar la importancia de cada canal. Dos convoluciones \(1 \times 1\) sucesivas con un número de filtro de \(\frac{c}{\alpha }\) y c, donde \(\alpha \) es el factor de reducción de escala del canal para reducir los parámetros de la red. Después de dos convoluciones y la activación de ReLU, el vector \(c \times 1 \times 1\) que representa la importancia de cada canal se mapea entre 0 y 1 usando la función Sigmoid. El proceso es como en la Ec. (2).

Finalmente, el vector de importancia del canal z obtenido del aprendizaje se multiplica por el mapa de características original x para obtener el mapa de características reescalado \(\widetilde{x}\), es decir, \(\widetilde{x} = z\cdot x\). El Bloque SE tiene cuatro aplicaciones en nuestra red de Generadores (como se muestra en la parte roja de la Fig. 1), dos antes de la conexión de salto y dos en la capa intermedia de 256 canales.

El operador de convolución tradicional tiene dos propiedades principales: independencia espacial y especificidad de canal. Si bien su independencia del espacio garantiza la eficiencia de la convolución, priva al núcleo de la convolución de la capacidad de adaptarse a diferentes patrones en diferentes regiones. El problema de la redundancia de canales dentro de la convolución no se ha resuelto ni siquiera en muchas redes CNN conocidas.

En el reciente CVPR2021, se propuso el módulo Involution32 para abordar este problema. El operador de involución, que tiene especificidad de espacio e independencia de canal en contraste con la convolución, utiliza la función de generación de kernel \(\phi \) para generar diferentes kernels de convolución para diferentes regiones de ubicación de una imagen. El operador Involution le da a la red diferentes patrones visuales basados ​​en diferentes ubicaciones espaciales.

La forma del kernel H de Involution depende del tamaño del mapa de características de entrada x, y la función de generación del kernel genera H en función de píxeles específicos.

donde \(W_1\) y \(W_2\) representan transformaciones lineales y \(\sigma \) denota BN y ReLU. \(W_1\) reduce la representación de píxeles específicos de ubicación de \(c \times 1 \times 1\) a \(\frac{c}{r} \times 1 \times 1\) (r representa la relación de reducción ), que \(W_2\) luego cambia a \(G \times k \times k\). G es el número de canales en cada grupo, y todos los canales del grupo comparten los parámetros del kernel H, que normalmente se establece en 16. Finalmente, el kernel H generado realiza una operación de convolución de un solo paso en una región de píxeles específica.

Para la detección de defectos superficiales, el uso del módulo Involution satisface la necesidad de diferentes capacidades visuales en diferentes áreas de la imagen (regiones defectuosas y no defectuosas), lo que permite que el modelo extraiga contornos de defectos más realistas.

La similitud estructural (SSIM) es un algoritmo que mide la similitud de dos imágenes, teniendo en cuenta el brillo, el contraste y las características estructurales de la imagen. SSIM mide estas diferencias a través de la función de comparación de luminancia l(x, y), la función de comparación de contraste c(x, y) y la función de comparación estructural s(x, y), respectivamente.

donde \(\mu _x\), \(\sigma _x\) y \(\sigma _{xy}\) indican la media de x, la varianza de x y la covarianza de x e y, respectivamente. Para simplificar la forma, sea \(C_3=C_2/2\). La función exponencial SSIM se expresa como Eq. 7.

Es mejor encontrar el índice SSIM localmente que globalmente en la evaluación de la calidad de la imagen. Por lo tanto, la media, la varianza y la covarianza en las ecuaciones anteriores se calculan en el área local dentro de la ventana deslizante. El puntaje SSIM global final es el promedio de los puntajes de todas las regiones locales dentro de la ventana deslizante. El tamaño de la ventana SSIM es un hiperparámetro. A través de una comparación experimental, lo configuramos en 9. El algoritmo SSIM se puede usar no solo para medir la similitud de dos imágenes, sino también como una medida de pérdida durante el entrenamiento del modelo, llamada pérdida SSIM. La pérdida de SSIM tiene la ventaja de una convergencia de entrenamiento rápida, por lo que este documento utiliza la pérdida de SSIM en la fase previa al entrenamiento para reducir el tiempo de entrenamiento requerido.

En ISU-GAN, utilizamos tres tipos de funciones de pérdida: Pérdida adversaria \(L_{GAN}\), Pérdida de coherencia de ciclo \(L_{ciclo}\) y Pérdida de identidad \(L_{identity}\).

\(L_{GAN}\) se divide en \(L_{GAN\_G}\) y \(L_{GAN\_D}\) en términos de implementaciones específicas, que representan los objetivos de optimización del generador G y el discriminador D, respectivamente. La pérdida adversaria se mide utilizando la pérdida L2, como se muestra en las Ecs. (1) y (2), donde 0 y 1 representan el tensor 0 completo y el tensor 1 completo, respectivamente. G quiere que las muestras falsas generadas engañen a D, es decir, las muestras de entrada falsas hacen que la salida del discriminador sea lo más cercana posible a 1. Por el contrario, D quiere distinguir entre muestras reales y falsas tanto como sea posible. Por lo tanto, cuando la entrada es una muestra real, D quiere que su salida sea lo más cercana posible a 1. Mientras que para una muestra falsa, la salida es lo más cercana posible a 0.

Queremos que las muestras obtenidas de las muestras reales después de pasar secuencialmente por un mapeo directo y un mapeo inverso sean lo más consistentes posible con las muestras originales para mejorar la estabilidad del modelo generado, es decir, \(G_{n2p}(G_{p2n }(p)) \aprox. p\) y \(G_{p2n}(G_{n2p}(n)) \aprox. n\). Usamos la pérdida de consistencia del ciclo \(L_{cycle}\) para medir esta similitud. En particular, para combinar las ventajas de la rápida convergencia de la pérdida SSIM y la alta fidelidad de detalle de la pérdida L1, usamos una estrategia de reemplazo de función de pérdida para \(L_{ciclo}\). Primero entrenamos k épocas usando pérdida SSIM para permitir una convergencia acelerada, y luego la reemplazamos con pérdida L1 para optimizar el detalle de las imágenes generadas, como se muestra en la ecuación. (10), donde establecemos empíricamente k en 10.

Para reducir la probabilidad de predecir una muestra positiva como muestra negativa, queremos que el generador de reparación de defectos \(G_{n2p}\) no cambie demasiado la muestra positiva. Para evitar interferencias innecesarias, esperamos que p sea lo más similar posible a \(G_{n2p}(p)\). Usamos la pérdida de identidad \(L_{identity}\) para medir este grado de disimilitud.\(L_{identity}\) usa la misma estrategia de reemplazo de la función de pérdida que \(L_{cycle}\), como se muestra en la ecuación. (7).

DAGM200733 es un conjunto de datos bien conocido para la detección de defectos industriales con supervisión débil, que contiene diez defectos de textura producidos artificialmente. Este conjunto de datos se descarga de https://hci.iwr.uni-heidelberg.de/node/3616. Cada clase se divide en un conjunto de entrenamiento y un conjunto de prueba. Todas las imágenes en DAGM son imágenes en escala de grises de 512 \(\times \) 512, donde las imágenes defectuosas están etiquetadas con supervisión débil. Seleccionamos tres de estas clases representativas (como en la Tabla 1) para nuestros experimentos. La clase 1 tiene una textura superficial más diversa. La clase 6 tiene una textura superficial más desordenada. La clase 7 tiene defectos de astilla. Elegimos estas tres clases para probar la robustez de ISU-GAN para diversas texturas, texturas desordenadas y defectos de astilla respectivamente. Las imágenes de defectos para las tres clases utilizadas se muestran en la Fig. 4.

Las tres categorías seleccionadas de muestras defectuosas y sus etiquetas. (a–c) son Clase 1, Clase 6 y Clase 7 respectivamente, y (d–f) son sus etiquetas correspondientes.

En los experimentos de comparación de este documento, usamos Accuracy (Acc) y F1-score para comparar la efectividad de detección de defectos de los diferentes modelos. En los estudios de ablación, usamos F1-score y MSE para examinar el impacto de diferentes módulos en el rendimiento de la red.

Aquí definimos TN: muestra defectuosa pronosticada y muestra realmente defectuosa; FN: muestra defectuosa pronosticada pero en realidad muestra no defectuosa; TP: muestra prevista no defectuosa y muestra realmente no defectuosa; FP: muestra prevista no defectuosa pero realmente defectuosa.

La precisión se define como la proporción de todas las muestras predichas correctamente, como en la ecuación. (2).

La puntuación F1 es una medida estadísticamente significativa de la precisión de un modelo dicotómico, definida como el promedio sumado de precisión y recuperación:

En nuestros estudios de ablación, utilizamos el error cuadrático medio (MSE) para medir la similitud entre las muestras pseudopositivas restauradas por el generador de reparación de defectos y las muestras positivas originales. Su valor más bajo indica que la imagen reconstruida es más cercana a la original en detalle. No usamos muestras negativas cuando calculamos el MSE porque cuanto mejor sea la reparación para la región defectuosa, mayor será el MSE. Para este documento, el MSE se calcula como el promedio de todas las muestras positivas.

El entorno experimental utilizado en este documento es el siguiente: CPU: Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, GPU: GeForce GTX 1080Ti, Memoria: 128G, Python: 3.6.13, Pytorch: 1.7. 1.

Para mejorar la convergencia del modelo, cambiamos el tamaño de la imagen de entrada de 512 \(\times \) 512 a 256 \(\times \) 256, y el método de interpolación utilizado es bicubic34. Para mejorar la solidez del modelo, el tamaño del lote se establece en 1 y todas las imágenes de entrada se realizan con la misma probabilidad en una de las siguientes tres operaciones: (1) manteniendo constante, (2) volteando horizontalmente y (3) volteando verticalmente Nuestra red fue entrenada desde el principio para todos los experimentos, utilizando el optimizador Adam35, con una tasa de aprendizaje inicial de 0.0002 y una época de entrenamiento de 100. En la sección de experimentos de comparación, compararemos el rendimiento de ISU-GAN con la detección de defectos de uso común. modelos de segmentación (UNet, ResUNet++) y las redes GAN clásicas (CycleGAN original, DCGAN) para la detección y segmentación de defectos. En la sección de ablación estudiada, compararemos el impacto de cada módulo ISU-GAN en el rendimiento de la red.

En esta sección, comparamos el rendimiento de segmentación y detección de defectos de nuestro ISU-GAN con algunos modelos. Los modelos utilizados para la comparación incluyen las redes GAN clásicas CycleGAN y DCGAN, los modelos de segmentación semántica de uso común UNet y su versión mejorada ResUNet++. UNet es uno de los modelos clásicos de segmentación semántica, a menudo utilizado como modelo de referencia para diversas tareas de segmentación, y también es ampliamente utilizado en el campo de la detección de defectos17,18. ResUNet++ es un miembro relativamente nuevo de la familia UNet, que combina las ventajas de ResNet y UNet e introduce bloques SE para mostrar capacidades de segmentación de imágenes más potentes. En la sección de trabajos relacionados, mencionamos que CycleGAN23 y DCGAN26 se implementaron para el conjunto de datos DAGM con buenos resultados, por lo que elegimos estos GAN para comparar. Los resultados del experimento en la etapa de prueba se muestran en la Fig. 5 y la Tabla 2.

A partir de los resultados experimentales, se puede ver que a pesar de usar menos de un tercio de los datos de entrenamiento de los otros modelos y sin etiquetas, ISU-GAN aún muestra una mejora de más del 2,5 % en el promedio de dos métricas en comparación con UNet. ResUNet++, una versión mejorada de UNet, se desempeña notablemente mejor que UNet en todas las categorías, pero su Acc y F1 son más bajos que ISU-GAN en aproximadamente un 0,4 % y un 0,1 %. Por el contrario, al comparar los resultados de detección de CycleGAN y DCGAN, ISU-GAN ha mejorado significativamente en todas las categorías de datos, con una mejora de más del 1,5 % y el 3,0 % en promedio. Al comparar los datos de prueba de cada modelo, se puede verificar que nuestro método es efectivo.

Vale la pena mencionar que ISU-GAN funciona significativamente peor que ResUNet++ en la Clase 1 y está en el nivel más bajo de todas las Clases. La posible razón es que la amplia variedad de texturas de fondo en la Clase 1 hace que sea más difícil para nuestro modelo encontrar las relaciones de mapeo de muestras positivas y negativas que esperamos.

Comparación de resultados de extracción de defectos. (a) Imagen original, (b) etiqueta, (c) UNet, (d) ResUNet++, (e) DCGAN, (f) ISU-GAN.

Como se puede ver en la Fig. 5, incluso sin usar etiquetas durante la capacitación, nuestro modelo está segmentado de manera más fina y precisa para los defectos que UNet y ResUNet++ basados ​​en aprendizaje supervisado, lo que beneficiará a los trabajadores de la industria manufacturera para determinar el tipo de defectos. Con el mismo entrenamiento no supervisado, el método DCGAN necesita crear manualmente defectos para las imágenes, lo cual es más tedioso. Mientras que nuestro método omite este procedimiento y tiene resultados significativamente mejores. También comparamos los resultados de reparación de defectos de ISU-GAN y CycleGAN, vea la Fig. 6. Se puede observar que el mapa de reparación generado por ISU-GAN está más cerca de la imagen original en detalle, especialmente la textura en los bordes es más suave y más realista.

Comparación de resultados de reparación de defectos. (a) Imagen original, (b) etiqueta, (c) CycleGAN, (d) ISU-GAN.

Se establecieron estudios de ablación para investigar el impacto de tres módulos cruciales (conexión de salto, Involución, SE) en la estructura del generador de ISU-GAN en la efectividad de la detección de defectos. Los modelos de generador comparados en el experimento de ablación son: 1. el CycleGAN original (predeterminado); 2. utilizando sólo uno de los tres módulos; 3. utilizando los tres módulos (ISU-GAN).

El conjunto de datos y los hiperparámetros usados ​​para los experimentos de ablación son los mismos que los experimentos de comparación de secciones, y todos los submodelos usan el método propuesto en la metodología de la sección para detectar defectos. Los resultados de los experimentos se muestran en la Tabla 3.

En promedio, la mejora de la conexión de salto para el modelo radica principalmente en la reducción significativa de MSE, pero la mejora de la puntuación F1 no es evidente. Por el contrario, Involution Block mejora significativamente la puntuación F1 pero también aumenta notablemente el MSE, mientras que SE Block optimiza ambos valores en menor medida. Para el ISU-GAN con los tres módulos, podemos ver que logra los mejores resultados en ambos valores promedio y la mejora es significativa en comparación con el CycleGAN original. Indica que la estructura del modelo ISU-GAN es razonable y práctica.

A partir de los resultados de este documento, nuestro modelo de detección de defectos propuesto ISU-GAN y el método de extracción de defectos asociado pueden funcionar bien en condiciones no supervisadas con una pequeña cantidad de muestras de entrenamiento. ISU-GAN utiliza de manera innovadora la conexión de salto, el bloque SE y el bloque de involución en el generador para obtener una mejor caracterización de las características de los defectos. Además, el método de extracción de defectos basado en SSIM puede extraer perfiles de defectos más precisos.

A través de experimentos de comparación, mostramos que ISU-GAN puede lograr un mejor efecto de detección de defectos incluso si las condiciones de entrenamiento son mucho más débiles que UNet y ResUNet++. A través de estudios de ablación, mostramos el impacto de los tres módulos principales de ISU-GAN en el rendimiento de la red y verificamos la efectividad de la estructura ISU-GAN.

En la sección de experimentos de comparación, mencionamos que ISU-GAN se desempeña significativamente peor que otras clases debido a la dificultad de mapear muestras positivas y negativas en conjuntos de datos con tipos de textura más ricos. De acuerdo con este problema, optimizaremos aún más la estructura de la red para obtener un rendimiento más robusto en el trabajo posterior.

Los conjuntos de datos utilizados en este estudio están disponibles para descargar en: Los conjuntos de datos utilizados en este estudio están disponibles para descargar en: https://hci.iwr.uni-heidelberg.de/node/3616.

Liu, YB, Xiao, ZT, Zhang, F. & Wu, J. Método de detección de defectos de tela basado en filtros gabor. Adv. Mate. Res. 301, 229–234 (2011).

Artículo ANUNCIOS Google Académico

Liu, Y., Xu, K. & Xu, J. Un enfoque mejorado de reconocimiento de defectos mb-lbp para la superficie de placas de acero. aplicación ciencia 9, 4222 (2019).

Artículo Google Académico

Shi, T., Kong, J.-Y., Wang, X.-D., Liu, Z. y Zheng, G. Algoritmo sobel mejorado para la detección de defectos en superficies de rieles con mayor eficiencia y precisión. J. Universidad Centro Sur. 23, 2867–2875 (2016).

Artículo Google Académico

Liu, W. et al. Ssd: detector multibox de disparo único. En European conference on computer vision, 21–37 (Springer, 2016).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Solo mira una vez: Detección unificada de objetos en tiempo real. En Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 779–788 (2016).

Ren, S., He, K., Girshick, R. & Sun, J. Faster r-cnn: Hacia la detección de objetos en tiempo real con redes de propuestas regionales. Adv. Neural. información Proceso. sist. 28, 91–99 (2015).

Google Académico

He, K., Gkioxari, G., Dollár, P. & Girshick, R. Mask r-cnn. En Proc. Conferencia internacional IEEE sobre visión artificial, 2961–2969 (2017).

Ronneberger, O., Fischer, P. & Brox, T. U-net: Redes convolucionales para la segmentación de imágenes biomédicas. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 234–241 (Springer, 2015).

Badrinarayanan, V., Kendall, A. & Cipolla, R. Segnet: Una arquitectura de codificador-decodificador convolucional profunda para la segmentación de imágenes. Trans. IEEE. Patrón Anal. Mach. Intel. 39, 2481–2495 (2017).

Artículo Google Académico

Goodfellow, I. et al. Redes generativas adversarias. Adv. Información neuronal Proceso. sist. 27 (2014).

Zhu, J.-Y., Park, T., Isola, P. & Efros, AA Traducción de imagen a imagen no emparejada usando redes antagónicas consistentes con el ciclo. En Proc. Conferencia internacional IEEE sobre visión artificial, 2223–2232 (2017).

Lee, SY, Tama, BA, Moon, SJ y Lee, S. Diagnóstico de defectos en la superficie de acero utilizando una red neuronal convolucional profunda y un mapa de activación de clases. aplicación ciencia 9, 5449 (2019).

Artículo Google Académico

Mei, S., Wang, Y. y Wen, G. Detección automática de defectos de tejido con un modelo de red de codificador automático de eliminación de ruido convolucional de múltiples escalas. Sensores 18, 1064 (2018).

Artículo ANUNCIOS Google Académico

Zhong, J., Liu, Z., Han, Z., Han, Y. y Zhang, W. Un método de inspección de defectos basado en cnn para pasadores partidos de catenaria en trenes de alta velocidad. Trans. IEEE. instrumento medida 68, 2849–2860 (2018).

Artículo Google Académico

Tabernik, D., Šela, S., Skvarč, J. & Skočaj, D. Enfoque de aprendizaje profundo basado en segmentación para la detección de defectos superficiales. J. Intel. Fabricación 31, 759–776 (2020).

Artículo Google Académico

Huang, Y., Qiu, C. y Yuan, K. Prominencia del defecto superficial de la baldosa magnética. Vis. computar 36, 85–96 (2020).

Artículo CAS Google Académico

Li, S., Zhao, X. y Zhou, G. Detección automática de daños múltiples a nivel de píxel en estructuras de hormigón utilizando una red totalmente convolucional. Infraestructura Civil Asistida por Comput. Ing. 34, 616–634 (2019).

Artículo Google Académico

Roberts, G. et al. Aprendizaje profundo para la segmentación semántica de defectos en imágenes de vástagos avanzados de aceros. ciencia Rep. 9, 1–12 (2019).

Artículo Google Académico

Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. & Langs, G. Detección de anomalías no supervisadas con redes antagónicas generativas para guiar el descubrimiento de marcadores. En Conferencia internacional sobre procesamiento de información en imágenes médicas, 146–157 (Springer, 2017).

Schlegl, T., Seeböck, P., Waldstein, SM, Langs, G. y Schmidt-Erfurth, U. f-anogan: Detección rápida de anomalías no supervisadas con redes antagónicas generativas. Medicina. Anal de imagen. 54, 30–44 (2019).

Artículo Google Académico

Zenati, H., Foo, CS, Lecouat, B., Manek, G. & Chandrasekhar, VR Detección eficiente de anomalías basadas en gan. Preimpresión en http://arxiv.org/abs/1802.06222 (2018).

Akcay, S., Atapour-Abarghouei, A. & Breckon, TP Ganomaly: Detección de anomalías semisupervisada mediante entrenamiento adversario. En Conferencia asiática sobre visión artificial, 622–637 (Springer, 2018).

Niu, S., Lin, H., Niu, T., Li, B. y Wang, X. Defectgan: Detección de defectos con supervisión débil mediante una red antagónica generativa. En 2019 IEEE 15th International Conference on Automation Science and Engineering (CASE), 127–132 (IEEE, 2019).

Di, H., Ke, X., Peng, Z. y Dongdong, Z. Clasificación de defectos superficiales de aceros con un nuevo método de aprendizaje semisupervisado. Optar. Ing. Láseres. 117, 40–48 (2019).

Artículo Google Académico

He, Y., Song, K., Dong, H. y Yan, Y. Clasificación de defectos semisupervisada de la superficie de acero basada en una red antagónica generativa y de entrenamiento múltiple. Optar. Ing. Láseres. 122, 294–302 (2019).

Artículo Google Académico

Zhao, Z., Li, B., Dong, R. y Zhao, P. Un método de detección de defectos superficiales basado en muestras positivas. En Pacific Rim International Conference on Artificial Intelligence, 473–481 (Springer, 2018).

Wang, Z., Bovik, AC, Sheikh, HR y Simoncelli, EP Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural. Trans. IEEE. Proceso de imagen. 13, 600–612 (2004).

Artículo ANUNCIOS Google Académico

Otsu, N. Un método de selección de umbral a partir de histogramas de nivel de gris. Trans. IEEE. sist. Hombre cibernético. 9, 62–66 (1979).

Artículo Google Académico

Karras, T. et al. Analizando y mejorando la calidad de imagen de stylegan. En Proc. Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 8110–8119 (2020).

Isola, P., Zhu, J.-Y., Zhou, T. & Efros, AA Traducción de imagen a imagen con redes antagónicas condicionales. En Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 1125–1134 (2017).

Hu, J., Shen, L. y Sun, G. Redes de compresión y excitación. En Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 7132–7141 (2018).

Li, D. et al. Involución: invertir la inherencia de la convolución para el reconocimiento visual. En Proc. Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 12321–12330 (2021).

Wieler, M. & Hahn, T. Simposio DAGM sobre aprendizaje débilmente supervisado para inspección óptica industrial (2007).

Keys, R. Interpolación de convolución cúbica para el procesamiento de imágenes digitales. Trans. IEEE. acústico Proceso de señal de voz. 29, 1153–1160 (1981).

Artículo ADS MathSciNet Google Scholar

Kingma, DP & Ba, J. Adam: Un método para la optimización estocástica. En Conferencia Internacional sobre Representaciones de Aprendizaje (2015).

Jha, D. et al. Resunet++: una arquitectura avanzada para la segmentación de imágenes médicas. En Simposio Internacional de Multimedia (2019).

Descargar referencias

Esta investigación fue financiada por el Proyecto de la Fundación Nacional de Ciencias de China, Número de subvención 61703355, el Proyecto de la Fundación de Ciencias Naturales de Zhangzhou 2019, Número de subvención ZZ2019J34 y el Programa para jóvenes talentos excelentes en la Universidad de la provincia de Fujian, Número de subvención 201847.

Estos autores contribuyeron por igual: Yijing Guo y Linwei Zhong.

Escuela de Ciencias y Tecnologías de la Información, Universidad de Xiamen Tan Kah Kee College, Zhangzhou, 363105, China

Yijing Guo, Yi Qiu, Huawei Wang y Choujun Zhan

Escuela de Informática, Universidad de Xiamen, Xiamen, 361005, China

Linwei Zhong y Zongheng Wen

Escuela de Ingeniería Aeroespacial, Universidad de Xiamen, Xiamen, 361005, China

fengqiang gao

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Conceptualización, YG y LZ; metodología, YG; software, LZ; validación, LZ, FG y WZ; análisis formal, YQ y HW; investigación, YG y CZ; recursos, YG; curación de datos, YG y LZ; redacción-preparación de borrador original, YG y LZ; redacción-revisión y edición, YG y HW; visualización, YQ, FG y WZ; supervisión, YG; administración de proyectos, YG; adquisición de fondos, YG, FG y CZ Todos los autores han leído y están de acuerdo con la versión publicada del manuscrito.

Correspondencia a Yijing Guo.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Guo, Y., Zhong, L., Qiu, Y. et al. Uso de ISU-GAN para la detección de defectos de muestras pequeñas sin supervisión. Informe científico 12, 11604 (2022). https://doi.org/10.1038/s41598-022-15855-7

Descargar cita

Recibido: 07 Abril 2022

Aceptado: 30 de junio de 2022

Publicado: 08 julio 2022

DOI: https://doi.org/10.1038/s41598-022-15855-7

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR