LAS SOLUCIONES DE SOFTWARE DE TECXIPIO QUE UTILIZAN LA TECNOLOGÍA DE VISIÓN DE COMPUTADORA

ALGORITMOS DE VISIÓN INFORMÁTICA PARA AUTOMATIZAR PROCESOS MANUALES ELABORADOS

La visión por computadora es un gran campo interdisciplinario que se ocupa de la extracción de información de alto nivel de imágenes digitales y secuencias de imágenes, como videos. La información de interés puede variar, desde ALGO meramente técnico hasta la adaptación de la percepción visual humana en un sentido más general.

INGENIERÍA-VS. ENFOQUES DE MACHINE LEARNING

La visión por computadora de alto nivel se puede dividir en enfoques basados en ingeniería y en el aprendizaje automático. La diferencia entre ambos es difusa, pero los enfoques basados en la ingeniería generalmente se diseñan como una cadena de procesamiento con, pero no necesariamente todos, los siguientes pasos:

GENERANDO HUELLAS O IMPRESIONES DIGITALES

Procesamiento previo de imagen (por ejemplo, filtrado de aprobación baja y filtrado de aprobación alta)
Segmentación (por ejemplo, umbralización y aplicación de modelos de color)
Detección de características (p. ej., bordes, esquinas y blobs)

COINCIDENCIA DE
HUELLAS O IMPRESIONES DIGITALES

4. Medición o coincidencia de patrón
5. Pos procesamiento de resultados (por ejemplo, filtros de valores
atípicos, comprobaciones de coherencia y refinamiento)

BÚSQUEDA DE CONTENIDO VISUAL
CON UN ENFOQUE DE INGENIERÍA

La mayoría de las aplicaciones de tecnología de visión informática requieren mediciones y / o el emparejamiento de patrones. La extracción y el emparejamiento de características locales con el propósito de emparejar patrones se popularizó hacia el final del último milenio, uno de los métodos más innovadores son las características de Transformación de Característica Invariante de Escala (SIFT, por su siglas en inglés).

EMPAREJAMIENTO DE PATRÓN BASADO EN CARACTERÍSTICAS LOCALES

De acuerdo con la cadena de procesamiento descrita, dichas características locales se extraen en los pasos 1 y 3 y se combinan en los pasos 4 y 5; El paso 2 generalmente no se aplica para la extracción y coincidencia de funciones locales. La información generada en los Pasos 1-3 se le conoce como una huella digital de una imagen. La ubicación y otra información geométrica de dichas características, como la rotación, la traducción y la escala, se conocen comúnmente como "punto clave" y están determinadas por un denominado detector de punto clave. El contenido de la imagen visual que pertenece a un punto clave generalmente se representa como un vector de características, que comúnmente se le conoce como descriptor. El algoritmo RANSAC y otras comprobaciones de consistencia generalmente se aplican para el Paso 5.

La coincidencia de patrones basada en tales características locales generalmente se entiende como un enfoque de visión por computadora (frente a la visión artificial). Existen varios tipos de detectores y descriptores que difieren en términos de precisión, tamaño, velocidad de detección, velocidad de coincidencia y el tipo de estructuras que pueden manejar. Se han propuesto recientemente muchos descriptores binarios que permiten una coincidencia rápida.

IDENTIFICACIÓN DE CONTENIDO VISUAL UTILIZANDO CARACTERÍSTICAS LOCALES Y GLOBALES

Las características locales se utilizan principalmente para el reconocimiento de objetos y la estimación de postura, así como la recuperación de imágenes. Los beneficios de estos enfoques es que no requieren segmentación de imágenes (Paso 2), que a menudo resulta problemático en aplicaciones del mundo real, y que pueden manejar oclusiones parciales de manera natural. Sin embargo, su aplicabilidad está restringida a imágenes que ofrecen el tipo de características que pueden detectarse mediante el detector de punto clave. En la práctica, la mayoría de las fotografías y videos ciertamente lo ofrecen; sin embargo, los logotipos generalmente no.

IMPLEMENTACIÓN EN LOS APIS DE BÚSQUEDA INVERSA DE TECXIPIO

BÚSQUEDAS AVANZADAS

Las características que hemos desarrollado hasta el momento son rápidas de calcular, compactas en tamaño y permiten la adaptación de alta velocidad con la ayuda de estructuras de datos altamente optimizadas, lo que hace la compensación perfecta entre eficiencia y calidad. La coincidencia en función de las características locales se puede considerar como el estándar para la recuperación de imágenes y videos de propósito general, pero rara vez se utiliza debido a su complejidad computacional. Nuestras implementaciones optimizadas nos permiten beneficiarnos de esta tecnología a un costo razonable.

BÚSQUEDAS ESTÁNDAR

Los enfoques basados en características globales se utilizan para aplicaciones que no requieren todos los beneficios de la coincidencia de características locales, pero cuya velocidad es de suma importancia. "Global" se refiere aquí que una imagen no está representada por un conjunto de características locales, sino por un único vector de características. Esto permite una aceleración considerable en el emparejamiento a costo de una menor robustez a la oclusión parcial. Las características globales simples solo son aplicables para encontrar duplicados más o menos exactos (salvo a escala), mientras que los sofisticados tipos de características globales se calculan sobre la base de un conjunto de características locales, preservando así la mayoría de las propiedades de las características locales e incluso permitiendo oclusiones parciales hasta cierto punto.

APLICACIONES DE BÚSQUEDA DE IMÁGENES Y VIDEOS

La tecnología de visión por computadora basada en la coincidencia de patrones con las características locales, como se describió anteriormente, es altamente efectiva para identificar imágenes o videos en grandes bases de datos. Permite búsquedas a gran escala de archivos visuales cuando los IDs, metadatos o información descriptiva adicional resulta faltante, incompleta, insuficiente o poco fiable. Los procesos modernos de identificación de imágenes y video aún implican un alto grado de trabajo manual. Los algoritmos digitales de huellas o impresión dactilares y de coincidencia han acelerado significativamente los procesos de trabajo, lo que ahorra tiempo y recursos valiosos, a la vez que descarta las tasas de errores humanos.

Por lo tanto, la tecnología de visión por computadora se implementa cada vez más en áreas como identificación de medios (por ejemplo, para mediciones antipiratería) y monitoreo (por ejemplo, para seguimiento de anuncios), filtros de carga / spam, control de calidad y administración de grandes archivos de medios.

DESCUBRA MÁS INFORMACIÓN SOBRE LAS SOLUCIONES DE VISIÓN DE COMPUTADORA DE TECXIPIO PARA GENERAR E IDENTIFICAR FICHAS DIGITALES

ENCUENTRE E IDENTIFIQUE INCLUSO VÍDEOS ALTAMENTE ALTERADOS

Con la API de Búsqueda inversa de videos de TECXIPIO, obtiene acceso a nuestro software escalable de huellas dactilares y de video escalable. Obtenga más información sobre los beneficios, la tecnología, cómo funciona y el modelo de fijación de precios. Además, ofrecemos una clave API gratuita para que pruebe la tecnología de huellas dactilares y emparejamiento.

Descubra más información

AUTOMATICE SUS BÚSQUEDAS DE IMAGEN

Encuentre las imágenes que desea ver con Reverse Image Search API de TECXIPIO. Los desarrolladores podrán integrar fácilmente la API en sus sistemas y soluciones de software para automatizar las búsquedas de imágenes e identificar imágenes duplicadas o altamente alteradas.

Contáctenos para acceder a ello con anticipación.

RECONOCIMIENTO VISUAL DE CONTENIDO CON ENFOQUES DE VISIÓN DE COMPUTADORA

La detección y reconocimiento de rostros son otras disciplinas populares de visión artificial; mientras que la tarea de un detector de rostros es encontrar cualquier cara (desconocida) en una imagen, un reconocedor de rostros identifica caras (conocidas), es decir, personas conocidas, el cual es una tarea de clasificación. Es común que un reconocedor facial funcione con los candidatos detectados por un detector de rostros. La tarea de clasificación de un reconocedor facial es reconocer diferentes imágenes de una determinada persona que pertenece a esa misma persona, independientemente de las condiciones de iluminación, pose y apariencia.

Un mejor ejemplo de una tarea de clasificación real es el reconocimiento de cierto tipo de animal, como perros. La tarea del clasificador no es solo manejar las diferentes apariencias del mismo animal sino también tener una noción de perros en general para que pueda reconocer cualquier raza de perro. Otro ejemplo común, además de los animales, son los muebles como las sillas y las mesas.

CLASIFICADORES DE ENTRENAMIENTO CON DATOS DE ENTRENAMIENTO

Todas estas tareas tienen en común en que el clasificador debe comprender qué es común para esa clase, pero igual de importante qué no pertenece. Utilizando el ejemplo de un perro, los métodos basados en ingeniería intentan abordar esto de una forma ascendente, es decir, extraer características adecuadas de bajo nivel, tal vez tratar de detectar las patas, la cabeza y la cola, y después verificar la consistencia geométrica. Por el contrario, los enfoques de aprendizaje automático aprenden su representación con base a una gran cantidad de imágenes de un perro (ejemplos positivos) y una gran cantidad de imágenes que no son de perro (ejemplos negativos). La elección de los datos de entrenamiento es crucial para el clasificador resultante. Por ejemplo, si un sistema fuese entrenado con ejemplos negativos que eran solo imágenes de paisajes, es decir, nunca ha visto ningún animal que no sea un perro, probablemente "asumirá" que un gato también es un perro. Esto resulta natural, y también sería el caso para un aprendiz humano.

LAS TAREAS DE PERCEPCIÓN VISUAL CON REDES NEURONALES CONVOLUCIONALES PROFUNDAS

En los últimos años, las redes neuronales convolucionales profundas (CNN, por su siglas en inglés) se han vuelto muy populares; estos tipos de enfoques de aprendizaje se conocen como aprendizaje profundo. Debido a la topología convolucional y la disponibilidad moderna de potencia computacional, las tareas de percepción visual se pueden resolver con un rendimiento de reconocimiento considerablemente mayor en comparación con las redes neuronales artificiales convencionales. Esta tecnología permite la creación de un poderoso reconocimiento y, recientemente, también sistemas de localización, que pueden, por ejemplo, usarse para etiquetar automáticamente imágenes y videos.

ENFOQUES DE MACHINE LEARNING PARA LA ALTA RESOLUCIÓN DE IMÁGENES

Las aplicaciones de CNN no se limitan a tareas de reconocimiento y localización, sino que también se pueden usar para mejorar imágenes y superresolución entre otras. A diferencia de los métodos basados en ingeniería que se basan principalmente en la interpolación, los enfoques de aprendizaje automático para la superresolución de imágenes pueden "adivinar" estructuras dentro de una imagen de baja resolución e insertarlas en la salida de superresolución, lo que da como resultado imágenes mucho más nítidas y resultados realistas, mientras que las técnicas de interpolación producen resultados borrosos.

PECULIARIDADES de CNNs

Si bien las CNN pueden resolver muchos problemas que previamente se consideraban difíciles de solucionar, resulta importante mencionar que aunque este tipo de redes neuronales y sus algoritmos de entrenamiento están matemáticamente bien descritos y completamente entendidos, siguen siendo, hasta cierto punto, una caja negra: una caja negra que está siendo entrenado con una gran cantidad de datos de entrenamiento y un conjunto de parámetros de entrenamiento que son ajustados por la experiencia, pero también hasta cierto punto por prueba y error. La circunstancia de tratar con una caja negra lleva al hecho de que incluso los sistemas de aprendizaje profundo muy impresionantes con tasas realmente positivas extremadamente altas y tasas de falsos positivos extremadamente bajas aún pueden producir resultados deslumbrantes en casos raros, por ejemplo, reconocer a un perro en una imagen de ruido con alta probabilidad, que es algo que un observador humano nunca podría hacer.

¿SE ENCUENTRA USTED EN BUSCA DE OPCIONES DE SÚPER RESOLUCIÓN?

Nuestros equipos se encuentran trabajando en diferentes proyectos relacionados con los enfoques de aprendizaje automático para la súper resolución de imágenes. Póngase en contacto con nosotros si está interesado en un software de superresolución.

Contact