Ver traducción automática
Esta es una traducción automática. Para ver el texto original en inglés haga clic aquí
#Libros blancos
{{{sourceTextContent.title}}}
Cómo los sensores de la imagen de Neuromorphic roban trucos del ojo humano
{{{sourceTextContent.subTitle}}}
Dando prioridad a las partes dinámicas de una escena, las máquinas pueden capturar imágenes más eficientemente
{{{sourceTextContent.description}}}
¿Cuándo Eadweard Muybridge fijó sus cámaras en Leland Stanford? granja del caballo de s Palo Alto en 1878, él habría podido imaginarse apenas la revolución que él estaba a punto de chispear. ¿Muybridge aparejó una docena o más las cámaras separadas usando los alambres de viaje de modo que accionaran en una secuencia del rápido-fuego que registraría uno de Stanford? pura sangre de s a la velocidad. ¿Los resultados fotográficos terminaron un discusión entre competir con a los entusiastas, estableciendo que un caballo galopante tiene brevemente cuatro piernas de la tierra? ¿aunque suceda tan rápidamente él? s imposible para que cualquier persona vea. Más importante, Muybridge pronto imaginado cómo jugar de nuevo las copias de las imágenes que él tomó de los pasos animales de una manera que hizo que sus temas aparecen moverse.
¿Generaciones de cámaras de vídeo del película y, incluyendo hoy? ¿los mejores sistemas de la proyección de imagen de s, pueden rastrear su linaje a Muybridge? cámaras boxy de s. Por supuesto, el equipo moderno utiliza detectores de estado sólido en vez de las placas de cristal, y el número de bastidores que se puedan tardar cada segundo es sumamente mayor. Pero la estrategia básica es idéntica: Usted captura una secuencia de imágenes inmóviles, que cuando está repetida rápidamente da a espectador la ilusión del movimiento.
¿Si se van las imágenes a ser analizadas por una computadora algo que vistas, allí? s ninguna necesidad de preocuparse de si la ilusión es buena, solamente usted pudo todavía necesitar registrar porciones de bastidores cada segundo para seguir la acción correctamente.
Realmente, incluso con una alta tarifa de marco, su equipo puede no estar hasta la tarea: Lo que usted está intentando analizar podría cambiar demasiado rápidamente. ¿Qué entonces usted hace? Muchos ingenieros contestarían a esa pregunta buscando maneras de alzar la tarifa de marco video usando electrónica con un rendimiento de procesamiento más alto. ¿Sostenemos que usted? ¿d sea mejor de reconsiderar el problema entero y de diseñar su equipo video así que trabaja menos como Muybridge? las cámaras de s y en lugar de otro funcionan más bién sus ojos.
La estrategia general de crear los sistemas de señal-proceso electrónicos inspirados por los biológicos se llama ingeniería neuromorphic. Por décadas, este esfuerzo ha sido un ejercicio en la investigación pura, pero durante los últimos 10 años o así pues, nosotros y otros investigadores hemos estado persiguiendo este acercamiento para construir sistemas prácticos de la visión. ¿Para entender cómo un ojo artificial de la clase nosotros? VE que investiga puede superar incluso una cámara de vídeo de alta velocidad, nos dejó primero disabuse le de la idea que la manera que el engranaje video moderno funciona es sensible.
¿Imagínese por un momento que usted? el re intentar analizar algo que sucede realmente rápido, por ejemplo, una jarra que lanza un béisbol. ¿Si usted intenta utilizar una cámara de vídeo convencional, que registra en algo como 30 o quizás incluso 60 secuencias por segundo, usted? ¿falta del ll la mayor parte de el movimiento de la jarra? brazo de s como él azota la bola hacia la placa. Quizás algunos marcos cogerán su brazo en diversas posiciones. ¿Pero usted? ¿captura del ll relativamente poca información del interés, junto con las imágenes mucho redundantes de la jarra? montón de s, el césped del área de la pista de aterrizaje, y otras partes constantes del fondo. ¡Es decir, la escena usted de registro será under- y oversampled al mismo tiempo!
¿Allí? s ninguna manera de evitar ese problema dado que todas las piezas del sensor de la imagen en su cámara comparten una fuente común de la sincronización. ¿Mientras que esta debilidad ganó? ¿t sea un problema para un espectador ocasional, si usted quisiera que una computadora analizara los matices de la jarra? el movimiento del brazo de s, sus datos será lamentablemente inadecuado. En algunos casos, el postprocessing sofisticado pudo dejarle derivar los resultados que usted quiso. Pero este acercamiento de la fuerza bruta le fallaría en ambientes con energía, anchura de banda, y los recursos de computación limitados por ejemplo en los dispositivos móviles, los abejones del multicopter, u otras clases de pequeñas robustezas.
Han pegado a la comunidad de la máquina-visión con este problema básico por décadas. Pero la situación puede pronto cambiar para el mejor mientras que nosotros y otros investigadores desarrollamos el equipo que muestrea diversas partes de la escena a diversas tarifas, mímico cómo el ojo trabaja. Con tal engranaje, esas partes de la escena que contienen los movimientos rápidos se muestrean rápidamente, mientras que lento-cambian las porciones se muestrean a tarifas más bajas, yendo hasta el final abajo a cero si nada cambia.
¿Conseguir las cámaras de vídeo para trabajar esta manera es difícil, porque usted pone? t saben de antemano que las partes de la escena cambiarán y cómo ellos hará rápidamente tan. Pero como describimos abajo, el reparto del ojo humano y del cerebro con este problema todo el tiempo. Y las recompensas de copiar cómo trabajan serían enormes. ¿No sólo haría temas de rápida evolución? ¿explosiones, insectos en vuelo, rompiendo el vidrio? más favorable al análisis, también permitiría las cámaras de vídeo en smartphones y otros dispositivos con pilas a los movimientos ordinarios de registro usando mucho menos energía.
Los ingenieros comparan a menudo el ojo a una cámara de vídeo. Hay algunas semejanzas a ser seguras, pero en verdad el ojo es una creación mucho más complicada. ¿Particularmente, gente? ¿las retinas de s ponen? luz de la vuelta de t apenas en señales eléctricas: ¿Procesan la salida del ojo? ¿células del fotorreceptor de s de las maneras sofisticadas, capturando la materia del interés? ¿cambios espaciales y temporales? y enviando esa información al cerebro de una manera asombroso eficiente.
Saber como de bien este acercamiento trabaja para los ojos, nosotros y otros están estudiando los sistemas de la máquina-visión en los cuales cada pixel ajusta su propio muestreo en respuesta a cambios en la cantidad de luz de incidente que recibe. ¿Qué? s necesario para ejecutar este esquema es el trazado de circuito electrónico que puede seguir las amplitudes de cada pixel continuamente y registrar cambios solamente de esos pixeles que cambien de puesto en nivel ligero por una cierta cantidad prescrita muy pequeña.
Este acercamiento se llama muestreo de la nivel-travesía. ¿En el pasado, alguna gente ha explorado usando él para las audioseñales? ¿por ejemplo, reducirle en la cantidad de datos? d tiene que registrar con el muestreo generalmente de la constante-tarifa. Y los investigadores académicos han estado construyendo los análogos electrónicos de la retina en el silicio para los propósitos de la investigación desde el finales de los 80. Pero solamente en la última década tenga ingenieros frustrados para aplicar la nivel-travesía que muestrea a la adquisición en tiempo real práctica de imágenes.
Inspirado por la biología del ojo y del cerebro, comenzamos a revelar los toner que contenían órdenes de sensores independientemente de funcionamiento del pixel en el 2000s temprano. En nuestras cámaras más recientes, cada pixel se ata a un detector de la nivel-travesía y a un circuito separado de la exposición-medida. ¿Para cada pixel individual, la electrónica detecta cuando la amplitud de ese pixel? la señal de s alcanza un umbral previamente establecido sobre o debajo del nivel de señal pasado-registrado, en cuyo punto el nuevo nivel entonces se registra. De esta manera cada pixel optimiza su propio muestreo dependiendo de los cambios en la luz que admite.
Con este arreglo, si la cantidad de luz que alcanza un pixel dado cambia rápidamente, que el pixel está muestreado con frecuencia. Si nada cambia, el pixel para el adquirir de qué acaba de demostrar ser información redundante y va marcha lenta hasta que las cosas comiencen a suceder otra vez en su campo visual minúsculo. El trazado de circuito electrónico asoció a salidas de ese pixel una nueva medida algo como se detecta un cambio, y también no pierde de vista la posición en el arsenal del sensor del pixel que experimenta ese cambio. ¿Estas salidas, o? ¿acontecimientos? ¿se codifican según una representación del acontecimiento de la dirección llamada del protocolo, que salió de la aguamiel de Carver? laboratorio de s en Caltech en el principio de los 90. El tren de acontecimientos tales salidas de un sensor de la visión se asemeja así al tren de puntos que usted ve cuando usted mide las señales que viajan a lo largo de un nervio.
La llave es que la información visual no está adquirida ni está registrada como la serie generalmente de bastidores completos separados por milisegundos. ¿Algo, él? ¿s generado a una tarifa mucho más alta? pero solamente de las partes de la imagen donde hay nuevas lecturas. Consecuentemente, apenas la información se adquiere que es relevante, transmitido, almacenado, y procesado eventual por algoritmos de la máquina-visión.
Diseñamos los circuitos de la nivel-travesía y de grabación en nuestra cámara para reaccionar con velocidad ardiente. Con nuestro equipo, los tiempos de adquisición de datos y de la lectura de algunos diez de nanosegundos son posibles en escenas brillantemente encendidas. Para los niveles estándar de la cuarto-luz, la adquisición y la lectura requieren algunos diez de microsegundos. Estas tarifas son más allá de todos pero del hoy disponible de alta velocidad más sofisticado de las cámaras de vídeo, centenares del cálculo del coste de las cámaras de millares de dólares. E incluso si usted podría producir tal cámara, le inundaría con sobre todo la información sin valor. ¿El muestreo de diversos pixeles a diversas tarifas, por una parte, reduce no apenas coste de equipo pero también el consumo de energía, la anchura de banda de la transmisión, y requisitos de memoria? ventajas que extienden bien más allá de la etapa de la adquisición. ¿Pero usted? el ll malgasta esas ventajas si es todo lo que usted lo hace reconstruye una serie de bastidores video ordinarios de los datos de modo que usted pueda aplicar algoritmos image-processing convencionales.
Para abrir completamente el potencial de los sensores eyelike de la visión, usted necesita abandonar la noción entera de un bastidor video. ¿Ése puede ser un poco difícilmente para conseguir su cabeza alrededor, pero tan pronto como usted haga eso, usted se libera, y el subsecuentes procesándole hacen a los datos pueden resolver las cosas que usted podría faltar de otra manera fácilmente? incluyendo los movimientos detallados del brazo de nuestra jarra hipotética del béisbol.
¿Para hace esto, aunque, usted? ¿el ll tiene que repensar cómo usted procesa los datos, y usted? el ll tiene que escribir probablemente nuevo código en vez de usar una biblioteca estándar del vídeo-análisis. Pero las formulaciones matemáticas apropiadas para esta nueva clase de cámara de vídeo son simples y elegantes, y rinden algunos algoritmos muy eficientes. De hecho, en la aplicación de tales algoritmos a la salida de nuestros sensores autosampling de la visión, podíamos demostrar que ciertas tareas en tiempo real de la visión se podrían funcionar con a un índice de diez incluso a los centenares de kilociclos, mientras que las técnicas marco-basadas convencionales del vídeo-análisis se aplicaron a la misma situación rematada hacia fuera en 60 hertzios doloroso lento.
Otra ventaja de analizar las secuencias de datos casi continuas de nuestros sensores eyelike en vez de una serie de bastidores video convencionales es que podemos hacer el buen uso de la sincronización de la señal, apenas como lo hacen las neuronas biológicas. Éste es quizás mejor explicado con un ejemplo específico.
Suponga que usted quiso diseñar una robusteza móvil que utiliza un sistema de la máquina-visión para navegar su ambiente. Claramente, tener un mapa tridimensional de las cosas alrededor de él sería provechoso. ¿Tan usted? d ninguÌn equipo de la duda la robusteza con dos cámaras algo separadas de modo que tuviera visión estérea. Que mucho es bastante simple. Pero ahora usted tiene que programar su cerebro robótico para analizar los datos que recibe de sus cámaras y vuelta que en una representación del espacio tridimensional.
¿Si ambas cámaras registran algo distinto? ¿dejado? ¿s lo dice? ¿persona del S.A. que camina delante de la robusteza? ¿él? s bastante fácil resolverse cómo es lejano es la persona. ¿Pero suponga que dos diversas personas entran en la robusteza? campo visual de s al mismo tiempo. O seis personas. Resolviéndose cuál está cuál en las dos opiniones de la cámara consigue más desafiador ahora. Y sin poder comprobar las identidades para seguro, la robusteza no podrá determinar la posición tridimensional de cada uno de estos obstáculos humanos.
¿Con los sensores de la visión del tipo nosotros? VE que estudia, tales operaciones que emparejan hace más simple: Usted apenas necesita buscar coincidencias en las lecturas de las dos cámaras. Si los pixeles de cámaras separadas colocan cambios en muy el mismo instante, están observando casi ciertamente el mismo acontecimiento. La aplicación de algunas pruebas geométricas estándar a las coincidencias observadas puede clavar más lejos abajo el fósforo.
Tobi Delbrück y otros en ETH Zurich demostró la energía de este acercamiento en 2007 construyendo a un portero robótico en reducida escala del fútbol que usaba un sensor eyelike que era ampliamente similar los nuestros. Tenía un tiempo de reacción bajo 3 milisegundos. (Peter Schmeichel, come su corazón hacia fuera.) ¿Era usted a intentar alcanzar esa velocidad usando una cámara de vídeo convencional, usted? la necesidad de d de encontrar uno que podría registrar algunos centenares de secuencias por segundo, y la carga de cómputo serían enormes. ¿Pero con Delbrück? el sensor dinámico neuromorphic de la visión de s, la computadora que funcionaba con a su portero del fútbol corría a medio galope adelante en una carga mera de la CPU del 4 por ciento.
Comparado con técnicas video estándar, los sensores neuromorphic de la visión ofrecen velocidad creciente, mayor rango dinámico, y ahorros en coste de cómputo. ¿Consecuentemente, tareas exigentes de la máquina-visión? ¿por ejemplo el trazado del ambiente en tridimensional, el seguimiento de objetos múltiples, o la respuesta rápidamente a las acciones percibidas? puede funcionar a las tarifas de los kilociclos en el hardware con pilas barato. ¿Esta clase de equipo permitiría tan? ¿siempre-en? la entrada visual en los dispositivos móviles elegantes, que es actualmente imposible debido a la cantidad de energía tales tareas de cómputo intensas consume.
Otro uso natural de los sensores neuromorphic de la visión está en los implantes retinianos electrónicos para restaurar vista a las cuya visión se ha perdido a la enfermedad. De hecho, dos de nosotros (Posch y Benosman) ayudaron a encontrar la visión de Pixium, compañía francesa que ha desarrollado un implante retiniano neuromorphic, que ahora está experimentando ensayos clínicos. ¿Desemejante de los implantes competentes bajo desarrollo, que son marco basado, Pixium? el uso de los productos de s acontecimiento-basó el muestreo para proveer de pacientes el estímulo visual. Ahora, estos implantes pueden dar a pacientes solamente una capacidad general de percibir la luz y formas. ¿Pero la tecnología debe mejorar rápidamente durante los próximos años y quizás un día podrá ofrecer a la gente que ha perdido su visión natural la capacidad de reconocer caras? todos los gracias a las retinas artificiales inspiraron por las verdaderas.
Usted puede esperar que los sensores eyelike de la visión se desarrollen a partir del hoy disponible pionero de los diseños en las formas que desempeñan eventual un papel grande en tecnología, robótica, y más médicos. ¿De hecho, él wouldn? ¿t nos sorprende si probaron apenas tan seminal como Muybridge? cámaras de madera de s.
¿Este artículo apareció originalmente en la impresión como? ¿Dando a máquinas ojos Humanlike.?
Sobre los autores
Rafael Etienne-Cummings y co-autores Cristóbal Posch y Ryad Benosman trabaja junto en sistemas neuromorphic de la visión. Etienne-Cummings trabaja en la Universidad John Hopkins; Posch y Benosman están en el instituto de la visión, en París. ¿El trío? la investigación común de s creció fuera de sus reuniones frecuentes en un taller del verano sobre la ingeniería neuromorphic en el telururo, Colo. ¿? ¿Mucha nuestra colaboración salió de ese taller? dice a Etienne-Cummings. ¿? ¿Y mucha montaña biking.?
{{medias[11821].description}}
{{medias[11822].description}}