Alles, was Sie über Computer Vision wissen, könnte bald falsch sein

Computer Vision kann Viel schneller und besser, wenn wir das Konzept der Standbilder überspringen und stattdessen den Datenstrom direkt von der Kamera analysieren. Das ist zumindest die Theorie, unter der die neueste Idee des MIT Media Lab, Ubicept, arbeitet.

Die meisten Computer-Vision-Anwendungen funktionieren auf die gleiche Weise: Die Kamera nimmt ein Bild auf (oder eine schnelle Serie von Bildern im Fall von Videos). Diese Standbilder werden an einen Computer weitergeleitet, der dann analysiert, was sich im Bild befindet. Scheint einfach genug.

Aber es gibt einen Haken: Dieses Modell geht davon aus, dass das Erstellen von Standbildern eine gute Idee ist. Da Menschen daran gewöhnt sind, Fotografie und Video zu sehen, mag dies vernünftig erscheinen. Computern ist das jedoch egal, und Ubicept glaubt, dass es Computer Vision viel besser und zuverlässiger machen kann, indem es die Idee von Frames ignoriert.

Das Unternehmen selbst ist eine Zusammenarbeit zwischen seinen Gründern. Sebastian Bauer ist CEO des Unternehmens und Postdoktorand an der University of Wisconsin, wo er an Lidar-Systemen gearbeitet hat. Tristan Swede ist jetzt CTO von Ubicept. Davor war er wissenschaftlicher Mitarbeiter, Master und Ph.D. Acht Jahre Student am MIT Media Lab.

„Es gibt 45 Milliarden Kameras auf der Welt, und die meisten von ihnen machen Fotos und Videos, die Menschen nicht wirklich anschauen“, erklärte Bauer. “Diese Kameras dienen hauptsächlich der Wahrnehmung, damit Systeme auf der Grundlage dieser Wahrnehmung Entscheidungen treffen können. Denken Sie zum Beispiel an autonomes Fahren als ein System zur Fußgängererkennung. Es gibt all diese Studien, die zeigen, dass die Fußgängererkennung bei hellem Tageslicht gut funktioniert, aber schlecht “Besonders bei schwachem Licht. Andere Beispiele sind industrielle Sortier-, Inspektions- und Qualitätssicherungskameras. Alle diese Kameras werden bei der automatisierten Entscheidungsfindung eingesetzt. In ausreichend beleuchteten Räumen oder bei hellem Tageslicht funktionieren sie gut. Aber bei schwachem Licht, besonders mit im Hinblick auf schnelllebige Probleme auftreten.

Die Lösung des Unternehmens besteht darin, den „statischen Rahmen“ als Quelle der Wahrheit für Computer Vision zu umgehen und stattdessen die einzelnen Photonen zu messen, die direkt auf den Bildsensor treffen. Dies kann mit einem Einzelphotonen-Avalanche-Diodenarray (oder unter Freunden SPAD-Array) erfolgen. Dieser Rohdatenstrom kann dann in ein programmierbares Gate-Array (FPGA, eine Art hochspezialisierter Prozessor) eingespeist und von Computer-Vision-Algorithmen weiter analysiert werden.

See also  Es kann möglich sein, ein Wurmloch zu durchqueren und dann ein Signal nach Hause zu senden

Das neu gegründete Unternehmen zeigte seine Technologie im Januar auf der CES in Las Vegas und hat einige ziemlich kühne Pläne für die Zukunft der Computer Vision.

„Unsere Vision ist es, in den nächsten fünf Jahren Technologie auf mindestens 10 % der Kameras und in den nächsten 10 Jahren auf mindestens 50 % der Kameras zu haben“, prognostizierte Bauer. „Wenn Sie jedes einzelne Photon mit sehr hoher zeitlicher Auflösung erkennen, tun Sie das, was Ihnen die Natur am besten erlaubt, und Sie werden die Vorteile sehen, wie die hochwertigen Videos auf unserer Webseite, die alles andere aus dem herausholen Wasser.”

TechCrunch hat die Technologie kürzlich bei einer Demonstration in Boston in Aktion gesehen und wollte untersuchen, wie die Technologie funktioniert und welche Auswirkungen sie auf Computer Vision und KI-Anwendungen hat.

Eine neue Form des Sehens

Digitalkameras arbeiten im Allgemeinen so, dass sie ein einzelnes Belichtungsbild erfassen, indem sie die Anzahl der Photonen „zählen“, die jedes Sensorpixel über einen bestimmten Zeitraum treffen. Am Ende des Zeitraums haben sich alle diese Photonen miteinander vervielfacht, und Sie haben ein Standbild. Wenn sich nichts im Bild bewegt, funktioniert das großartig, aber “wenn sich nichts bewegt”, ist ein großer Vorbehalt, insbesondere wenn es um Computer Vision geht. Es stellt sich heraus, dass alles ständig in Bewegung ist, wenn man versucht, mit Kameras Entscheidungen zu treffen.

Natürlich ist das Unternehmen mit den Rohdaten immer noch in der Lage, den Photonenstrom zu Einzelbildern zu kombinieren, was zu einem wunderbar klaren Video ohne Bewegungsunschärfe führt. Am aufregendsten war vielleicht, dass das Eliminieren der Idee von Frames dazu führte, dass das Ubicept-Team die Rohdaten nehmen und direkt analysieren konnte. Hier ist ein Beispielvideo, das den großen Unterschied zeigt, den es in der Praxis machen kann:

error: Content is protected !!