banner

Blog

Aug 25, 2023

Des chercheurs utilisent l'IA pour identifier des matériaux similaires dans des images

Les images à télécharger sur le site Web du bureau de MIT News sont mises à la disposition des entités non commerciales, de la presse et du grand public sous une licence Creative Commons Attribution Non-Commercial No Derivatives. Vous ne pouvez pas modifier les images fournies, sauf pour les recadrer à la taille. Une ligne de crédit doit être utilisée lors de la reproduction d’images; si vous n’en fournissez pas ci-dessous, créditez les images au « MIT ».

Image précédente Image suivante

Un robot manipulant des objets tout en travaillant, par exemple, dans une cuisine, bénéficiera de la compréhension des articles composés des mêmes matériaux. Avec cette connaissance, le robot saurait exercer une force similaire, qu’il ramasse une petite tape de beurre dans un coin sombre du comptoir ou un bâton entier à l’intérieur du réfrigérateur bien éclairé.

L’identification d’objets dans une scène composés du même matériau, connue sous le nom de sélection de matériaux, est un problème particulièrement difficile pour les machines, car l’apparence d’un matériau peut varier considérablement en fonction de la forme de l’objet ou des conditions d’éclairage.

Les scientifiques du MIT et d’Adobe Research ont fait un pas en avant pour relever ce défi. Ils ont développé une technique qui permet d’identifier tous les pixels d’une image représentant un matériau donné, qui est montré dans un pixel sélectionné par l’utilisateur.

La méthode est précise même lorsque les objets ont des formes et des tailles différentes, et le modèle d’apprentissage automatique qu’ils ont développé n’est pas trompé par les ombres ou les conditions d’éclairage qui peuvent faire paraître le même matériau différent.

Bien qu’ils aient entraîné leur modèle en utilisant uniquement des données « synthétiques », qui sont créées par un ordinateur qui modifie les scènes 3D pour produire de nombreuses images différentes, le système fonctionne efficacement sur des scènes réelles intérieures et extérieures qu’il n’a jamais vues auparavant. L’approche peut également être utilisée pour les vidéos; Une fois que l’utilisateur a identifié un pixel dans la première image, le modèle peut identifier des objets fabriqués à partir du même matériau dans le reste de la vidéo.

En plus des applications dans la compréhension de scène pour la robotique, cette méthode pourrait être utilisée pour l’édition d’images ou incorporée dans des systèmes informatiques qui déduisent les paramètres des matériaux dans les images. Il pourrait également être utilisé pour les systèmes de recommandation Web basés sur les matériaux. (Peut-être qu’un acheteur recherche des vêtements fabriqués à partir d’un type particulier de tissu, par exemple.)

« Savoir avec quel matériau vous interagissez est souvent très important. Bien que deux objets puissent sembler similaires, ils peuvent avoir des propriétés matérielles différentes. Notre méthode peut faciliter la sélection de tous les autres pixels d’une image qui sont fabriqués à partir du même matériau », explique Prafull Sharma, étudiant diplômé en génie électrique et en informatique et auteur principal d’un article sur cette technique.

Les co-auteurs de Sharma comprennent Julien Philip et Michael Gharbi, chercheurs scientifiques chez Adobe Research; et les auteurs principaux William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d’informatique et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL); Frédo Durand, professeur de génie électrique et d’informatique et membre du CSAIL; et Valentin Deschaintre, chercheur chez Adobe Research. La recherche sera présentée à la conférence SIGGRAPH 2023.

Une nouvelle approche

Les méthodes existantes de sélection des matériaux ont du mal à identifier avec précision tous les pixels représentant le même matériau. Par exemple, certaines méthodes se concentrent sur des objets entiers, mais un objet peut être composé de plusieurs matériaux, comme une chaise avec des bras en bois et un siège en cuir. D’autres méthodes peuvent utiliser un ensemble prédéterminé de matériaux, mais ceux-ci ont souvent des étiquettes larges comme « bois », malgré le fait qu’il existe des milliers de variétés de bois.

Au lieu de cela, Sharma et ses collaborateurs ont développé une approche d’apprentissage automatique qui évalue dynamiquement tous les pixels d’une image pour déterminer les similitudes matérielles entre un pixel sélectionné par l’utilisateur et toutes les autres régions de l’image. Si une image contient une table et deux chaises, et que les pieds et le dessus de la chaise sont faits du même type de bois, leur modèle pourrait identifier avec précision ces régions similaires.

Avant que les chercheurs puissent développer une méthode d’IA pour apprendre à sélectionner des matériaux similaires, ils ont dû surmonter quelques obstacles. Tout d’abord, aucun ensemble de données existant ne contenait de matériaux étiquetés suffisamment finement pour former leur modèle d’apprentissage automatique. Les chercheurs ont rendu leur propre ensemble de données synthétiques de scènes intérieures, qui comprenait 50 000 images et plus de 16 000 matériaux appliqués au hasard à chaque objet.

« Nous voulions un ensemble de données où chaque type de matériau individuel est marqué indépendamment », explique Sharma.

Ensemble de données synthétiques en main, ils ont formé un modèle d’apprentissage automatique pour la tâche d’identifier des matériaux similaires dans des images réelles - mais il a échoué. Les chercheurs ont réalisé que le changement de distribution était à blâmer. Cela se produit lorsqu’un modèle est entraîné sur des données synthétiques, mais qu’il échoue lorsqu’il est testé sur des données réelles qui peuvent être très différentes de l’ensemble d’apprentissage.

Pour résoudre ce problème, ils ont construit leur modèle sur un modèle de vision par ordinateur préentraîné, qui a vu des millions d’images réelles. Ils ont utilisé les connaissances antérieures de ce modèle en tirant parti des caractéristiques visuelles qu’ils avaient déjà apprises.

« Dans l’apprentissage automatique, lorsque vous utilisez un réseau neuronal, il s’agit généralement d’apprendre la représentation et le processus de résolution de la tâche ensemble. Nous avons démêlé cela. Le modèle préentraîné nous donne la représentation, puis notre réseau neuronal se concentre uniquement sur la résolution de la tâche », dit-il.

Résoudre les problèmes de similitude

Le modèle des chercheurs transforme les caractéristiques visuelles génériques et préentraînées en caractéristiques spécifiques au matériau, et il le fait d’une manière robuste aux formes d’objets ou aux conditions d’éclairage variées.

Le modèle peut ensuite calculer un score de similarité matérielle pour chaque pixel de l’image. Lorsqu’un utilisateur clique sur un pixel, le modèle détermine à quel point l’apparence de tous les autres pixels est proche de la requête. Il produit une carte où chaque pixel est classé sur une échelle de 0 à 1 pour la similitude.

« L’utilisateur clique simplement sur un pixel, puis le modèle sélectionne automatiquement toutes les régions qui ont le même matériau », dit-il.

Étant donné que le modèle produit un score de similarité pour chaque pixel, l’utilisateur peut affiner les résultats en définissant un seuil, tel que 90% de similitude, et recevoir une carte de l’image avec ces régions mises en surbrillance. La méthode fonctionne également pour la sélection d’images croisées - l’utilisateur peut sélectionner un pixel dans une image et trouver le même matériau dans une image séparée.

Au cours des expériences, les chercheurs ont constaté que leur modèle pouvait prédire les régions d’une image contenant le même matériau plus précisément que d’autres méthodes. Lorsqu’ils ont mesuré la qualité de la prédiction par rapport à la réalité du terrain, c’est-à-dire les zones réelles de l’image qui sont composées du même matériau, leur modèle correspondait avec une précision d’environ 92%.

À l’avenir, ils veulent améliorer le modèle afin qu’il puisse mieux capturer les détails fins des objets dans une image, ce qui augmenterait la précision de leur approche.

« Les matériaux riches contribuent à la fonctionnalité et à la beauté du monde dans lequel nous vivons. Mais les algorithmes de vision par ordinateur négligent généralement les matériaux, se concentrant fortement sur les objets. Cet article apporte une contribution importante à la reconnaissance des matériaux en images et en vidéo dans un large éventail de conditions difficiles », explique Kavita Bala, doyenne du Cornell Bowers College of Computing and Information Science et professeure d’informatique, qui n’a pas participé à ce travail. « Cette technologie peut être très utile pour les consommateurs finaux et les concepteurs. Par exemple, un propriétaire peut imaginer à quel point des choix coûteux comme rembourrer un canapé ou changer la moquette dans une pièce peuvent apparaître, et peut être plus confiant dans ses choix de conception basés sur ces visualisations.

Les chercheurs du MIT ont développé une nouvelle technique d’apprentissage automatique qui peut identifier quels pixels dans une image représentent le même matériau, ce qui pourrait aider à la compréhension de la scène robotique, rapporte Kyle Wiggers pour TechCrunch. « Étant donné qu’un objet peut être composé de plusieurs matériaux ainsi que de couleurs et d’autres aspects visuels, c’est une distinction assez subtile mais aussi intuitive », écrit Wiggers.

Point précédent Point suivant

Point précédent Point suivant

Une nouvelle approche Résoudre les similitudes
PARTAGER