|
Comment le cerveau donne forme à l'image
l'origine des formes - dans mensuel n°305 daté janvier 1998 à la page 103 (3942 mots) | Gratuit
« Il faut traiter la nature par le cône, le cylindre et la sphère », disait Cézanne. Pour identifier des formes dans le brouillard des perceptions visuelles, le cerveau fait appel à des procédures géométriques que nous commençons à explorer. Les illusions visuelles constituent à cet égard un excellent révélateur.
Quand j'attends une personne au coin d'une rue, il m'arrive de la voir émerger soudain de la foule, puis de me rendre compte qu'il s'agissait d'une autre personne. De loin, le visage n'était pas assez net pour être identifié. Au lieu de produire un visage indistinct, la perception m'a livré la personne attendue avant que, les indices contraires s'accumulant, elle me donne à voir une autre personne.
Cette curieuse façon de juger vite, quitte à réviser ensuite son jugement, se comprend dans un contexte de lutte pour la vie. Détecter un prédateur dissimulé dans un environnement confus était d'importance vitale pour nos ancêtres, quand la vie ou la mort se jouaient à une fraction de seconde près. Il était également vital de repérer les proies possibles. Des procédures de reconnaissance ultra-rapides se sont développées, basées sur la présence ou l'absence de certains caractères pertinents. Nous avons conservé ce don puisqu'il suffit de regarder une diapositive pendant 20 millisecondes pour que, 140 millisecondes plus tard, nous sachions si l'image représentait un animal ou non1.
La perception des formes se conçoit aussi dans un autre esprit, de géométrie pure. Le contour extérieur d'un objet, les variations de courbure sur une surface, l'orientation des plans inclinés sont appréciés avec finesse grâce aux indices texturaux, aux effets de clair-obscur, au positionnement des reflets. La compréhension géométrique des formes s'est peut-être mise en place, au cours de l'évolution humaine, en relation avec la fabrication des premiers outils.
La compétence acquise s'est reportée, curieusement, dans un autre domaine : l'attirance entre partenaires sexuels. Des modifications minimes dans l'agencement des lignes du visage ou dans les proportions du corps suffisent à faire passer de l'attirance à la répulsion. En général, toutefois, l'analyse géométrique des formes est subordonnée aux tâches d'identification. Lire un texte, c'est d'abord reconnaître les lettres de l'alphabet à travers une multitude de variantes ; ce qui importe est de pouvoir assigner sans ambiguïté le nom de la lettre a, b, etc. à la forme perçue, les détails de cette forme étant d'importance tout à fait secondaire et vite oubliés. De même, nous voulons reconnaître les objets et les personnes à travers la multitude d'aspects particuliers qu'ils peuvent présenter, du fait de la distance à laquelle nous les voyons ou de leur orientation particulière par rapport à nous. Ce processus, qui part de l'analyse fine pour aboutir à l'indexation sur une forme standard, est à l'origine de divers paradoxes de constance ou d'inconstance des formes.
Au cours de l'évolution, l'appareil visuel a d'abord servi à détecter de brusques changements d'éclairement, puis à repérer des mouvements dans un paysage stable. Enfin, du fait des changements visuels induits par les déplacements de l'observateur, le monde visuel se présente en état de flux. Chaque point d'une scène forme une traînée, et la structure géométrique de l'ensemble des traînées indique précisément vers quel point de l'espace nous nous dirigeons. Aux trois modes principaux de modification du flux optique - par déplacement en avant de l'individu, par déplacement latéral de l'oeil, ou par rotation de l'oeil autour de son axe - correspondent des champs de traînées que l'on reconnaît d'emblée fig. 1. Une variante particulièrement intéressante de ces images a été inventée par Glass fig. 2 : partant d'une image représentant une distribution aléatoire de points dans laquelle n'apparaît aucune structure intéressante, on construit un double de cette image dans lequel les points ont été déplacés selon diverses lois : translation, homothétie ou rotation2. Quand on superpose l'image et son double, une forme caractéristique apparaît, la même que celle qui était directement visible sur les images correspondantes de la figure 1.
Dans une photographie d'objet en mouvement, les points de l'objet forment de petites traînées, toutes parallèles en première approximation. De même, quand l'oeil vise une région de l'espace puis accomplit une saccade pour viser une région voisine, tous les points de la scène accomplissent sur la rétine de petites trajectoires parallèles. La notion de parallélisme peut donc s'acquérir par l'expérience, très tôt dans le développement de l'individu. Le parallélisme est sans doute la propriété géométrique que la perception maîtrise le mieux.
Une famille de courbes parallèles décalées par translation suggère immédiatement un relief fig. 3 - mais quel relief au juste, et pourquoi ? Selon Kent Stevens, la forme perçue dans une figure à lignes ondulantes parallèles est celle qu'un géomètre aurait calculée moyennant deux hypothèses3 : 1 L'aspect « parallèle » des lignes est générique, c'est-à-dire que si la surface avait été observée d'un point de vue légèrement différent, ces mêmes lignes, supposées gravées sur la surface, auraient encore été parallèles dans l'image. De là, il résulte que ces lignes suivent des chemins réellement parallèles dans l'espace à trois dimensions, et que la surface est de type cylindrique comme par exemple une feuille de papier ou un rideau que l'on incurve. Le principe de « généricité »4 s'applique plus généralement à tous les problèmes d'interprétation d'image ; par exemple, si l'on regarde un disque par la tranche, on voit un rectangle ; mais un rectangle sur une image sera rarement interprété comme un disque vu par la tranche car cette interprétation impliquerait une position très particulière de l'observateur par rapport à l'objet.
2 Les lignes effectivement représentées seraient des lignes de courbure principale sur la surface qui les porte pour une surface cylindrique, les lignes de courbure principale sont d'une part les génératrices - des droites -, d'autre part les courbes qui leur sont perpendiculaires.
Dans l'exemple de la figure 4, dérivé de recherches graphiques d'artistes « op art » comme Bridget Riley, une forme se construit à partir d'éléments d'orientations voisines, mais pas franchement parallèles. On y voit émerger un relief, avec des vallées et des crêtes, et une sorte de flux de matière. D.J. Field, qui a mis en circulation ce genre de dessin, en tire argument que le cerveau s'appuie sur les alignements de segments pour donner forme à l'image5. Il semble néanmoins que l'interprétation en 3D est maintenue quand les segments sont légèrement déplacés et que leurs alignements sont rompus. Je crois plutôt que les formes 3D sont créées en regroupant de proche en proche les segments d'orientations voisines, presque parallèles.
La question de savoir si nous serions équipés de « détecteurs d'alignement » est ouverte. Il me semble que la notion primitive, pour le système visuel, est celle d'orientation, liée à celle de parallélisme. Une ligne droite serait appréciée comme droite par le fait que son orientation locale serait la même en tout point6.
L'école allemande de psychologie de la forme, fondée vers 1910 Gestalt avait énoncé des règles selon lesquelles les signes visuels sont regroupés, et perçus comme faisant partie d'une même entité.
Les principaux facteurs de regroupement sont ceux de proximité, de ressemblance, de continuité de direction, de fermeture des éléments sont regroupés s'ils peuvent émaner d'une courbe ou surface fermée, et de « prégnance » cohérence structurelle apportée par la simplicité, l'ordre, la régularité, la symétrie. A ces facteurs qui jouent de manière automatique s'ajoute celui de l'expérience passée, qui nous fait voir des formes bien connues dans des constellations de signes épars. La tradition de la Gestalt a été entretenue et poursuivie en Italie ; elle est à l'origine d'une quantité d'exemples très imaginatifs et significatifs sur le fonctionnement de la perception humaine8.
La figure 2 peut être considérée comme une version modernisée de la loi de regroupement selon la proximité, et la figure 4 comme une illustration du regroupement selon la similitude en orientation. La célèbre spirale de Fraser voir l'article de Jean-Claude Risset dans ce numéro s'explique par le fait que le principe de regroupement selon les luminances l'emporte sur le regroupement par proximité spatiale. L'influence de l'acquis culturel est manifeste dans la figure 5 où, avec des indices visuels minimes, on reconstitue un message qui devient, après coup, aussi lisible que du texte ordinaire. Enfin, la figure de tête du présent article illustre la puissance des regroupements par symétrie.
Nous analysons les formes pour identifier l'objet qui se manifeste à travers elles. La forme ainsi interprétée n'est plus que l'un des multiples aspects d'un prototype ; on en arrive à voir le prototype, et à oublier l'aspect particulier qu'a l'objet à la distance et sous l'incidence auxquelles on l'examine. Un objet familier circulaire - assiette, pièce de monnaie, cadran de montre - est vu circulaire même sous une incidence oblique. Selon le principe de constance des formes, tous les cercles ont la même forme, et sont également courbes, indépendamment de leur rayon. Il en découle que, perceptivement, le caractère plus ou moins plat d'un arc n'est pas lié à son rayon de courbure, mais à l'angle formé par les directions de ses deux extrémités6,7. L'invariance des formes avec la taille a cependant des limites. En effet, la détection des orientations qui intervient à un stade précoce du traitement visuel est efficace à partir d'une certaine longueur de contour, de telle sorte que les orientations perçues dans une figure peuvent dépendre de son échelle. Dans un grand damier, on voit les alignements horizontaux et verticaux de cases blanches et noires alternées. De loin, on voit surtout les diagonales toutes blanches ou toutes noires. La constance des formes s'applique assez bien aux figures planes. Leur forme ne semble pas changer avec la distance, et change peu avec l'inclinaison de leur plan par rapport à l'observateur. Mais quand on modifie leur orientation, elles peuvent devenir méconnaissables faire l'expérience avec l'image ouvrant le présent article.
Les formes en 3D posent un problème insoluble. Selon la perspective linéaire, la taille apparente d'une grandeur située dans un plan frontal varie comme l'inverse de la distance, tandis que celle d'une grandeur en profondeur varie comme l'inverse du carré de celle-ci : les objets éloignés se contractent donc en profondeur aspect « ratatiné » des véhicules photographiés au téléobjectif et les plans inclinés semblent, avec l'éloignement, se rapprocher de la verticale. Nous avons bien intégré la convergence apparente des lignes parallèles, mais les changements d'aspect dus aux inégalités de contraction dans les trois dimensions sont moins maîtrisés9. En particulier, nous avons le plus grand mal à apprécier si des plans inclinés, espacés en profondeur, sont parallèles ou non. Dans un stade, les gradins éloignés, vus de face, paraissent plus raides que les gradins proches, vus latéralement fig. 6. Normalement, des carrés vus de biais,
donc fortement comprimés par la
perspective, ressemblent à des parallélogrammes étirés, et nous leur redonnons une forme carrée.
Outre la vision carrée et la vision perspective, il existe une troisième possibilité, moins rare qu'on ne le croit, du moins en Occident : la vision en perspective inversée. J'y suis personnellement sujet pour des surfaces rectangulaires vues sous une incidence oblique. Elle s'impose, me semble-t-il, pour les petits objets quand ils sont vus des deux yeux fig. 7.
L'appréciation des formes est donc soumise à des tensions contradictoires. Quelle est la forme juste ? Celle qui serait invariablement assignée à l'objet, comme un symbole, celle qui est vue en perspective ou celle, plus enveloppante, qu'on pourrait voir en perspective inversée ? Chaque choix se justifie, et il nous faut arbitrer entre plusieurs façons, également légitimes, de percevoir une forme. De la nécessité de tels arbitrages découle, à mon avis, une grande partie des illusions géométriques.
Souvent, les surfaces sont représentées au moyen d'une trame carrée déformée. Un écartement des lignes signale une élévation, un resserrement signale une dépression fig. 8. Par ailleurs, les changements brusques d'orientation des lignes signalent des changements brusques d'orientation de la surface. Le cerveau interprète ce genre de dessins comme si la surface, plane au départ et portant la trame carrée régulière, avait subi des pressions qui avaient façonné son relief, et dilaté la trame. C'est aussi le genre de déformations que l'on observe en projetant la trame régulière sur la surface 3D, supposée unie. Dans les images à la Stevens fig. 3, il n'y a pas d'in-dice de dilatation et le cerveau doit faire l'hypothèse additionnelle que les courbes sont des lignes de courbure principale sur la surface.
Au-delà de la simple appréciation intellectuelle du relief, il est possible de l'éprouver avec acuité en situation de « stéréoscopie monoculaire paradoxale »10-12. Quand on explore une image à travers un tube étroit et que l'on perd ainsi les repères qui inscrivent l'image dans un cadre plat, cette image peut être perçue avec un relief comparable au relief stéréoscopique. Le phénomène peut s'éprouver même si la surface n'est représentée qu'avec de purs indices de compression et de dilatation fig. 8.
Les dessinateurs et caricaturistes savent, en quelques traits judicieusement choisis, représenter une surface complexe en trois dimensions. Selon quels critères ces traits sont-ils sélectionnés ? Le premier est celui des lignes de contour. Si j'observe une sphère d'un seul oeil, je peux imaginer des rayons qui, partant de l'oeil, iront percuter la sphère, d'au- tres rayons qui passeront à côté, et enfin une famille de rayons formant un cône qui ira la raser tangentiellement le long d'un cercle. Ce cercle est le contour externe de la sphère, relativement au point de vue. Remarquons que la portion de sphère qui est vue est une calotte plus petite qu'un hémisphère. Le contour externe de la sphère est plan, mais cette propriété est exceptionnelle : en général, le contour externe d'un objet est une courbe à trois dimensions.
Quand la surface présente des protubérances par exemple le nez dans un visage, on peut leur associer d'autres lignes de contour selon le même principe. Ces protubérances n'étant pas des surfaces indépendantes fermées, les lignes de contour sont ouvertes. Il faut bien qu'elles commencent et finissent quelque part, mais où ? La logique semble être la suivante13 : si je considère un rayon issu d'un oeil qui frôle la protubérance, et que ce rayon, en se prolongeant, rencontre une seconde portion de surface plus loin, alors le premier point de tangence doit être représenté sur le supplément de contour. Mais s'il n'y a plus, en ce point, de chemin supplémentaire à parcourir pour rencontrer l'autre portion de surface, alors le contour doit s'arrêter fig. 9. Tant le contour externe que ces suppléments de contour dépendent de la position de l'observateur. Les suppléments sont très efficaces pour donner l'idée de volume fig. 9. Les apparitions et disparitions de ces contours selon les positions respectives de l'observateur et de l'objet pourraient être des attributs importants dans le codage des formes en mémoire14.
Mathématiquement, les suppléments de contour devraient toujours se terminer par des concavités. Mais, comme l'ont constaté J.J. Koenderink et A.J. van Doorn, les artistes représentent presque toujours les protubérances les seins féminins par exemple par des arcs exclusivement convexes13. Il semble, plus généralement, que l'on a tendance à se représenter les formes en 3D comme des accrétions d'unités convexes « Il faut traiter la nature par le cône, le cylindre et la sphère » disait Cézanne. A la rigueur, on conçoit aussi des dépressions concavités qui se formeraient quand on enfonce le doigt dans une boule, mais les régions de raccordement entre portions convexes et concaves ont une forme à double courbure dite en selle de cheval : elles sont mal conceptualisées, même par les artistes, et seraient traitées comme des transitions sans intérêt13. Néanmoins, la perception humaine y serait sensible. Les courbes frontières entre régions hyperboliques en selle de cheval d'une part, et régions convexe ou concave d'autre part sont appelées courbes paraboliques. Celles qui séparent une région hyperbolique d'une région convexe ont un rôle visuel important : c'est là, quand l'objet tourne, que prennent naissance de nouveaux reflets15, de nouvelles ombres ou des contours supplémentaires, bien qu'elles soient rarement des lignes de séparation physique entre différentes parties d'un objet. Le « dos » d'un croissant est convexe, son « ventre » est hyperbolique. Des sujets à qui l'on demande d'apprécier, en différents points de l'image d'un croissant si la surface y est d'un genre ou de l'autre répondent juste et localisent donc correctement les courbes paraboliques, même s'ils n'en possédaient pas le concept16.
Dans une série d'expériences à vocation plus générale, Koenderink et van Doorn ont fait évaluer l'orientation de la surface en divers points de la photographie d'un torse. Cette orientation est définie par deux paramètres d'inclinaison, que les sujets devaient apprécier successivement. L'ensemble des réponses s'avère remarquablement consistant. A partir des seules évaluations d'orientation dans l'espace 3D des plans tangents à la surface, il est possible, avec une bonne approximation, de calculer une surface mathématique compatible avec l'ensemble, et cette surface est en bon accord avec celle de l'objet représenté17.
Il nous reste à aborder le problème central, jusqu'ici éludé : comment le cerveau produit-il cette fameuse forme qui rend si bien compte des multiples indices ? Car la forme, plus qu'une collection d'indices, est une production interne qui donne sens à ces indices. En témoigne le phénomène des contours subjectifs. A la jonction de deux surfaces appartenant à deux objets différents, la texture de l'une s'interrompt pour faire place à l'autre.
La frontière, immatérielle, se manifeste par des discontinuités de texture. Si les textures sont denses, et que la frontière est très régulière, les interruptions de texture prennent l'allure de franches coupures, et le regroupement perceptif de ces coupures procure l'impression d'une courbe réelle continue. Lorsque la texture d'une des surfaces est remplacée par un fond uniforme, cette surface apparaît de manière illusoire, bien qu'elle ne soit plus, en principe, que suggérée par les coupures de texture de l'autre surface fig. 10. On pourrait croire que la surface subjective est engendrée par un processus d'interpolation qui relierait de proche en proche les éléments coupés d'une texture. Il n'en est rien. Dans la figure 10b, on voit une couronne subjective très régulière sur fond d'hexagones espacés. Un procédé d'interpolation aurait produit, dans ce cas, une couronne irrégulière, ce qui n'est pas le cas.
Des surfaces subjectives sont produites en 3D via la vision stéréoscopique, comme le montre le très bel exemple de J.P. Harris et R.L. Gregory fig. 11. Il s'agit d'un couple d'images qui fait apparaître deux surfaces subjectives. Ce couple forme un stéréogramme. Quand on s'arrange pour voir une image de l'oeil gauche, et l'autre de l'oeil droit, on voit une surface illusoire en relief, ayant la forme d'une selle de cheval. Cette surface n'a pu être ni interpolée, ni calculée point par point, puisque les deux surfaces d'origine sont d'un noir uniforme : elles ne contiennent aucun repère qui permettrait de calculer la troisième dimension.
Pour définir une courbe ou une surface particulière, le mathématicien choisit, au cas par cas, le procédé le plus économique : il utilise à sa convenance des coordonnées cartésiennes, cylindriques ou sphériques, définit l'objet par des équations entre les coordonnées, ou entre les coordonnées et un paramètre, définit l'objet comme un lieu, une trajectoire, une enveloppe, ou le transformé d'un autre objet, etc. Je soupçonne que le cerveau dispose aussi de plusieurs techniques de représentation des formes. A mon avis, la représentation des courbes et celle des surfaces relèvent de techniques différentes. La première est d'une extrême finesse, l'autre paraît plus sommaire : nous conceptualisons mal les régions hyperboliques, ne reconnaissons pas qu'une surface est réglée à moins que des droites n'y soient explicitement dessinées, et nous apprécions de manière très approximative le rapport entre la profondeur et les deux dimensions frontales comme nous le découvrons en voulant sculpter une tête.
La forme d'une surface telle qu'elle est perçue se décrit bien avec quelques lignes de contour, et ceci suggère l'existence de procédés de génération de surfaces 3D à partir de contours plans. Il me semble que, pour l'essentiel, la surface que nous conceptualisons à partir d'un contour obéit à la règle suivante : supposons un contour fermé dessiné dans le plan horizontal ; associons, à la verticale de chaque point situé à l'intérieur, une altitude d'autant plus grande que le point est loin des bords ; la surface ainsi construite est une bonne interprétation 3D du contour. En d'autres termes, les régions étroites sont peu épaisses, les larges le sont davantage. Physiquement, on arriverait à un tel résultat en formant un tas de sable, aussi élevé que possible, qui serait contenu par le contour. On y parviendrait aussi en empilant sur le premier contour des strates où chacune aurait un contour légèrement en retrait par rapport à celui de la strate immédiatement inférieure. Un autre procédé consisterait à promener à l'intérieur du contour une sphère dont le centre serait dans le plan horizontal du contour, et dont le rayon varierait de manière à ce que la sphère soit tangente des deux côtés à la fois19. L'intérêt de ce procédé est que le trajet suivi par le centre de la sphère définit une ossature. Il permet donc de passer d'une description par l'extérieur à une description par l'intérieur.
De multiples surfaces, qui diffèrent par leur convexité, satisfont à la loi énoncée, selon laquelle l'altitude croît avec l'éloignement des bords. A partir d'un cercle, on peut former des calottes sphériques ou ellipsoïdales, des cônes, ou des formes concaves en toit de pagode. Mais pour représenter les formes, le cerveau n'utilise ni des tas de sable ni du contreplaqué. Les exemples qui ont été donnés sont à prendre comme des métaphores qui expliquent ce que doit être la représentation des formes : une méthode qui engendre, à partir d'une description très compacte, une grande famille de surfaces se déduisant les unes des autres en ajustant un petit nombre de paramètres.
La question de la représentation des courbes, quoique soumise aux mêmes contraintes, me paraît plus délicate et mystérieuse.
Ici, d'autres analogies viennent à l'esprit, tels les modèles physiques de sources ponctuelles dont l'influence se propage. Une pierre jetée dans l'eau produit une famille de cercles concentriques. Une charge électrique isolée produit aussi une famille de cercles sur lesquels le potentiel est constant. Avec deux charges de même signe, ou de signes différents, on crée d'autres familles plus complexes. Il est donc possible de coder des formes de manière analogique.
Pour décrire une forme, on déterminerait une configuration comportant un petit nombre de charges « + » et « », à laquelle on associerait une famille de courbes qui seraient les équipotentielles du champ créé par ces charges. Un tel modèle admet une traduction neuronale immédiate : si les charges sont matérialisées par des neurones émettant des signaux dans toutes les directions, une courbe de potentiel serait le lieu des points recevant des signaux dont la somme - ou une fonction plus pertinente - aurait une valeur déterminée. Le risque, avec la plupart des modèles propagatifs partant de sources ponctuelles, est de produire des courbes trop festonnées. Il me semble que la perception humaine produit des cour-bes ayant un maximum de régularité fig. 10, et ceci me suggère l'analogie d'une surface élastique sur laquelle on souffle d'un côté, ou à l'intérieur si elle est fermée, et sur laquelle on appuie éventuellement ensuite de l'autre côté. La forme se construirait donc en plusieurs étapes, par une succession de poussées internes et de pressions externes.
La perception visuelle excelle à reconnaître une forme générale à travers toutes sortes de déformations on lit sans mal du texte sur une page recourbée et l'on reconnaît les objets à travers des miroirs déformants. D'Arcy Thompson s'était livré au jeu des déformations sur les formes animales, et avait constaté que « la déformation d'une figure compliquée peut se comprendre facilement, même si la figure demeure mal définie et mal analysée » 20 . A cet égard, la perception visuelle est idéalement adaptée à la compréhension des formes naturelles.
DOCUMENT larecherche.fr LIEN |