Comprendre les données nécessite un apprentissage de la pensée informatique

Les données brutes intelligibles en prise directe avec la réalité n’existent pas. Elles sont élaborées à partir de choix arbitraires de captages, de codages, de formatages, de modélisations et d’algorithmes. Il s’agit de conditionner les données pour les rendre compatibles aux traitements de masse.

Cette homogénéisation modifie l’expressivité des données et ajoute une part d’incertitude.

Mais l’important est de dégager des propriétés spécifiques, des corrélations issues de la masse.

Cette production de connaissances, pour l’exploiter, exige de la part de l’utilisateur un entraînement à la pensée formelle informatique. D’ordre logico-mathématique, elle réalise des opérations combinatoires, de classifications et de sériations. Elle met en évidence l’idée d’une structure profonde particulière avec des traits inhérents à sa représentation.

Comme les morphèmes en linguistique, il existe des plus petites unités morphologiques significatives.

Il s’agit d’expressions canoniques respectant strictement la syntaxe et l’orthographe. Elles incorporent des données lemmatisées. Ces unités sémantiques peuvent constituer une indexation facilitant leur identification. Le marquage de l’information facilite son incorporation dans des formules de calculs. Il permet aussi l’appariement avec un corpus de concepts métiers dans la constitution de requêtes.

Mais lors de l’exécution de ces dernières, la pertinence des résultats n’est pas garantie. Les lemmes sont en fait insuffisants pour assurer une précision parfaite. En effet, les synonymes (vêtements, habits, effets, affaires…), les polysémies (souris d’ordinateur ou correspondant à l’animal) ajoutent de l’ambiguïté. Pour la résoudre, les requêtes peuvent se baser sur une ontologie de domaine. Elle se traduit par une construction de référentiels, de matrices, etc…

De multiples raisonnements heuristiques sont donc nécessaires pour trouver des solutions. Il faut sans cesse, décomposer la complexité, séparer les éléments simples à résoudre de ceux qui le sont moins, maintenir la puissance de calcul et garantir la capacité de stockage…

Bref pour traiter des données informatiques, un esprit agile et stratégique semble plus approprié qu’un génie de la logique

Cette publication est en partie inspirée de la vidéo “De l’épistémologie de la mesure à celle de la donnée, conférence de Bruno Bachimont” ci-dessous