L’avenir de la recherche et des données

Les lacunes du Big Data

Un article du MIT a montré que les applications d’IA concernant l’identification et la détection des fausses nouvelles pourraient être considérablement améliorées en alimentant le système avec des cas réels de fausses nouvelles publiées par des auteurs et des sources fiables, qui s’accumulent plus rarement. Une autre étude de Microsoft et du MIT sur les systèmes d’analyse faciale par l’IA montre un taux d’erreur de seulement 0,8 % pour les hommes à la peau claire, et de 34,7 % pour les femmes à la peau foncée, un segment qui a moins de chances de posséder un téléphone vedette. De même, les voitures autonomes reconnaissent très bien les objets les plus fréquents tels que les feux de circulation, les personnes et les passages piétons. Cependant, ils ne parviennent pas toujours à identifier les piétons moins fréquents, tels que les animaux, et plus dangereusement, ils ne parviennent pas à prédire leur réaction éventuelle face à une voiture en mouvement, ce que les humains peuvent facilement faire. Ces histoires et bien d’autres similaires ne sont qu’une introduction aux innombrables aspects de bon sens, mentaux et émotionnels que l’IA d’aujourd’hui ne parvient pas à appréhender.

Au fur et à mesure que le domaine de la recherche et de la science des données utilise davantage de ces données résiduelles de plus en plus disponibles, dont la taille et la forme augmentent, les résultats peuvent devenir
de plus en plus artificiels
. Dans le même temps, ils ont également tendance à devenir
moins intelligents
car le domaine ne fait que répondre aux exigences de quantité de données de ces systèmes informatiques complexes. Toutefois, cela ne tient pas compte du bon sens et des enseignements que l’on ne peut tirer que d’ensembles de données plus petits et ciblés, moins répandus mais beaucoup plus instructifs. Après tout, les interprétations nécessaires pour donner un sens aux résultats générés par les machines proviennent principalement de l’apprentissage, de la connaissance et du bon sens de données restreintes mais profondes. L’omission de cet élément essentiel a des conséquences sur les cas d’utilisation réels et les avantages des systèmes d’IA. Sept entreprises sur dix qui investissent dans l’IA déclarent que leurs projets d’IA n’ont qu’un impact minime ou nul. En outre, seuls 4 % des applications de l’IA sont actuellement essentielles pour les entreprises.

Avec l’utilisation extensive de données résiduelles facilement disponibles, les systèmes d’IA tendent à devenir
plus artificiels et moins intelligents
Les systèmes d’IA ont tendance à devenir plus artificiels et moins intelligents, à moins que nous n’intégrions les apprentissages et le bon sens qui proviennent principalement de données ciblées et de petite taille.

L’importance des petites données

De toute évidence, le problème sous-jacent le plus courant dont souffrent de nombreux systèmes d’IA est leur incapacité à traiter facilement les cas dits “marginaux” et les petits bouts d’apprentissage provenant de petits morceaux de données. Alors que les “big data” sont extrêmement puissantes pour les classifications et les catégorisations complexes, les “small” et “purposeful data” permettent de trouver le “pourquoi” le plus important et le plus nécessaire.
Les données de petite taille et utiles permettent de trouver le “pourquoi” le plus important et le plus nécessaire.
Il n’est donc pas surprenant que la majorité des plus grandes innovations de notre époque soient basées sur des données de petite taille. Les résultats fructueux de la recherche et de la science des données – qui constituent des avantages concurrentiels pour les utilisateurs de ces résultats – ne proviendront pas d’algorithmes d’automatisation prêts à l’emploi et prêts à ingurgiter de gros morceaux de données. Au lieu de cela, les résultats fructueux proviendront de petits bouts d’apprentissage, de perceptions, d’émotions, d’attentes, de créativité et d’intelligence provenant de données plus petites et ciblées qui sont incorporées dans ces algorithmes.

La recherche et les sciences des données requièrent l'utilisation de petites données ciblées incluses dans l'analyse des grandes données (big data).

De nombreux scientifiques des données cherchent désormais à augmenter les systèmes d’IA dans le but d’incorporer les apprentissages des petites données dans l’IA comme une voie ultime vers une stratégie complète de génération d’informations. Par ailleurs, beaucoup parlent de la nécessité pour les petites données de jouer un rôle important dans le succès de la recherche et de la science des données. Plusieurs solutions techniques, telles que les techniques d’apprentissage à un coup ou à quelques coups, voire à moins d’un coup, et d’apprentissage par transfert, sont en cours d’élaboration et d’amélioration pour aider les systèmes d’IA centrés sur la quantité à utiliser des apprentissages qualitatifs à partir d’ensembles de données plus restreints.

L’avenir fructueux de la recherche et de la science des données est là où les
petites
données jouent un rôle grand rôle.

À mesure que la technologie se rationalise et se prépare à accueillir les nuances de la vie réelle et les renseignements recueillis par le biais de petites données, le rôle des ensembles de données utiles de bonne qualité augmentera considérablement. Bien entendu, ces types d’ensembles de données sont difficiles à obtenir car ils présentent des aspects plus sensibles, parfois moins évidents, mais importants de notre vie. Elles sont le plus souvent axées sur les personnes et sur des questions spécifiques, généralement collectées intentionnellement, avec un objectif clair et des techniques de collecte de données, car elles explorent souvent les opinions, les tendances et les populations hors réseau. La collecte de ce type d’informations granulaires auprès de sujets ciblés n’est certainement pas une tâche facile pour les chercheurs, et elle n’est pas non plus exempte de préjugés.

Recherche et données chez FINCA

Chez FINCA, notre expertise consiste à collecter des données de haute qualité et à des fins précises. Si le portefeuille de FINCA va des services financiers responsables aux entreprises sociales, il représente la même mission sociale : servir les populations vulnérables et marginalisées. Souvent, les voix de nos segments de clientèle sont mal représentées dans les tendances et les résultats du big data. Cela s’explique par le fait qu’ils ont une empreinte numérique limitée et qu’ils résident dans des communautés isolées dans le monde entier. Néanmoins, ils offrent des perspectives immensément profondes et importantes en tant que segment distinct de la population, et nous aimons intégrer ces perspectives dans tout ce que nous faisons.

L’équipe de recherche et de science des données de FINCA élève ces voix marginalisées en adaptant les enquêtes, en collectant et en analysant des données utiles. Pour mener à bien cette tâche de recherche relativement complexe et de haute qualité, nous utilisons notre propre plateforme de gestion des données, ValiData. La plateforme permet d’améliorer les pratiques de collecte de données grâce à des règles et des techniques de validation des données automatisées. Il examine les ensembles de données en temps réel pour détecter les anomalies, les valeurs aberrantes et les biais en utilisant des techniques statistiques avancées et des processus d’apprentissage automatique.

Souvent, les voix des personnes marginalisées sont mal représentées dans les tendances et les résultats du big data. Néanmoins, ils offrent des perspectives immensément profondes et importantes en tant que segment distinct de la population, et
nous aimons intégrer ces perspectives à tout ce que nous faisons
.

Les enseignements et les voix inédites qui nous parviennent du monde entier grâce à ValiData sont le moteur de l’activité de FINCA. Ils nous aident à créer et à améliorer nos services et à évaluer l’impact de nos programmes. Chaque jour, nous constatons l’immense valeur que les données utiles peuvent apporter au domaine de la recherche et de la science des données, et éclairer les bonnes décisions commerciales, en particulier si elles sont collectées selon des normes de qualité élevées.