Friday, August 26, 2022
HomeFrench NewsVos données sont-elles suffisamment bonnes pour vos plans d'apprentissage automatique/IA ?

Vos données sont-elles suffisamment bonnes pour vos plans d’apprentissage automatique/IA ?


Les développements de l’IA sont une grande priorité pour les entreprises et les gouvernements du monde entier. Pourtant, un facet fondamental de l’IA reste négligé : la mauvaise qualité des données.

Les algorithmes d’IA s’appuient sur des données fiables pour générer des résultats optimaux – si les données sont biaisées, incomplètes, insuffisantes et inexactes, cela entraîne des conséquences dévastatrices.

Des systèmes d’IA qui identifient maladies des sufferers sont un wonderful exemple de la façon dont la mauvaise qualité des données peut entraîner des résultats négatifs. Lorsqu’ils sont ingérés avec des données insuffisantes, ces systèmes produisent de fake diagnostics et des prédictions inexactes entraînant des diagnostics erronés et des traitements retardés. Par exemple, une étude menée à l’Université de Cambridge sur plus de 400 outils utilisés pour diagnostiquer le Covid-19 trouvé des rapports générés par l’IA entièrement inutilisables, causés par des ensembles de données défectueux.

En d’autres termes, vos initiatives d’IA auront des conséquences dévastatrices dans le monde réel si vos données ne sont pas assez bonnes.

Que signifient des données « assez bonnes » ?

Il y a tout un débat sur ce que signifient des données « suffisamment bonnes ». Certains disent qu’il n’existe pas de données suffisamment bonnes. D’autres disent que le besoin de bonnes données provoque une paralysie de l’analyse – alors que HBR déclare carrément vos outils d’apprentissage automatique sont inutiles si vos informations sont terribles.

Chez WinPure, nous définissons des données suffisamment bonnes comme « des données complètes, exactes et valides qui peuvent être utilisées en toute confiance pour des processus commerciaux présentant des risques acceptables, dont le niveau est soumis aux objectifs et circonstances individuels d’une entreprise.

La plupart des entreprises se débattent avec la qualité des données et la gouvernance plus qu’elles ne l’admettent. Ajouter à la rigidity; ils sont débordés et soumis à une immense pression pour déployer des initiatives d’IA afin de rester compétitifs. Malheureusement, cela signifie que des problèmes tels que les données gross sales ne font même pas partie des discussions en salle de conseil jusqu’à ce qu’ils provoquent l’échec d’un projet.

Remark la mauvaise qualité des données affecte-t-elle les systèmes d’IA ?

Les problèmes de qualité des données surviennent au début du processus lorsque l’algorithme se nourrit des données d’apprentissage pour apprendre des modèles. Par exemple, si un algorithme d’IA est fourni avec des données de médias sociaux non filtrées, il capte les abus, les commentaires racistes et les remarques misogynes, comme on le voit avec Le bot IA de Microsoft. Récemment, l’incapacité de l’IA à détecter les personnes à la peau foncée était également considérée comme due à des données partielles.

Quel est le lien avec la qualité des données ?

L’absence de gouvernance des données, le manque de sensibilisation à la qualité des données et les vues isolées des données (où une telle disparité entre les sexes peut avoir été remarquée) conduisent à de mauvais résultats.

Que faire?

Lorsque les entreprises se rendent compte qu’elles ont un problème de qualité des données, elles paniquent à l’idée d’embaucher. Des consultants, des ingénieurs et des analystes sont embauchés à l’aveugle pour diagnostiquer, nettoyer les données et résoudre les problèmes dès que potential. Malheureusement, des mois s’écoulent avant que des progrès ne soient réalisés, et malgré les tens of millions dépensés pour la main-d’œuvre, les problèmes ne semblent pas disparaître. Une approche instinctive d’un problème de qualité des données n’est guère utile.

Le véritable changement start au niveau de la base.

Voici trois étapes cruciales à suivre si vous voulez que votre projet AI/ML évolue dans la bonne path.

Sensibiliser et reconnaître les problèmes de qualité des données

Pour commencer, évaluez la qualité de vos données en créant une tradition de la littératie des données. Invoice Schmarzo, une voix puissante dans l’industrie, recommande d’utiliser la pensée de conception pour créer une tradition où chacun comprend et peut contribuer aux objectifs et aux défis d’une organisation en matière de données.

Dans le paysage business actuel, les données et la qualité des données ne relèvent plus de la seule responsabilité des équipes informatiques ou de données. Les utilisateurs professionnels doivent être conscients des problèmes de données gross sales et des données incohérentes et en double, entre autres problèmes.

La première selected essentielle à faire est donc de faire de la formation à la qualité des données un effort organisationnel et de donner aux équipes les moyens de reconnaître les attributs de données médiocres.

Voici une liste de contrôle que vous pouvez utiliser pour entamer une dialog sur la qualité de vos données.

Liste de vérification de la santé des données. Supply : Entreprise WinPure

Concevoir un plan pour atteindre les métriques de qualité

Les entreprises commettent souvent l’erreur de minimiser les problèmes de qualité des données. Ils embauchent des analystes de données pour effectuer les tâches banales de nettoyage des données au lieu de se concentrer sur le travail de planification et de stratégie. Certaines entreprises utilisent des outils de gestion des données pour nettoyer, dédupliquer, fusionner et purger les données sans plan. Malheureusement, les outils et les abilities ne peuvent pas résoudre les problèmes isolément. Il serait utile d’avoir une stratégie pour répondre aux dimensions de la qualité des données.

La stratégie doit aborder la collecte, l’étiquetage, le traitement des données et déterminer si les données correspondent au projet AI/ML. Par exemple, si un programme de recrutement d’IA ne sélectionne que des candidats masculins pour un poste method, il est évident que les données de formation pour le projet étaient biaisées, incomplètes (automobile elles n’ont pas recueilli suffisamment de données sur les candidates) et inexactes. Ainsi, ces données ne répondaient pas au véritable objectif du projet d’IA.

La qualité des données va au-delà des tâches banales de nettoyage et de correction. Il est préférable de mettre en place des normes d’intégrité et de gouvernance des données avant de commencer le projet. Cela évite à un projet d’aller kaput plus tard !

Poser les bonnes questions et définir la responsabilité

Il n’y a pas de normes universelles pour « des données suffisamment bonnes ou des niveaux de qualité des données ». Au lieu de cela, tout dépend du système de gestion des informations de votre entreprise, des directives de gouvernance des données (ou de leur absence) et de la connaissance de votre équipe et des objectifs commerciaux, parmi de nombreux autres facteurs.

Voici quelques questions à poser à votre équipe avant de lancer le projet :

  • Quelle est l’origine de nos informations et quelle est la méthode de collecte des données ?
  • Quels problèmes affectent le processus de collecte de données et menacent les résultats positifs ?
  • Quelles informations les données fournissent-elles ? Est-ce conforme aux normes de qualité des données (c’est-à-dire que les informations sont exactes, entièrement fiables et constantes) ?
  • Les personnes désignées sont-elles conscientes de l’significance de la qualité et de la mauvaise qualité des données ?
  • Les rôles et les responsabilités sont-ils définis ? Par exemple, qui est tenu de maintenir des calendriers réguliers de nettoyage des données ? Qui est responsable de la création des enregistrements maîtres ?
  • Les données sont-elles adaptées à l’objectif ?

Posez les bonnes questions, attribuez les bons rôles, mettez en place des normes de qualité des données et aidez votre équipe à relever les défis avant qu’ils ne deviennent problématiques !

De conclure

La qualité des données ne consiste pas seulement à corriger les fautes de frappe ou les erreurs. Il garantit que les systèmes d’IA ne sont pas discriminatoires, trompeurs ou inexacts. Avant de lancer un projet d’IA, il est nécessaire de corriger les failles de vos données et de relever les défis de la qualité des données. De plus, lancez des programmes de littératie des données à l’échelle de l’organisation pour connecter chaque équipe à l’objectif international.

Les employés de première ligne qui manipulent, traitent et étiquettent les données ont besoin d’une formation sur la qualité des données pour identifier les biais et les erreurs dans le temps.

Crédit d’picture en vedette : fourni par l’auteur ; Merci!

Photographs intérieures de l’article : fournies par l’auteur ; Merci!

Farah Kim

Farah Kim est une consultante en advertising centrée sur l’humain qui a le don de résoudre des problèmes et de simplifier des informations complexes en informations exploitables pour les cooks d’entreprise. Elle est impliquée dans la technologie, le B2B et le B2C depuis 2011.

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments