Sesgo de aprendizaje automático, también llamado a veces sesgo del algoritmo o Sesgo de IA, es un fenómeno que ocurre cuando un algoritmo produce resultados sistémicamente perjudicados debido a suposiciones erróneas en el proceso de aprendizaje automático.
El aprendizaje automático, un subconjunto de la inteligencia artificial (IA), depende de la calidad, objetividad y tamaño de los datos de entrenamiento utilizados para enseñarlo. Los datos defectuosos, deficientes o incompletos darán lugar a predicciones inexactas, lo que refleja la advertencia de «basura dentro, basura fuera» utilizada en informática para transmitir el concepto de que la calidad de la salida está determinada por la calidad de la entrada.
El sesgo del aprendizaje automático generalmente se debe a problemas introducidos por las personas que diseñan y / o capacitan los sistemas de aprendizaje automático. Estos individuos podrían crear algoritmos que reflejen sesgos cognitivos no deseados o prejuicios de la vida real. O las personas podrían introducir sesgos porque utilizan conjuntos de datos incompletos, defectuosos o perjudiciales para entrenar y / o validar los sistemas de aprendizaje automático.
Los tipos de sesgo cognitivo que pueden afectar inadvertidamente a los algoritmos son los estereotipos, el efecto de vagón, el cebado, la percepción selectiva y el sesgo de confirmación.
Aunque estos sesgos a menudo no son intencionales, las consecuencias de su presencia en los sistemas de aprendizaje automático pueden ser significativas. Dependiendo de cómo se usen los sistemas de aprendizaje automático, tales sesgos podrían resultar en experiencias de servicio al cliente más bajas, ventas e ingresos reducidos, acciones injustas o posiblemente ilegales y condiciones potencialmente peligrosas.
Para evitar tales escenarios, las organizaciones deben verificar los datos que se utilizan para entrenar modelos de aprendizaje automático por falta de exhaustividad y sesgo cognitivo. Los datos deben ser representativos de diferentes razas, géneros, antecedentes y culturas que podrían verse afectados negativamente. Los científicos de datos que desarrollan los algoritmos deben dar forma a las muestras de datos de una manera que minimice el sesgo algorítmico y de otro tipo de aprendizaje automático, y los responsables de la toma de decisiones deben evaluar cuándo es apropiado o inapropiado aplicar la tecnología de aprendizaje automático.
Tipos de sesgo de aprendizaje automático
Hay varias formas de incorporar el sesgo a un sistema de aprendizaje automático. Los escenarios comunes o tipos de sesgo incluyen los siguientes:
- Sesgo de algoritmo. Esto ocurre cuando hay un problema dentro del algoritmo que realiza los cálculos que impulsan los cálculos de aprendizaje automático.
- Sesgo de la muestra. Esto sucede cuando hay un problema con los datos utilizados para entrenar el modelo de aprendizaje automático. En este tipo de sesgo, los datos utilizados no son lo suficientemente grandes o representativos para enseñar al sistema. Por ejemplo, el uso de datos de capacitación que incluyan solo a maestras capacitará al sistema para concluir que todas las maestras son mujeres.
- Sesgo de prejuicio. En este caso, los datos utilizados para entrenar el sistema reflejan prejuicios, estereotipos y / o supuestos sociales defectuosos existentes, lo que introduce esos mismos sesgos del mundo real en el aprendizaje automático en sí. Por ejemplo, el uso de datos sobre profesionales médicos que incluyan solo enfermeras y médicos masculinos perpetuaría un estereotipo de género del mundo real sobre los trabajadores de la salud en el sistema informático.
- Sesgo de medición. Como sugiere el nombre, este sesgo surge debido a problemas subyacentes con la precisión de los datos y cómo se midieron o evaluaron. El uso de imágenes de trabajadores felices para capacitar a un sistema destinado a evaluar un entorno laboral podría estar sesgado si los trabajadores de las imágenes supieran que se les está midiendo la felicidad; un sistema que se está entrenando para evaluar con precisión el peso estará sesgado si los pesos contenidos en los datos de entrenamiento se redondearon constantemente.
- Sesgo de exclusión. Esto sucede cuando un punto de datos importante se deja fuera de los datos que se están utilizando, algo que puede suceder si los modeladores no reconocen el punto de datos como consecuente.
Sesgo frente a varianza
Los científicos de datos y otras personas involucradas en la construcción, capacitación y uso de modelos de aprendizaje automático deben considerar no solo el sesgo, sino también la variación cuando se busca crear sistemas que puedan ofrecer resultados consistentemente precisos.
Al igual que el sesgo, la varianza es un error que se produce cuando el aprendizaje automático genera suposiciones incorrectas en función de los datos de entrenamiento. A diferencia del sesgo, la varianza es una reacción a fluctuaciones reales y legítimas en los conjuntos de datos. Sin embargo, estas fluctuaciones, o ruido, no deberían tener un impacto en el modelo previsto, sin embargo, el sistema está utilizando ese ruido para modelar. En otras palabras, la varianza es una sensibilidad problemática a pequeñas fluctuaciones en el conjunto de entrenamiento que, como el sesgo, pueden producir resultados inexactos.
Aunque el sesgo y la varianza son diferentes, están interrelacionados en el sentido de que un nivel de varianza puede ayudar a reducir el sesgo. Si la población de datos tiene suficiente variedad, la varianza debería ahogar los sesgos.
Como tal, el objetivo en el aprendizaje automático es tener una compensación o equilibrio entre los dos para desarrollar un sistema que produzca una cantidad mínima de errores.
Cómo prevenir el sesgo
La conciencia y la buena gobernanza pueden ayudar a prevenir el sesgo del aprendizaje automático; Una organización que reconoce el potencial de sesgo puede implementar e instituir las mejores prácticas para combatirlo, que incluyen los siguientes pasos:
- Seleccione datos de entrenamiento que sean adecuadamente representativos y lo suficientemente grandes como para contrarrestar los tipos comunes de sesgo de aprendizaje automático, como el sesgo de la muestra y el sesgo de prejuicio.
- Pruebe y valide para asegurarse de que los resultados de los sistemas de aprendizaje automático no reflejen el sesgo debido a los algoritmos o los conjuntos de datos.
- Supervise los sistemas de aprendizaje automático mientras realizan sus tareas para asegurarse de que los sesgos no se introduzcan con el tiempo a medida que los sistemas continúan aprendiendo mientras funcionan.
- Utilice recursos adicionales, como la herramienta Y si … de Google o el kit de herramientas de código abierto AI Fairness 360 de IBM, para examinar e inspeccionar modelos.
Historia del sesgo de aprendizaje automático
El sesgo de aprendizaje automático ha sido un riesgo conocido durante décadas, pero sigue siendo un problema complejo que ha sido difícil de contrarrestar.
De hecho, el sesgo del aprendizaje automático ya se ha visto implicado en casos del mundo real, y algunos sesgos tienen consecuencias significativas e incluso que alteran la vida.
COMPAS es un ejemplo de ello. COMPAS, abreviatura de Perfiles de gestión de delincuentes correccionales para sanciones alternativas, utilizó el aprendizaje automático para predecir el potencial de reincidencia entre los acusados de delitos. Múltiples estados habían implementado el software a principios del siglo XXI antes de que su prejuicio contra las personas de color fuera expuesto y posteriormente publicitado en artículos de noticias.
Amazon, una potencia de contratación cuyas políticas de contratación moldean las de otras empresas, en 2018, eliminó su algoritmo de contratación después de descubrir que estaba identificando patrones de palabras, en lugar de conjuntos de habilidades relevantes, penalizando inadvertidamente los currículums que contienen ciertas palabras, incluyendo De las mujeres – un sesgo favoreció a los candidatos masculinos sobre las candidatas al descontar los currículums de las mujeres.
Mientras tanto, ese mismo año, investigadores académicos anunciaron hallazgos de que los sistemas comerciales de inteligencia artificial de reconocimiento facial contenían sesgos de género y tipo de piel.