Para muchas empresas, la recopilación de datos es la parte fácil de la ecuación de big data. Comprender cómo procesar grandes cantidades de datos en decisiones comerciales significativas es donde pueden surgir problemas.
En los entornos tradicionales de big data, los desarrolladores y los científicos de datos crean los algoritmos necesarios para tomar decisiones. Para big data a menor escala, una máquina puede aprender comportamientos de manera efectiva a partir de datos históricos recopilados y compararlos con las actividades actuales para tomar decisiones preventivas o proactivas informadas. En general, un servicio de aprendizaje automático funciona a través de una serie de procesos que involucran modelado y comparación.
Primero, se crea un algoritmo matemático para modelar el comportamiento de una condición buena conocida (o mala conocida). Luego, se recopilan nuevos datos a lo largo del tiempo y se comparan con ese modelo, lo que permite tomar decisiones informadas sobre los nuevos datos.
Un servicio de aprendizaje automático puede abordar tres tipos diferentes de tareas:
1. Un modelo de clasificación binaria puede predecir uno de dos posibles resultados, como una respuesta de sí o no.
2. Un modelo de clasificación de clases múltiples puede predecir múltiples condiciones. La clasificación de clases múltiples, por ejemplo, podría detectar los comportamientos de compra en la Web de un cliente.
3. Un modelo de regresión produce un valor o número real. Los modelos de regresión pueden predecir el mejor precio de venta de un producto o la cantidad de unidades que se venderán.
El servicio de aprendizaje automático de Amazon Web Services (AWS) proporciona potentes capacidades predictivas basadas en los datos recopilados. Puede detectar transacciones fraudulentas, predecir comportamientos o preferencias de los clientes, analizar documentos no estructurados en busca de contexto o detectar fallas inminentes en los equipos del centro de datos.
AWS Machine Learning ofrece herramientas, API y kits de desarrollo de software (SDK) diseñados para simplificar el desarrollo de aplicaciones predictivas. También permite a los clientes crear modelos matemáticos basados en datos históricos que pueden detectar patrones o desviaciones en conjuntos de datos complejos. Los datos se almacenan en bases de datos de Amazon Simple Storage Service (S3), Amazon Redshift o MySQL en Amazon Relational Database Service (RDS).