Los pods de Cloud TPU v2 y los pods de Cloud TPU v3 de Google, supercomputadoras ejecutadas en la nube diseñadas para acelerar drásticamente el tiempo necesario para entrenar e implementar modelos de aprendizaje automático, ahora están disponibles públicamente en versión beta.
Anteriormente, los dos productos, cada uno compuesto por varios dispositivos de unidad de procesamiento de tensor, hardware de Google diseñado específicamente para el aprendizaje automático, estaban disponibles solo en un alfa privado. Un pod de Cloud TPU es mucho más grande y más potente que un solo dispositivo de Cloud TPU.
En comparación, cada dispositivo contiene cuatro chips de TPU y ocho núcleos. El pod de Cloud TPU v2 consta de 64 dispositivos de TPU, lo que hace un total de 256 chips de TPU, con 512 núcleos, conectados entre sí.
Google presentó los nuevos productos en una publicación de blog del 7 de mayo coincidiendo con el primer día de la conferencia Google I / O 2019, que se llevó a cabo en Mountain View, California.
Primero de los gigantes tecnológicos
Si bien Amazon y Facebook han estado trabajando en sus propios chips de inteligencia artificial, aunque más centrados en la inferencia, Google es el primero de los gigantes tecnológicos en poner un procesador de este tipo a disposición del público, dijo Peter Rutten, director de investigación de IDC.
Muchas nuevas empresas también están trabajando en chips centrados en la inteligencia artificial, dijo Rutten, pero pocas han salido al mercado todavía.
«Aparte de lo que están planeando los otros proveedores, los pods de TPU de Google parecen ser extremadamente poderosos», dijo Rutten.
Peter RuttenIDC
En general, los beneficios de los circuitos integrados de aplicaciones específicas (ASIC), como las TPU de Google, son su velocidad, bajo consumo de energía y bajo costo unitario, explicó Rutten. Sin embargo, los ASIC son fijos y no se pueden ajustar a medida que cambian los algoritmos de IA.
«Sin embargo, si Google sigue entregando nuevas versiones a la velocidad a la que lo han hecho hasta ahora, puede que eso no sea un problema», dijo Rutten. «En pocas palabras: los científicos de datos están obteniendo mucho rendimiento para el entrenamiento de modelos de IA con esta oferta».
Las TPU de Google Cloud representan una forma más rápida y rentable de manejar grandes cargas de trabajo de aprendizaje automático, dijo Pete Voss, portavoz de Google para la inteligencia artificial en la nube y el aprendizaje automático, en una entrevista telefónica.
«Los desarrolladores pueden iterar en minutos y entrenar grandes modelos de producción en horas en lugar de días», dijo Voss.
Una variedad de clientes, incluidos eBay, Recursion Pharmaceuticals, Lyft y Two Sigma, usan productos de Cloud TPU, dijo Voss.
En un estudio de caso reciente, Recursion Pharmaceuticals redujo drásticamente su tiempo de entrenamiento para un modelo que prueba iterativamente la viabilidad de moléculas sintetizadas para tratar enfermedades raras, dijo Voss. La empresa tardó más de 24 horas en entrenar el modelo en un clúster local y 15 minutos en entrenarlo en un pod de Cloud TPU, dijo.
El precio del poder del aprendizaje automático
Tanto los pods de Cloud TPU v2 como v3 realizan principalmente las mismas funciones, proporcionando a los usuarios rutas más cortas hacia la información, mayor precisión en el entrenamiento del modelo y la capacidad de realizar un reentrenamiento frecuente del modelo, según Google. Cloud TPU v3, la opción de servicio más cara, presenta hardware actualizado y proporciona resultados más rápidos.
Por sí solos, los dispositivos Cloud TPU v2 y v3 tienen un precio de un solo dígito por hora. El pod de Cloud TPU v2, mientras tanto, oscila entre $ 24 por hora para alquilar un segmento de pod de 16 chips de TPU hasta un poco menos de $ 400 por hora para alquilar el pod completo, con dos opciones intermedias.
El pod de Cloud TPU v3 tiene un precio de 32 dólares la hora por un segmento de pod de 16 chips de TPU. Los usuarios también pueden pagar para alquilar cualquiera de las opciones de segmento de cápsulas por año o por tres años, por cientos de miles de dólares.
Rutten dijo que el mercado de servidores acelerados, aunque actualmente está dominado por GPU, comenzará a ver más y más ASIC de IA con el tiempo.
Sin embargo, dijo, las GPU no deberían eliminarse ni descartarse.
«Hay muchos beneficios con las GPU: su flexibilidad, capacidad de programación y, sobre todo, la pila de software (piense en CUDA) y el ecosistema que las rodea», dijo. «Por lo tanto, no solo mire los resultados de la evaluación comparativa cuando compare procesadores de IA».