Ciencia y Tecnología

Un nuevo software de analítica de datos busca desplazar a Hadoop

2015-07-02

Al igual que Hadoop, Spark es empleado para analizar enormes cantidades de datos, pero es mucho...

Robert McMillan y Elizabeth Dwoskin, The Wall Street Journal

Inversionistas de Silicon Valley han destinado US$2,000 millones a compañías basadas en el software de recopilación de datos Hadoop. No obstante, un programa de analítica de datos más reciente quiere desplazar a Hadoop. El software, conocido como Spark, ha atraído la atención de startups y empresas establecidas por igual.

International Business Machines Corp. (IBM) señaló que espera gastar US$300 millones durante los próximos años para asignar 3,500 programadores en proyectos de analítica de datos, comercialización y aprendizaje automático relacionados con Spark. Andreessen Horowitz y New Enterprise Associates, dos firmas de capital de riesgo de Silicon Valley, han invertido US$47 millones en Databricks Inc., una startup que ofrece un servicio en línea construido sobre dicho software.

Spark ayuda a Pinterest Inc., sitio para compartir contenido visual, a mostrar imágenes relevantes y a AirBnB Inc. a ofrecer habitaciones en alquiler. Startups basadas en Hadoop, incluidas empresas de software de analítica de datos Hortonworks Inc. y Cloudera Inc., lo han incorporado a sus líneas de productos. Es parte de una creciente colección de software gratuito que le está robando tajadas a un negocio que ha sido por mucho tiempo dominado por Oracle Corp. , Teradata Corp. y otros tradicionales competidores de bases y almacenamiento de datos.

"Cualquiera que vaya a usar datos en el futuro va a hacer uso de Spark", afirma Rob Thomas, vicepresidente de desarrollo de productos de la división de analítica de IBM.

Al igual que Hadoop, Spark es empleado para analizar enormes cantidades de datos, pero es mucho más rápido que MapReduce, un componente central de Hadoop. Esto lo hace idóneo para analizar datos tan pronto como se generan en lugar de tener que esperar a que se acumulen para procesarlos luego en conjunto.

Tecnólogos como Thomas no creen que Spark reemplazará Hadoop, un cajón de herramientas para analítica de datos que a menudo se usa junto con Spark, pero sí esperan que acelere drásticamente la extracción de información interesante del flujo de datos generado por feeds de Twitter, monitores de estado físico, subastas de publicidad en línea, sensores meteorológicos, turbinas eléctricas y otros sistemas industriales y de consumo.

"Que Spark reemplace MapReduce es como que un auto reemplace una bicicleta", dice Christopher Nguyen, presidente ejecutivo de Adatao Inc., que ofrece una plataforma de software para la toma de decisiones basadas en datos, que incluye ambos programas. En otras palabras, cada uno tiene sus usos, pero uno es muchas veces más rápido que el otro en muchas situaciones.

Al igual que Hadoop, Spark está disponible de forma gratuita bajo una licencia de código abierto, lo que constituye un reto para las empresas que quieren comercializarlo. Databricks ofrece un servicio basado en la web que permite a las empresas aprovechar el poder de procesamiento de números de Spark sin tener que instalarlo o mantenerlo en sus propias instalaciones. La compañía se ha propuesto intentar aprovechar la pericia en ingeniería de Spark con la esperanza de transformarlo en una opción natural para la creciente base de usuarios del programa, una estrategia común para las empresas basadas en software de código abierto.

Otras startups que utilizan Spark incluyen Qubole Inc., fundada por ex miembros del equipo de datos de Facebook Inc., y ClearStory Data Inc. Qubole y ClearStory Data proporcionan software y servicios de analítica de datos.

A pesar de que promete entregar información relevante de la analítica de datos con mayor rapidez, Spark amenaza con complicar un paisaje ya espinoso, dice Stefan Groschupf, presidente ejecutivo de Datameer Inc., que fabrica software basado en Hadoop. El código escrito para trabajar con MapReduce podría no funcionar con Spark, que según Groschupf no es aún lo suficientemente confiable como para un uso corporativo y que algún día podría ser reemplazado por otro software emergente. La complejidad, afirma, confundirá a los gerentes de empresas.

"Hay diferentes proveedores que están perjudicando el mercado en general, tratando de convencer a la gente de quedarse exclusivamente con sus productos", dice.

Spark es una idea original de Matei Zaharia, quien lo concibió para superar las limitaciones de Hadoop en 2010, cuando era un estudiante de doctorado en la Universidad de California en Berkeley. Scott Shenker, asesor de Zaharia, informó a principios de 2013 al capitalista de riesgo Ben Horowitz acerca del software. Zaharia, dijo Shenker, era el mejor investigador de sistemas informáticos que había egresado de Berkeley en una década.

La última vez que Shenker le había dado una primicia a Horowitz, el resultado fue Nicira Networks, una empresa fundada entre otros por el visionario de las redes virtuales Martín Casado. Nicira Networks se vendió en 2012 por US$1.260 millones.

"Él me dijo: Este tipo es el Martín Casado de big data", recordó Horowitz.

La recomendación de Spark llevó a Horowitz y sus colegas a formar Databricks.

Aunque Spark hace algunos trabajos de programación mucho más rápido y más fácilmente de lo que solía hacer, tomará algún tiempo antes de que la mayor parte de los clientes de bases de datos de Oracle se convenzan de que es lo que necesitan para manejar sus negocios, señala Nick Heudecker, analista de la firma de investigación Gartner Inc. "Hadoop no fue la primera plataforma de datos", dice. "Spark no será la última."



ROW