Beatriz Redondo Tejedor

// Head of Content

Cada día se generan más datos. Almacenamos más información de cada persona, e incluso estamos empezando a almacenar también más información de dispositivos. El Internet de las Cosas no es algo imaginario y muy pronto hasta tu cafetera rastreará tus hábitos a la hora de tomar café y los guardará en la nube, para luego ofrecerte recomendaciones y mensajes personalizados. El término Big Data apareció por primera vez en los años sesenta, pero ahora está cobrando una nueva importancia.

¿Qué es el Big Data?

¿Sabías que el motor de un avión es capaz de generar más de 10 terabytes de datos en solo 30 minutos de vuelo? ¿Y cuántos vuelos hay en un día? Esto da varios petabytes de información a diario. La Bolsa de Nueva York genera cada día alrededor de un terabyte de datos sobre nuevas operaciones. Las cargas de fotos y vídeos, los mensajes y los comentarios en Facebook crean más de 500 terabytes de datos nuevos diariamente. Todo eso hace un montón de datos, ¿verdad? Pues eso es lo que llamamos Big Data.

El Big Data se está convirtiendo en algo ya indisociable de nuestras vidas. Todo el mundo utiliza algún tipo de tecnología o se pone en contacto con productos y grandes empresas. Esas grandes empresas nos ofrecen sus datos y a la vez utilizan los datos que les ofrecemos. Los analizan constantemente para conseguir que su producción sea más eficaz y desarrollar nuevos productos.

big-data-definition
Source: Hitec Dubai

 

Para entender bien el Big Data, resulta de gran ayuda conocer un poco su historia. Por definición, el Big Data son datos de gran variedad, que llegan en volúmenes cada vez mayores y, además, a una velocidad cada vez mayor. Por eso, cuando hablamos de Big Data, siempre hablamos de las grandes V del Big Data. Y ahora hay más de tres, porque el concepto de Big Data ha evolucionado.

Hoy en día, el almacenamiento de datos es más barato que hace unos años, así que resulta más rápido y barato almacenar más datos. ¿Pero para qué queremos tantos datos? En realidad, los datos sirven para lo que sea: ofrecerlos a otros clientes, usarlos para crear nuevos productos y funcionalidades, tomar decisiones comerciales y muchas cosas más.

El nombre de Big Data no es nuevo, pero el concepto de manejar una gran cantidad de datos está cambiando. Lo que hasta hace poco llamábamos «Big Data» eran muchos menos datos de lo que son ahora. En realidad, todo empezó en los años 60, cuando empezaron a abrirse los primeros almacenes de datos.

Cuarenta años después, las empresas vieron cómo podían recopilarse conjuntos de datos a través de servicios en línea, sitios web, aplicaciones y cualquier producto con el que interactúan los clientes. Así es como empezaron a popularizarse los primeros servicios de Big Data (Hadoop, NoSQL, etc.). Era imprescindible tener esas herramientas, porque simplifican el análisis de los Big Data y lo abaratan.

El Internet de las cosas ya no es solo un sueño. Ahora hay más dispositivos conectados a Internet, recopilando datos sobre patrones de uso de los clientes y eficacia de los productos. De repente alguien pensó: «¿Por qué no lo usamos para que las máquinas aprendan por sí solas?» Así es como nació el aprendizaje automático, o machine learning, y también se empezaron a generar datos con él.

internet_of_things_iot
Source: FreeCodeCamp

 

¿Puedes hacerte una idea de cuántos datos significa eso? Y, además, ¿puedes imaginarte cuántos usos puedes darles a todos estos datos? Todos estos datos pueden ayudarte a tomar decisiones porque tienes toda la información que puedas necesitar. Puedes resolver cualquier problema o dificultad muy fácilmente.

Dicho de otro modo, el Big Data son unos conjuntos de datos más grandes y complejos, que se reciben sobre todo de nuevas fuentes de datos. Esos conjuntos de datos son tan grandes que a los programas de software tradicionales que se usaban para procesar los datos no les resultaba fácil gestionarlos, así que se crearon nuevas herramientas y nuevos programas de software.

Herramientas de Big Data

Como el Big Data es algo que no deja de crecer, las herramientas que se usan para gestionarlo evolucionan con él y se perfeccionan permanentemente. Se emplean herramientas como Hadoop, Pig, Hive, Cassandra, Spark, Kafka, etc., dependiendo de los requisitos de cada organización. Hay muchísimas soluciones, y buena parte de ellas son de código abierto. También hay una fundación —Apache Software Foundation (ASF)— que apoya muchos de estos proyectos sobre Big Data.

Como esas herramientas son muy importantes para el Big Data, vamos a explicar un poco en qué consisten. Quizá una de las más afianzadas para analizar Big Data sea Apache Hadoop, un marco de trabajo de código abierto para almacenar y procesar grandes conjuntos de datos.

big-data-tools
Source: TechTiding

 

Otro que cada vez está recibiendo más atención es Apache Spark. Una de las ventajas de Spark es que puede almacenar gran parte de los datos de procesamiento en la memoria y en el disco, así que puede ser mucho más rápido. Spark puede funcionar con el sistema de archivos distribuidos de Hadoop (HDFS), Apache Cassandra, u OpenStack Swift y muchas otras soluciones de almacenamiento de datos. Pero una de sus mejores funciones es que Spark puede funcionar en una sola máquina local y eso facilita enormemente el trabajo.

Otra solución es Apache Kafka, que permite a los usuarios publicar y suscribirse a fuentes de datos en tiempo real. La principal tarea de Kafka es trasladar la fiabilidad de otros sistemas de mensajería a los datos en streaming.

Estas son otras grandes herramientas de Big Data:

  • Apache Lucene puede usarse para cualquier motor de recomendación porque utiliza bibliotecas de software de indexación y búsqueda de textos completos.
  • Apache Zeppelin es un nuevo proyecto que permite el análisis de datos interactivos con SQL y otros lenguajes de programación.
  • Elasticsearch es más bien un motor de búsqueda empresarial. Lo mejor de esta solución es que puede aportar conocimientos a partir de datos estructurados y no estructurados.
  • TensorFlow es una biblioteca de software en auge porque se utiliza para el aprendizaje automático.

 
El Big Data seguirá creciendo y cambiando y, por lo tanto, las herramientas también. Y quizá dentro de unos años las construcciones que usemos sean totalmente distintas. Pero, tal como hemos dicho, algunas de las herramientas funcionan con datos estructurados o no estructurados. Veamos qué significa eso.

Tipos de Big Data

Entre los Big Data hay tres tipos de datos: estructurados, semiestructurados y no estructurados. En cada uno de estos tipos hay mucha información útil que puedes extraer para usarla en distintos proyectos.

big-data-types
Source: E-skillsbusinesstoolbox

 

  • Los datos estructurados tienen un formato fijo y a menudo son numéricos. Así que en muchos casos los gestionan máquinas y no humanos. Este tipo de datos es información que ya está ordenada en bases de datos y hojas de cálculo almacenadas en bases de datos SQL, lagos de datos y almacenes de datos.
  • Los datos no estructurados son información que está desorganizada y no está en un formato predeterminado porque puede ser casi cualquier cosa. Es el caso, por ejemplo, de los datos recopilados de fuentes de redes sociales y puede convertirse en archivos de documentos de texto almacenados en Hadoop, como clústeres o sistemas NoSQL.
  • Los datos semiestructurados pueden contener ambas formas de datos, como registros de servidores web o datos de sensores que haya configurado. Para ser precisos, son datos que, a pesar de no estar clasificados en un repositorio concreto (una base de datos), contienen información vital o etiquetas que segregan elementos individuales dentro de los datos.

 
El Big Data incluye siempre múltiples fuentes y la mayor parte del tiempo es de distintos tipos también. Así que no siempre es fácil saber cómo integrar todas las herramientas que necesitas para trabajar con distintos tipos de datos.

¿Cómo funciona el Big Data?

La idea principal que subyace al Big Data es que cuanto más sabes sobre algo, mejor lo entiendes y te ayuda a tomar una decisión o buscar una solución. En muchos casos, este proceso está totalmente automatizado; contamos con unas herramientas tan avanzadas que crean millones de simulaciones para dar el mejor resultado posible. Pero para conseguirlo con la ayuda de las herramientas analíticas, el aprendizaje automático o incluso la inteligencia artificial, hay que saber cómo funciona el Big Data y configurarlo todo correctamente.

big-data-analytics-paving-path-businesses-decision
Source: Datafloq

 

La necesidad de gestionar tantos datos requiere una infraestructura estable y bien estructurada. Habrá que procesar rápidamente ingentes volúmenes y distintos tipos de datos y esto puede sobrecargar un único servidor o clúster. Por eso tendrás que contar con un sistema bien pensado para gestionar el Big Data.

Según la capacidad del sistema, se deberán tener en cuenta todos los procesos. Y en el caso de las grandes empresas, pueden hacer falta cientos o miles de servidores. Como te imaginarás, esto puede empezar a salir caro. Y cuando añades todas las herramientas que vas a necesitar, todavía se encarece más. Así que tienes que saber cómo funciona el Big Data y las tres acciones principales que se necesitan para poder prever el presupuesto de antemano, y crear el mejor sistema posible.

Integración

El Big Data siempre se recopila de muchas fuentes y, como hablamos de volúmenes enormes de información, hace falta descubrir nuevas estrategias y tecnologías para gestionarlo todo. En algunos casos, llegan a nuestro sistema petabytes de información, así que integrar toda esta información en tu sistema es todo un reto. Tendrás que recibir los datos, procesarlos y formatearlos de la manera adecuada para tu empresa y de tal forma que tus clientes puedan entenderlos.

Gestión

¿Qué más puedes necesitar para semejante volumen de información? Necesitarás un lugar donde almacenarla. Esta solución de almacenamiento puedes encontrarla en la nube, en tus instalaciones o ambas. También puedes elegir de qué forma almacenar tus datos, para tenerlos a tu disposición en tiempo real y cuando los pidas. Por eso cada vez más gente elige una solución en la nube para almacenar los datos, porque es compatible con su actual infraestructura informática.

Análisis

Vale, has recibido los datos y los has almacenado, pero tienes que analizarlos para poder usarlos. Explora tus datos y utilízalos para tomar decisiones importantes, como saber qué características son las que más buscan tus clientes o utilizarlos para compartir búsquedas. Haz lo que quieras o necesites con ellos, pero sácales provecho, porque has hecho una gran inversión para instalar esta infraestructura, así que tienes que usarla.

Como ya hemos dicho al hablar de Big Data, siempre hablamos de las grandes V del Big Data. Cuando apareció el Big Data, solo había 3 V, pero ahora son más. Y se les suman otras constantemente según para qué necesites el Big Data. En la próxima sección de este artículo, vamos a ver algunas de las V.

Las grandes V del Big Data

Big-Data-Illustration

Volumen

Como su propio nombre indica, cuando hablamos de Big Data nos referimos a grandes volúmenes de datos. Así que la cantidad de datos que recibas importa. Pueden ser datos de valor desconocido, como los datos sobre el número de clics en un sitio web o una aplicación móvil. Para algunas empresas pueden ser decenas de terabytes de datos, mientras que para otras pueden ser cientos de petabytes. O es posible que sepas exactamente la fuente y el valor de los datos que recibes, pero aun así vas a recibir grandes volúmenes a diario.

Velocidad

La velocidad es la gran V que representa lo rápido que se reciben y tratan los datos. Si los datos se transfieren directamente a la memoria y no se escriben en un disco, la velocidad será mayor y, como consecuencia, operarás mucho más deprisa y los datos se proporcionarán prácticamente en tiempo real. Pero para esto también hace falta una forma de evaluar los datos en tiempo real. La velocidad es también la gran V más importante en ámbitos como el aprendizaje automático y la inteligencia artificial.

Variedad

La variedad se refiere a los tipos de datos que están disponibles. Cuando trabajas con tantos datos, debes saber que muchos de ellos son no estructurados y semiestructurados (texto, audio, vídeo, etc.). Habrá que procesar aún más los metadatos para que todos puedan entenderlos.

Veracidad

La veracidad se refiere a lo exactos que son los datos del conjunto de datos. Puedes recopilar muchos datos de redes sociales o sitios web, pero ¿cómo puedes asegurarte de que los datos son exactos y correctos? Si usas datos de mala calidad sin comprobarlos, puedes tener problemas. Los datos inciertos pueden dar lugar a análisis imprecisos y llevarte a tomar decisiones equivocadas. Así que siempre debes comprobar los datos y cerciorarte de disponer de suficientes datos precisos para obtener resultados válidos y relevantes.

Valor

Como decimos, no todos los datos citados tienen valor y pueden utilizarse para tomar decisiones comerciales. Es importante conocer el valor de los datos que tienes a tu disposición. Tendrás que establecer una forma de limpiar los datos y confirmar que son relevantes para el propósito que tienes en mente.

Variabilidad

Cuando tienes muchos datos, en realidad puedes utilizarlos con muy distintos fines y formatearlos de distintas maneras. No es fácil recoger tantos datos, analizarlos y gestionarlos de la manera más adecuada, así que lo normal es usarlos varias veces. Eso es lo que significa la variabilidad: la opción de utilizar los datos con distintos fines.

Ya sabemos muchas cosas sobre el Big Data: qué es, los tipos de datos que existen y las grandes V. Pero todo esto no serviría de gran cosa si no sabemos qué se puede hacer con el Big Data y por qué es cada vez más importante.

¿Por qué es tan importante el Big Data?

El Big Data tiene un potencial enorme. Puedes usar la valiosa información que proporcionan estos datos para tomar decisiones de marketing sobre tu producto y tu marca. Las marcas que usan Big Data son capaces de tomar decisiones comerciales más rápido y con mejor criterio. Si usas toda la información que tienes sobre tus clientes, puedes hacer que el producto esté más centrado en el cliente y crear los contenidos que él quiere o personalizar sus itinerarios. Es más fácil tomar decisiones cuando tienes toda la información que necesitas, ¿verdad?

Por poner un ejemplo, ya sabemos lo útil que es el Big Data en la investigación médica, cuando se usa para identificar el riesgo de contraer determinadas enfermedades, según el historial médico del paciente o la forma de tratar algunas enfermedades. Este es solo un ejemplo del uso del Big Data, pero es uno de los más importantes.

big-data-usages

Los sistemas de citas por Internet pueden ser un 90 % más precisos una vez que las máquinas aprenden cómo unir perfectamente a las parejas basándose en toda la información que tienen sobre dos personas. Los fallos o errores informáticos pueden minimizarse porque sabrás en qué condiciones pueden producirse. Un coche que conduzca solo puede ser más seguro que cualquier otro coche conducido por una persona porque no comete errores humanos. Analiza la información del Big Data en tiempo real y sabe cuál es la mejor ruta para llegar a tu destino a tiempo.

Basándose en toda la información que tienen sobre sus clientes, ahora las empresas pueden predecir con exactitud qué segmentos de sus clientes querrán comprar sus productos y en qué momento, y así sabrán cuál es el mejor momento para lanzarlos. El Big Data ayuda además a las empresas a desarrollar su actividad de una forma mucho más eficaz.

El Big Data es importante para el progreso de nuestra tecnología y puede facilitarnos la vida si lo utilizamos con acierto y de forma positiva. El potencial del Big Data es ilimitado, pero vamos a ver algunos casos prácticos de uso.

Usos del Big Data

El análisis del Big Data pueden hacerlo personas y máquinas, según las necesidades de cada uno. Usando distintos métodos analíticos, puedes combinar distintos tipos de datos y fuentes para descubrir cosas y tomar decisiones relevantes. Así podrás lanzar tus productos más rápido y dirigirlos al público adecuado. Vamos a ver algunos de los usos más habituales del Big Data.

Desarrollo de productos

Cuando el grueso de tu actividad se centra en el producto, el Big Data es más que imprescindible. Vamos a tomar un ejemplo que casi todo el mundo conoce: Netflix. ¿Cómo crees que hace Netflix para enviarte un mensaje con recomendaciones especialmente elegidas para ti cada semana? Con la ayuda del análisis de Big Data, claro. Utilizan modelos predictivos y te informan de las novedades que quizás te gusten clasificando los datos del pasado y los programas que has visto o marcado como favoritos. Hay empresas que utilizan otros recursos, como información de redes sociales, información de ventas de las tiendas, grupos focales, encuestas, tests y mucho más para saber cómo hacer para lanzar un nuevo producto o dirigirlo a las personas a las que está destinado.

Análisis comparativo

Cuando sabes cómo se comportan tus clientes y puedes observarlos en tiempo real, puedes comparar sus patrones con los itinerarios que han seguido otros productos parecidos y saber en qué sentido eres más fuerte que tus competidores.

big-data-use-cases
Source: B.telligent

 

Experiencia del cliente

El mercado es tan grande que es difícil que un producto consiga destacar como único. Así que para poder distinguirte debes esforzarte en personalizar la experiencia de tus clientes. El Big Data te permite recopilar datos de redes sociales, visitas en Internet, registros de llamadas y otras fuentes para mejorar la experiencia de las interacciones o maximizar el valor que ofreces.

Aprendizaje automático

El aprendizaje automático ahora está muy de moda y todo el mundo quiere saber más. Ahora podemos crear máquinas que aprenden por sí solas y la capacidad para hacerlo viene del Big Data y de los modelos aprendizaje automático que se han desarrollo gracias a él.

Escalabilidad y predicción de fallos

Es importante saber en cualquier momento cuánta infraestructura debes movilizar o tener la posibilidad de predecir fallos mecánicos. No será fácil analizar todos los datos primero porque te encontrarás con cantidades ingentes de datos estructurados (periodos de tiempo, equipos) y no estructurados (entradas de registros, mensajes de error, etc.). Pero teniendo en cuenta todas estas indicaciones, puedes detectar posibles escollos antes de que surjan problemas o escalar el uso de tus recursos. Con el Big Data puedes analizar las opiniones de tus clientes y predecir la demanda futura, y de este modo sabrás cuándo necesitas tener más recursos disponibles.

Fraude y conformidad

Hacking… todos lo odiamos, pero cada vez es más frecuente. Uno trata de hacerse pasar por tu marca, otro intenta vender tus datos y los datos de tus clientes… Los hackers son cada día más creativos. Pero sucede lo mismo con los requisitos de seguridad y conformidad: cambian constantemente. El Big Data puede ayudarte a identificar patrones de datos que son indicios de fraude y sabrás cuándo y cómo reaccionar ante ellos.

Tus analistas de datos pueden encontrar muchos usos para tus datos y averiguar cómo conectar los distintos tipos de datos que tienes. Puedes usar estos datos para publicar investigaciones oficiales y dar más notoriedad a tu marca.

¿Hacia dónde irá el Big Data en el futuro?

El Big Data ya está cambiando las reglas de juego en muchos aspectos, y sin duda seguirá creciendo. ¡Imagínate lo mucho que puede cambiarnos la vida todo esto en el futuro! Una vez que todo lo que tenemos a nuestro alrededor empiece a usar Internet (el Internet de las Cosas), las posibilidades de usar el Big Data serán tremendas. La cantidad de datos que tenemos a nuestra disposición no hará más que aumentar, y la tecnología analítica avanzará todavía más. El Big Data es una de esas cosas que conformará el futuro de la humanidad.

Big-data-future

Todas las herramientas que usamos para el Big Data también evolucionarán. Las infraestructuras deberán adaptarse a nuevos requisitos. Quizá en el futuro seamos capaces de almacenar todos los datos que necesitamos en una sola máquina y es posible que tenga espacio de sobra. De ser así, resultaría más barato y sencillo trabajar con todo esto. En Mailjet, nos interesa el Big Data y sin duda vamos a estar pendientes de cómo evoluciona.

Si quieres saber mejor cómo usamos el Big Data y las herramientas que utilizamos, síguenos en Twitter y Facebook para ver en primicia nuestro siguiente artículo sobre el tema.