Big Data: igual no es para tanto

“Creo que es justo empezar dejando clara mi posición: no me gusta el Big Data. Entiendo el indudable valor que aporta para temas de movilidad, urbanismo, seguridad ciudadana o gestión de catástrofes. De hecho esto es una evidencia. Pero cuando me hablan de conceptos como “conocimiento del consumidor”, “predicción del comportamiento de compra” o “detección de patrones de consumo”… tengo mis dudas acerca de su verdadero valor”.

No voy a entrar en cuestiones éticas acerca de la forma en cómo se consiguen, procesan, y comercializan nuestros datos. Tampoco en los fines verdaderos con los que muchas veces se utilizan. Eso es algo que excede este artículo y que dejo para otros foros.

Tampoco entraré a fondo, aunque sí quiero mencionar, los inmensos intereses comerciales que hay alrededor de este mundo. Intereses que inflan esta burbuja, que pervierten el origen del Big Data y que caen en una constante overpromise, convirtiendo algo valioso y útil, pero con sus lógicas limitaciones (como toda disciplina), en el salvavidas de muchas compañías.

Me centraré en una perspectiva pragmática, acerca de la utilidad del Big Data en lo referente a las prácticas de consumo de productos y servicios en nuestros días.

¿Qué es un ser humano?

Creo que es la primera pregunta a responder. ¿Podemos reducir la complejidad del ser humano, sus emociones, sus sentimientos, sus motivaciones… a simples datos? La posibilidad es muy tentadora: muchos de los que nos dedicamos a tratar con clientes, consumidores y usuarios reconocemos, después de muchos años de experiencia, que no los entendemos. Es duro, pero es parte de nuestro trabajo. Y no es fácil de asumir.

Es fascinante la idea de que un algoritmo nos diga lo que una persona hace, compra o quiere comprar en el futuro. Pero sabemos que no es cierto. Que un ser humano no es solo lo que hace o lo que dice. Es un cúmulo de incoherencias, es algo fruto de su historia y es algo determinado por el contexto en el que vive. Si alguien consigue condensar todo esto en un algoritmo, me quito el sombrero.

¿Quién hace el Dig Data?

Al menos en mi entorno, los perfiles profesionales que están desarrollando esta disciplina son por lo general, y salvo contadas excepciones, perfiles tecnológicos (y tecnocráticos) como ingenieros informáticos, desarrolladores, programadores y similares. Mentes cartesianas, científicas, matemáticas…. cuya preocupación reside en la solidez de su modelo, en su capacidad de retroalimentarse y aprender de sí mismo.

Gente brillante, sin duda, pero con dificultades en el manejo (desde un punto de vista profesional, por supuesto) de la incertidumbre, la contradicción o la incoherencia. De todo aquello que nos hace humanos.

Es por esto que la integración del Big Data con disciplinas más humanistas, como la propia investigación social, es tan complicada. Porque hablamos lenguajes distintos y tenemos conceptos diferentes de lo que es un ser humano. Donde unos ven números, otros vemos emociones.

¿Y el contexto?

Los adjetivos que demuestran la validez de un algoritmo son su solidez, su robustez, su fiabilidad, su capacidad de retroalimentarse…. factores todos que cobran sentido en situaciones de laboratorio.

¿Pero qué pasa cuando ese algoritmo “sale a la calle” y se encuentra con la vida real?, ¿qué sentimos cuando Netflix nos recomienda con un exactísimo grado de coincidencia una serie determinada?, ¿o Amazon nos sugiere ciertos productos cuando hacemos una compra? Es ahí cuando podemos decir si el algoritmo realmente es útil o no, cuando ese algoritmo funciona en un contexto diferente al que se creó. Considerando además que ese contexto tiene infinitas variables que lo definen y modifican continuamente. Pero claro, eso no entra en “los datos”.

¿EL carro antes que el caballo?

Igual conviene hacer una leve revisión del desarrollo del Big Data. Cuando la etiqueta de Data Mining dejó de ser sexy, y ante el descubrimiento de esas ingentes cantidades de datos, el primer objetivo fue generar las infraestructuras necesarias para su manejo, almacenamiento y procesamiento.

Tras varios años y muchos euros de inversión, el panorama era el de muchas empresas con toneladas de datos, con sistemas que permitían explotar, analizar y procesar esos datos, pero que en realidad no tenían muy claro que podían (y no podían) hacer con ellos. Por eso ahora los perfiles más codiciados son los de data scientist, porque hace falta alguien que entienda y tenga la capacidad de convertir esa montaña de datos en valor para los clientes. Pero eso todavía está por ver. Hasta ahora, los servicios basados en datos se han apoyado más en la accesibilidad y disponibilidad de los mismos que en las necesidades de los usuarios.

Y una última idea

Ha cobrado fama la expresión “los datos son el petróleo del siglo XXI”. Y yo me pregunto: ¿y dónde están las refinerías?

Artículo de Santiago de la Asunción Larios, design researcher y market researcher docente en H2I, Uxer School e IED

Fuente: IPMARK

04 comments on “Big Data: igual no es para tanto

  • Paloma Funes del Río , Direct link to comment

    Antes de leer este artículo, creía firmemente en las aplicaciones del Big Data en publicidad y marketing. Después de leerlo, considero que los argumentos que se han puesto de manifiesto para desprestigiarlo no me parecen de suficiente peso como para retractarme.
    Desde el momento en el que aparecen los sesgos de mercado, se está dividiendo a la población por grupos como si de espacios en un inmueble se tratase. Considero que el Big Data puede ser una herramienta para hilar más fino a la hora de llevar a cabo la segmentación. Al fin y al cabo, cuanto mayor sea la cantidad de variables conocidas que influyen en cualquier fenómeno, en este caso el comportamiento de una persona, menor será su grado de incertidumbre.
    Se mencionan los perfiles tecnológicos, pero la psicología, ciencia que estudia el comportamiento humano, también utiliza y analiza datos para verificar sus modelos. Así que considero que es perfectamente compatible con las ramas del conocimiento más humanas. Por otra parte, dentro de nuestras peculiaridades individuales, las distintas teorías acerca de las personalidades invitan a pensar que no somos seres tan únicos entre la población como podría parecer. El ejemplo de las series recomendadas por Netflix, en mi opinión, refleja bastante bien la idea de esa diferenciación más sutil de lo que podría parecer en un primer momento, ya que el algoritmo te recomienda contenido audiovisual en función de lo que han seguido otras personas con tus mismos gustos en cuanto a series.
    No digo que considerar a las personas individuos con o sin ciertos atributos sea sencillo, ni mucho menos, pero sí es posible.
    Por otra parte, estoy de acuerdo en que se habla de Big Data muy a la ligera y en muchas empresas se ha empleado meramente por “estar de moda” sin tener muy claro en qué consiste ni sus aplicaciones.

    • José Miguel Ponce , Direct link to comment

      Hola Paloma: ¡Muchas gracias por tu comentario!

      Estoy de acuerdo contigo. El artículo está escrito por un experto en investigación de mercados con técnicas cualitativas. Esto supone dar prioridad a la información de personas, observación, análisis de opiniones en grupos de consumidores, etc. Lo cual implica que no se suele valorar suficientemente las encuestas.

      El hecho es que hay empresas, como los bancos, que están utilizando el BIg Data para estimar el comportamiento de los clientes.

      El Big Data está de moda y mucha gente habla sin saber las ventajas e inconvenientes que tiene.

  • Tash , Direct link to comment

    Agradezco el esfuerzo de la entrada, siempre es interesante abrir un debate y comentar ciertos temas, pero estoy enormemente en desacuerdo con lo que se expone, no porque no admita críticas en contra al big data ( que las hay a patada) sino porque creo que estos no son los apropiados.

    Lo primero es que el uso del big data no supone utilizar nada nuevo que no se haya hecho con lo que normalmente se llama estadística: Tienes una variable que quieres predecir a partir de su relación con otras series de variables que conoces. Por ejemplo, siguiendo con el ejemplo de Netflix (aunque puede servir para cualquier tipo de algoritmo de recomendaciones) intentas averiguar qué serie quiere ver el usuario, normalmente tendrías una serie de variables como sexo, edad, generos que suele ver etc… Ahora,simplificando mucho, lo que haces es mirar uno por uno todos los usuarios (millones) y ver qué series han visto y que notas han puesto. El algoritmo detecta que un usuario tiende a valorar las series de forma semejante a in grupo de personas y a partir de los gustos de esas personas te puede recomendar series que no has visto.

    Esto es mucho más preciso que una segmentación por un pequeño grupo de variables (edad, sexo, etc… ya que estás manejando mucha más información que de la manera clásica. La pregunta es si establecer predicciones a partir de miles de variables es más preciso que usar una segmentación basada en patrones demográficos, económicos etc… Los resultados muestran que muchísimo más. Esto no solo se aplica al Marketing, se aplica a seguros, a banca, a la medicina, al deporte y casi a cualquier disciplina.

    Sobre la carencia de alma, o de componente humano a la hora de desarrollar modelos de big data me parece un comentario que se escucha de forma recurrente y pronunciado desde el desconocimiento de como es el proceso de creación, testeo y puesta en marcha. Los algortimos no se hacen en el laboratorio por gente que desconozca los sucesos que estudian. Los algoritmos se crean y refinan decenas de veces antes de que se compruebe su eficacia y solamente conociendo a fondo el problema puede hacer que la máquina entienda el problema . Los coches de google llevan años conduciendo, se empezó porque conocieran las señales de tráfico y las líneas de las carreteras, con eso no basta, y tienen que aprender el posicionamiento de los otros coches y las normas de conducir, y con eso no basta, y tienen que aprender que la gente se salta las normas: la gente cruza por dónde no debe y los coches no siempre conducen siguiendo las normas. Tras miles de intentos….

    https://mashable.com/2012/08/07/google-driverless-cars-safer-than-you/?europe=true

    (El coche sin conductor de Google conduce mejor que el promedio de los conductores)

    Sencillamente, podemos crear relaciones más complicadas y efectivas entre los datos. Aprender lo suficiente de cine y de las personas a una persona le supondría cientos de años, a una máquina le bastan un par de horas. Y aunque una persona consiguiera entender mejor la relación entre persona/gustos de series sería mucho más fácil llevar esa información a una máquina y que ella lo analice.

    Como cierre te dejo una página donde cada vez que clickeas te muestra la foto de una persona que no existe. La IA es capaz de identificar que características componen una foto humana (ojos, nariz boca ,etc…) y que combinaciones son posibles i.e. no puedes tener la boca encima de la nariz.

    https://thispersondoesnotexist.com/

    Todas esas fotos son el producto de la imaginación de un robot 🙂

    Un saludo

    • José Miguel Ponce , Direct link to comment

      Muchas gracias por tu visita y tu extenso y riguroso comentario.
      Los enlaces que sugieres, me parecen muy oportunos e ilustran muy bien el contenido de tu comentario.
      Estoy totalmente de acuerdo contigo.
      El artículo que reproduce esta entrada, está escrito por un investigador que utiliza principalmente técnicas cualitativas, lo cual hace que a veces, valore más sus resultados que los datos y variables cuantitativas.
      El Big Data se puede explicar estadísticamente con un modelo sencillo de regresión con múltiples variables. Esto, como es lógico, proporciona un mayor coeficiente de regresión que con unas pocas variables.
      De hecho, en sectores como la banca se está aplicando el Big Data con excelentes resultados. Entre otras aplicaciones, la más frecuente es la estimación del comportamiento de los clientes financieros: productos contratados, capacidad de ahorro, etc.

Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Time limit is exhausted. Please reload CAPTCHA.