lunes, 9 de mayo de 2022

TIP #3: Entender los datos desde la visión analítica

 

Los dos TIPs anteriormente analizados tenían como objetivo dar soporte a la primera fase del proceso que corresponde a la de "Conocer Necesidades", los próximos 3 TIPs corresponden a la fase de "Conocer los Datos", siendo el primero de ellos "Entender los datos desde la visión de analítica"





Es importante tomar en cuenta que los datos pueden tener múltiples consumidores, así como también tener diferente propósitos como ayudar a la operación del negocio, para la toma de decisiones o inclusive por temas legales o de cumplimiento.

Es por esto que se pueden clasificar los datos desde diferentes perspectivas, una de las cuales puede ser la que los divide en tipos de Almacenamiento, Integración, Cumplimiento y analítica según se muestra a continuación:


Como se puede observar, los que se encuentran del lado izquierdo, se podría considerar como datos brutos o sin procesar, mientras que los datos de Analítica se generan luego de aplicar unas reglas de conversión que permitan facilitar la toma de decisiones.

Profundizar sobre cada uno de estos tipos nos llevaría otro artículo completo, sin embargo lo que queremos anotar aquí es que es necesario entender los datos desde diferentes ópticas o puntos de vista, lo cual nos permitirá tener una visión más amplia de los activos con los que contamos y en función de esto poderlos utilizar de manera adecuada, por lo que basados en esto es importante que tengamos presente estos diferentes esquemas de clasificación a fin de poder hacer un inventario adecuado de lo que tenemos y que se necesitará.




Entonces para poder llevar adelante lo correspondiente a este nuevo TIP, debemos considerar los siguientes pasos:


1. Pulir los datos

2. Transforme los datos en visualizaciones

3. Equilibre costos versus valor


Para el caso de Pulir los datos, es necesario recuperar o extraerlos de su lugar origen o de su fuente, entender luego su estructura, es decir de qué tipo es (numérico, texto, fecha, etc.) y cuál es su contenido (códigos, valores, etc.), luego de lo cual será necesario establecer las relaciones que existen entre las diferentes fuentes (tablas, claves) considerando sus atributos y volumetría, lo cual nos permitirá tener una claridad de los activos con lo que contamos. 


La siguiente fase Transforme los datos en visualizaciones, permite entender el comportamiento de los datos y aquí comenzamos a sacar algunos indicadores que nos muestran su comportamiento utilizando para esto elementos estadísticos como la media, la mediana, la moda, desviación estándar, error estándar entre otros elementos que pueden ser fácilmente graficados y nos permite ver ciertas tendencias. Pero ¿qué hay de los datos que no son numéricos, ¿cómo podemos analizarlos? En estos casos es necesario llevar a cabo ciertas técnicas de análisis de textos, las cuales se muestran a continuación en el siguiente cuadro:




En el ámbito de los científicos de datos esto se llama estudio previo de los datos (o EDA en inglés).

Todo este trabajo tiene un costo importante en costos, ya que normalmente estas fases de análisis son las que más tiempo toman al momento de realizar un proyecto de analítica, esto es alrededor del 80%, por lo que es importante equilibrar el costo de realizar estos análisis versus el valor que ofrecen al negocio, tomando en cuenta que mientras más complejo sean los tipos de datos a manejar su costo será mayor pero a su vez la oportunidad de generar valor también lo será, pero para lograrlo es necesario tener presente que este trabajo de transformación de un estado nativo o bruto de los datos a un estado analítico no es un trabajo puramente técnico sino que implica un ejercicio de negocio a fin de validar las reglas de conversión que se deban aplicar para antes de utilizarlos adecuadamente.





Es por todo esto para lograr un buen entendimiento o conocimiento de los datos se requiere revisar los productos, servicios, clientes y el mercado donde la compañía está operando a fin de tener una mejor visión de negocio.

A continuación, el mapa mental correspondiente a este nuevo TIP:



El siguiente TIP tratará de la aplicación de técnicas de procesamiento de datos.