La plataforma Statistica está clasificada entre las cinco principales plataformas de ciencia de datos según el nuevo informe de Gartner para 2017, "Cuadrante mágico para plataformas de ciencia de datos" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- plataformas), anteriormente denominadas "Plataformas de análisis avanzadas" en 2016. La amplia gama de funciones y una interfaz gráfica de usuario (GUI) proporcionada por Statistica la convierten en una de las herramientas de ciencia de datos más utilizadas.
Los archivos de datos estadísticos se denominan Hojas de cálculo , que tienen filas y columnas de datos. Las filas de datos se denominan casos y los encabezados de las columnas de datos se denominan variables . Un problema común en la preparación de datos es que diferentes miembros del equipo están desarrollando o recopilando conjuntos de datos por separado y los conjuntos de datos deben fusionarse antes de que se pueda usar la hoja de cálculo. Los datos pueden estar en varios archivos de datos. Discutiremos cómo los datos en dos archivos de datos diferentes pueden fusionarse en un solo archivo de datos con Statistica.
Statistica admite diferentes tipos de modos de combinación para dos archivos de datos, y estos son:
- Concatenar: Cuando se concatenan dos archivos de datos, se toma un archivo de datos y se agrega (o se concatena) en el lado derecho del otro archivo de datos.
- Cartesiano: Crea un producto cruzado de dos archivos de datos.
- Coincidencia de nombres de casos: Combina los casos (filas) de un archivo con los casos de los otros archivos haciendo coincidir los nombres de los casos.
- Variables de coincidencia: Combina las filas de un archivo de datos con las filas del otro archivo de datos haciendo coincidir los nombres de las variables.
Comenzaremos discutiendo la fusión de Concatenate. Este tutorial tiene las siguientes secciones:
- Configuración del entorno
- Concatenación de archivos de datos
- Conclusión
Configuración del entorno
Descargue e instale la plataforma Statistica. Los archivos de datos estadísticos se denominan hojas de cálculo (almacenadas con .sta sufijo). Crearemos algunos archivos de datos de Statistica en este tutorial. Se crea un archivo de datos con Archivo>Nuevo . En Crear nuevo documento , seleccione Hoja de cálculo , como se muestra en la Figura 1.
Figura 1: Seleccionando Nueva hoja de cálculo para crear
Para guardar un archivo de datos, seleccione Archivo>Guardar como , como se muestra en la Figura 2.
Figura 2: Archivo>Guardar como
Concatenación de archivos de datos
Primero, cree los dos archivos de datos que se van a fusionar. Los archivos de datos que se fusionarán suelen tener el mismo número de filas y el mismo o diferente número de columnas. Debido a que los datos deben concatenarse, los nombres de las columnas suelen ser diferentes. Nada de esto es un requisito; dos archivos de datos pueden tener un número diferente de filas y también discutiremos cómo fusionar dicho conjunto de archivos de datos. El objetivo es fusionar los datos en un archivo de datos con el otro para que el archivo de datos 2 se agregue en el lado derecho del archivo de datos 1. Como ejemplo, cree un archivo de datos (llamado wlslog1.sta ) con encabezados de columna (variables ) marca de tiempo , categoría y escriba y los siguientes datos (datos de registro de ejemplo).
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
El wlslog1.sta El archivo de datos se muestra en Statistica en la Figura 3.
Figura 3: Archivo de datos wlslog1.sta
Cree otro archivo de datos (wlslog2.sta ) con encabezados de columna servername , código y mensaje y agregue los siguientes datos (también datos de registro de ejemplo).
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
El wlslog2.sta El archivo se muestra en la Figura 4. Para fusionar los dos archivos de datos, wlslog1.sta y wlslog2.sta , haga clic en Datos pestaña y seleccione Fusionar , como se muestra en la Figura 4.
Figura 4: Archivo de datos wlslog2.sta
A Opciones de fusión se muestra el cuadro de diálogo, como se muestra en la Figura 5. Las Variables La pestaña está seleccionada de forma predeterminada. Seleccione Modo como Concatenar . Haga clic en Archivo 1 para seleccionar el archivo 1 para fusionar.
Figura 5: Opciones de fusión
Seleccione wlslog1.sta archivo en Seleccionar hoja de cálculo cuadro de diálogo (ver Figura 6). Haz clic en Aceptar . El wlslog1.sta el archivo se agrega al Archivo 1 campo. Del mismo modo, seleccione el archivo 2 wlslog2.sta .
Figura 6: Selección de una hoja de cálculo para fusionar
No se requiere ninguna otra configuración. De forma predeterminada, se genera una hoja de cálculo de salida y se puede configurar con las Opciones pestaña, como se muestra en la Figura 7. Mantenga la configuración predeterminada para la hoja de cálculo de salida.
Figura 7: Pestaña Opciones
Los dos archivos que se fusionarán se agregarán al Archivo 1 y Archivo 2 campos, como se muestra en la Figura 8. La configuración predeterminada para Casos no coincidentes llena los archivos de datos con los valores que faltan, lo que implica que se almacenan datos vacíos para la sección de una fila fusionada (caso ) que no coincide de un archivo de datos a otro. Haz clic en Aceptar .
Figura 8: Archivos de datos para fusionar
Los dos archivos de datos se concatenan, como se muestra en la Figura 9. La hoja de cálculo resultante tiene 6 columnas y 6 filas.
Figura 9: Hoja de cálculo resultante después de una fusión
Si una hoja de cálculo tuviera más filas que la otra, las dos hojas de cálculo se concatenarían de la misma manera. Como ejemplo, agregue una fila adicional en la hoja de cálculo 1 (wlslog1.sta ) para hacer 7 filas, como se muestra en la Figura 10.
Figura 10: Fila adicional en wlslog1.sta
Cuando se concatena con la hoja de cálculo 2 (wlslog2.sta ), la hoja de cálculo resultante tiene una fila adicional con datos faltantes para las columnas de la hoja de cálculo 2 (consulte la Figura 11).
Figura 11: Hoja de cálculo fusionada
Conclusión
En este tutorial, presentamos la combinación de archivos de datos (también llamados hojas de cálculo) en Statistica Platform para ciencia de datos. Discutimos uno de los modos de fusión:Fusión concatenada. En un tutorial posterior, discutiremos la fusión haciendo coincidir nombres de casos y variables.