sql >> Base de Datos >  >> RDS >> Database

Anonimización de identificadores indirectos para reducir el riesgo de volver a identificar

Los cuasi-identificadores, o identificadores indirectos, son atributos personales que son verdaderos, pero no necesariamente únicos, para un individuo. Algunos ejemplos son la edad o la fecha de nacimiento, la raza, el salario, el nivel educativo, la ocupación, el estado civil y el código postal. Compárelos con identificadores directos y únicos, como el nombre legal completo de una persona, la dirección de correo electrónico, el número de teléfono, el documento nacional de identidad, el pasaporte o el número de la tarjeta de crédito, etc.

La mayoría de los consumidores ya son conscientes de los riesgos de compartir su información de identificación personal (PII) única. La industria de la seguridad de datos también suele centrarse en esos identificadores directos. Pero con solo el sexo, la fecha de nacimiento y el código postal, se puede identificar entre el 80 y el 90 % de la población de EE. UU.

Casi cualquier persona puede volver a identificarse a partir de un conjunto de datos enmascarado si quedan suficientes identificadores indirectos y se pueden unir a una población de superconjunto con valores similares.

La regla HIPAA Expert Determination Method relativa a la información de salud protegida (PHI) y la ley FERPA con respecto a la privacidad de los datos de los estudiantes contemplan estas preocupaciones y requieren que los conjuntos de datos tengan una probabilidad estadísticamente baja de reidentificación (el estándar actual es inferior al 20 %). Aquellos que deseen utilizar datos educativos y de atención médica con fines de investigación o marketing deben cumplir con esas leyes, pero también deben confiar en la precisión demográfica de los cuasiidentificadores para que los datos sean valiosos.

Por esta razón, los trabajos de enmascaramiento de datos en el producto IRI FieldShield o IRI Voracity (plataforma de gestión de datos) pueden aplicar una o más técnicas adicionales para ofuscar los datos, manteniendo la precisión suficiente para fines de investigación o marketing. Por ejemplo, las funciones de desenfoque numérico crean ruido aleatorio para intervalos de fechas y edades específicos, como se describe en este artículo.

Sobre la base del artículo aquí, este ejemplo mostrará cómo IRI Workbench puede crear y usar archivos establecidos para anonimizar cuasi-identificadores.

Comience en la Generalización mediante agrupamiento Asistente, disponible en la lista de reglas de protección de datos:

Una vez que se abra el asistente, comience a definir el origen de los valores para el archivo establecido, incluido el formato de origen y el campo que requiere un valor de reemplazo generalizado.

En la página siguiente, hay dos tipos de sustituciones de archivos establecidos:Usar archivo establecido como grupo y Usar establecer archivo como rango opciones Este ejemplo hace uso de Usar archivo de conjunto como grupo opción. El artículo sobre la borrosidad de datos demuestra Usar archivos establecidos como un rango opción. Los conjuntos de búsqueda creados aquí se utilizarán para seudonimizar los cuasiidentificadores originales con el nuevo valor de generalización.

Esta página es donde se crean las agrupaciones entre cada uno de los valores de campo cuasiidentificadores originales. A la izquierda están los valores únicos en el campo previamente seleccionado. Los grupos se pueden crear arrastrando y soltando en los valores de grupo a la izquierda o ingresando valores manualmente. Cada grupo también necesita un valor de reemplazo único. Este es el valor que reemplazará el valor original en el grupo. En este ejemplo, cualquier valor de "noveno" será reemplazado por "Escuela secundaria".

Agregar grupos hasta cubrir todos los valores de origen produce el siguiente archivo de conjunto de búsqueda para anonimizar el cuasi-identificador del estado de educación:

Si se requieren niveles adicionales de almacenamiento en depósitos, el asistente de almacenamiento en depósitos se puede ejecutar de nuevo utilizando este archivo establecido como fuente.

Cuando el archivo de configuración se utiliza en un trabajo de anonimización de datos, los datos de origen se comparan con los valores de la primera columna del archivo de configuración. Si se encuentra una coincidencia, los datos se reemplazan con el valor en la segunda columna. El archivo de conjunto anterior se usa en el siguiente script en la línea 38.

El uso de Workbench para aplicar cinco técnicas diferentes de anonimización da como resultado el siguiente script:


Las primeras diez líneas de los datos originales se muestran aquí:

Los resultados anónimos después de ejecutar el trabajo se muestran aquí:

Antes de estas generalizaciones, el riesgo de reidentificación basada en los valores originales de identificación indirecta era demasiado alto. Pero cuando el conjunto de resultados más generalizado se vuelve a ejecutar a través del asistente de puntuación de riesgo para producir otra determinación de riesgo de reidentificación, el riesgo es aceptable y los datos siguen siendo útiles para fines de investigación o marketing.

Si tiene alguna pregunta sobre estas funciones o la puntuación de riesgo de re-ID, comuníquese con .