Volver a Proyectos

Goldman Osteometric Dataset: Estimación de Sexo Biológico con Machine Learning

Antropología Forense Machine Learning Analítica de Datos · UdeC 2025

Colaboradores: Felipe Olivares, Felipe Romero, Claudio Velquén

Descripción del Proyecto

Proyecto de la asignatura Analítica de Datos (Universidad de Concepción, 2025) que aplica 6 modelos de Machine Learning supervisado para estimar el sexo biológico a partir de medidas osteométricas de huesos largos. Se utilizó el Goldman Osteometric Dataset (Dr. Benjamin Auerbach, UTK), con 1.538 individuos y mediciones de extremidades superiores e inferiores, segmentadas por continente de origen para reducir el sesgo poblacional.

Mejor Resultado

88.7% de accuracy con Random Forest (modelo reducido, 5 variables) en extremidad superior derecha — ROC-AUC 94.1%. Los modelos reducidos a 4–5 mediciones óseas mantienen desempeño comparable al modelo completo.

Contexto Científico

Dimorfismo Sexual en Antropología

El dimorfismo sexual se refiere a las diferencias morfológicas y métricas entre individuos masculinos y femeninos. En antropología forense y bioarqueología, la estimación del sexo biológico es fundamental para el perfil biológico.

Métodos Tradicionales

Morfoscopia

Evaluación visual

Precisión: 70-80%

Limitación: Subjetividad

Ecuaciones Discriminantes

Regresión estadística

Precisión: 80-90%

Limitación: Población-específicas

Ventaja del Machine Learning

  • Análisis simultáneo de múltiples variables
  • Detección de patrones complejos no lineales
  • Reproducibilidad total
  • Aplicable a elementos fragmentarios

Metodología

1. EDA + Segmentación Geográfica

  • Limpieza exhaustiva de valores nulos y estandarización de formatos
  • Segmentación por variable Location (continente) para reducir sesgo poblacional
  • Detección de outliers, análisis de distribución y correlaciones
  • Variables derivadas: índices braquial y crural para detectar patrones dimórficos

2. Clustering (K-Means + PCA)

  • K-Means por extremidad para detectar agrupaciones naturales
  • PCA para visualizar separación morfológica por sexo y continente
  • ARI con Sexo ~0.43 en las 4 extremidades — el clustering detecta dimorfismo sin supervisión
  • Identificación de distancia morfológica en población asiática

3. Modelos Evaluados

Árbol de DecisiónRandom ForestRegresión LogísticaSVMXGBoostMLP

4. Pipeline de Evaluación y Optimización

División: Train / Validación / Test por extremidad

Optimización: Búsqueda de hiperparámetros para cada modelo

Reducción: Modelos optimizados con 4–5 variables más importantes

Métricas: Accuracy, Precision, Recall, F1-Score, ROC-AUC

Validación poblacional: Accuracy por continente (6 regiones)

Resultados

Extremidad Superior Derecha [ Mejor rendimiento ]

Modelo Ganador

Random Forest

Accuracy

88.7%

ROC-AUC

94.1%

Variables

5 (modelo reducido)

Los modelos reducidos a 4–5 mediciones óseas mantienen desempeño comparable al modelo completo

Resultados por Extremidad (Modelo Reducido)

Superior Derecha Random Forest · 5 vars
88.7% acc · ROC-AUC 94.1%
Superior Izquierda Reg. Logística · 4 vars
86.7% acc · ROC-AUC 92.1%
Inferior Izquierda SVM · 5 vars
85.5% acc · ROC-AUC 91.5%
Inferior Derecha MLP · 5 vars
85.3% acc · ROC-AUC 90.4%

Limitación poblacional: población asiática

El clustering K-Means + PCA reveló que los especímenes asiáticos forman un agrupamiento morfológicamente distinto (~37-38% de overlap con otros continentes). Esto explica el menor accuracy en Asia (61-74% según extremidad), coherente con diferencias morfológicas reportadas en la literatura. Los modelos generalistas no capturan adecuadamente este dimorfismo diferencial.

Modelos con mejor desempeño transversal

Modelo Rango Accuracy Ventajas
Random Forest 84–89% Mejor accuracy general, entrega importancia de variables
MLP (Perceptrón Multi Capa) 83–88% Mejor balance accuracy/recall — relevante en contexto forense
Regresión Logística 83–87% Interpretable, entrega importancia de variables
SVM 84–87% Consistente entre extremidades

Aplicaciones

Antropología Forense

  • Identificación en desastres masivos
  • Perfiles biológicos médico-legales
  • Investigación de derechos humanos
  • Resultados rápidos y reproducibles

Bioarqueología

  • Estudios de poblaciones antiguas
  • Análisis de dimorfismo histórico
  • Reconstrucción demográfica
  • Aplicable a restos fragmentarios

Medicina Legal

  • Complemento a morfoscopia
  • Segunda opinión automatizada
  • Casos con preservación diferencial
  • Objetividad y consistencia

Stack Tecnológico

Python 3.10+Scikit-learnXGBoostPandasNumPyMatplotlibSeabornSciPy

Conclusiones

Los modelos de ML muestran alto potencial para estimar sexo biológico usando extremidades aisladas (hasta 88.7% accuracy)

Los modelos pueden reducirse a 4–5 mediciones óseas, manteniendo desempeño predictivo comparable al modelo completo

Random Forest, MLP, Reg. Logística y SVM presentan buen desempeño transversal por extremidad y población

Limitación poblacional identificada: mayor dificultad en población asiática, coherente con diferencias morfológicas reportadas en la literatura

Línea futura clave: incorporar casos chilenos contemporáneos para modelos forenses específicos