Para realizar un análisis de regresión lineal simple, se requiere un número adecuado de
observaciones, variables numéricas, distribuciones normales y homogéneas, y que las
predicciones estén dentro del rango conocido de la variable independiente. Además, los
residuos deben seguir una distribución normal con media cero y desviación típica S.
Estos criterios se evalúan mediante gráficos de residuos estandarizados en unidades Z
[10].
Los modelos de regresión lineal simple [11] tienen como objetivo crear una ecuación
que relacione la variable dependiente (Y) con la variable independiente (X) de manera
lineal. En la ecuación f(x) = β0 + β1x + ϵ, β1 representa el coeficiente de regresión,
indicando el cambio esperado en Y por unidad de aumento en X, mientras que β0 denota
el valor esperado de Y cuando X es cero. Esta ecuación se conoce como la ecuación
regresiva estimada o de predicción para los valores de Y, y se presenta en la siguiente
ecuación:
ŷ=b0+b1X con b0 y b1 constantes.
Para evaluar el modelo [11] se analiza la varianza de la variable dependiente. Si el modelo
es adecuado, los valores predichos (ŷ i) deberían aproximarse a los valores reales (yi) de
la variable Y, lo que implica que la diferencia (yi − ŷ i = ei) tienda a cero. Esto se refleja en
un coeficiente de determinación (R²) cercano a uno.
En esta sección, se aborda el cálculo de una ecuación que describe la relación entre una
variable dependiente (Y) y múltiples variables independientes (X). Los coeficientes (β0,
β1, β2, ..., βn) se determinan mediante la resolución de ecuaciones o el uso de software
estadístico especializado [12].
En un contexto médico, al evaluar la influencia de la edad del paciente (X1), el historial
de enfermedades previas (X2), y el nivel de actividad física (X3) en la predicción de
resultados de salud, podemos crear una ecuación hipotética para capturar esta relación.
Por ejemplo:
Y= β0+ β1
X1+β2
X2
+β3 X3
+ε (2)
Donde:
Y representa el resultado de salud o variable dependiente que se desea predecir.
• β0 es el término de intersección.
• β1, β2 y β3 son los coeficientes de regresión asociados a las variables X1
, X2
y X3
respectivamente.
• ε representa el término de error que captura las discrepancias no explicadas por el
modelo.
En algunos estudios, los eventos tienen solo dos resultados posibles, donde una variable
Y se utiliza de manera dicotómica, con 1 representando la ocurrencia y 0 la no ocurrencia
[13]. En un caso específico, en el estudio del tipo de parto en embarazadas, se analiza si
las variables X1 (tiempo de gestación) y X2 (tamaño del feto) están relacionadas con la
probabilidad de cesárea, usando 1 para cesárea y 0 para parto natural como categorías
de la variable dependiente, a través de la regresión logística, se intenta estimar la
probabilidad de que el evento de interés ocurra en relación con ciertas variables [13]. Por
lo tanto, la ecuación de un modelo logístico basado en el ejemplo se podría expresar de
la siguiente manera:
Donde:
P(Y=1) es la probabilidad de que el parto sea por cesárea.
• β0 es el intercepto.
• β1 y β2 son los coeficientes asociados a las variables independientes X1 (tiempo de
gestación) y X2 (tamaño del feto), respectivamente.
• e es la base del logaritmo natural.
Este modelo logístico estima la probabilidad de que el parto sea por cesárea en función
de las variables independientes X1 y X2, permitiendo analizar cómo influyen el tiempo de
gestación y el tamaño del feto en la probabilidad de que ocurra una cesárea.
El enfoque empleado en la investigación es principalmente cuantitativo, en este sentido
se describieron las variables de estudios sin manipular los resultados [14] ante lo cual
se busca la formulación de leyes generales, y para lograrlo, se recopilan grandes
cantidades de datos de la población, eligiéndose muestras representativas para validar
los descubrimientos [15]. El trabajo se centra en la construcción y aplicación de modelos
de regresión, que son técnicas estadísticas cuantitativas para analizar y cuantificar las
relaciones entre variables numéricas [10].
La investigación utiliza datos de nacidos vivos en Guadalajara de Buga, Colombia, del
año 2016, para elaborar modelos estadísticos en R y prever resultados obstétricos. Se
implementaron tres modelos: una regresión lineal simple para anticipar el peso al nacer
a partir de la talla, una regresión multilíneal que incorpora el tiempo de gestación, y una
regresión logística para evaluar la influencia del tiempo de gestación en la probabilidad
de cesárea.
R es un lenguaje de programación de código abierto para análisis estadísticos, se emplea
RStudio Cloud, plataforma en línea que proporciona un entorno de desarrollo integral
para R, simplificando la creación de scripts, manipulación de datos y visualización.
En R, es un lenguaje orientado a objetos con tipos de dato de características distintas, que
incluyen datos numéricos que abarcan números reales y complejos, datos de caracteres
que representan cadenas de texto y datos lógicos que solo pueden ser verdaderos o falsos
[16]. Es así que en R, la documentación de scripts mediante comentarios es esencial para
garantizar la replicabilidad de resultados [17]. A continuación, se presentan los comandos
clave y los resultados obtenidos al construir los modelos estadísticos propuestos.
Modelo 1: Regresión lineal simple
En el primer modelo, se emplean las variables “Peso” y “Talla” del recién nacido debido a
su alta correlación. El objetivo es predecir el peso a partir de la talla. Una vez construido
el modelo, su aplicación será práctica, ya que permitirá estimar el peso a partir de la talla
obtenida mediante ecografía antes del nacimiento.
En R, la importación de datos comienza con la lectura de un archivo externo que debe
seguir un formato específico [18] el archivo debe tener los nombres de las variables en
la primera línea y los valores de las variables en líneas subsiguientes, facilitando así su
lectura y procesamiento. A continuación, se muestra el código para importar el dataset.
Se observa que la variable “Peso” tiene un rango que va desde 815 hasta 4775 gramos,
con una media de 3180 gramos. Mientras en la variable “Talla” (en centímetros), los
valores oscilan entre 31 y 59, con una media de 50. Ahora procedemos al cálculo de la
correlación.
Correlation-cor(data$Peso,data$Talla)
correlation
## [1] 0.7572996
Se evidencia una correlación lineal positiva fuerte entre las variables. En el contexto del
caso, se considera a la variable “Talla” como la variable independiente, que influiría en
los valores de “Peso”. Se procedemos entonces a construir el modelo de regresión lineal
simple.
El comando básico para realizar modelos de regresión en R es “lm()”. Su sintaxis básica
implica especificar la variable dependiente seguida de “~” y el predictor, y luego se
especifica la fuente de datos [19.
La función summary () proporciona un resumen del modelo ajustado, incluyendo la
fórmula, los residuales, estimaciones de parámetros, error estándar, estadísticas t
y p-valores para probar hipótesis, estimación de σ y grados de libertad, R2 habitual y
ajustado, y estadístico F con sus grados de libertad y p-valor [20].
Análisis del Modelo 1
El análisis de regresión involucra conceptos matemáticos fundamentales, especialmente
en relación con las funciones que describen la naturaleza de la relación entre variables.
Además, implica una serie de procedimientos de diagnóstico, como el análisis de residuos
y la evaluación de la bondad del ajuste, que proporcionan información sobre la estabilidad
y adecuación del modelo [21].
Los resultados muestran un modelo de regresión lineal simple con Talla como variable
independiente y Peso como variable dependiente. El bajo p-valor de Talla indica una
relación significativa. El coeficiente R² de 0.5735 explica el 57.35% de la variabilidad en
el Peso, indicando una fuerte relación positiva. La ecuación de la recta es y = -3329.342
+ 129.697x, lo que significa que, en promedio, por cada centímetro adicional en Talla, se
espera un aumento de 129.697 gramos en Peso. Se proporciona el siguiente código y la
Figura 1 la cual muestra los residuos del modelo, ofreciendo una representación visual de
cómo las predicciones se ajustan a los datos en relación con las variables “Talla” y “Peso”.
La gráfica muestra una línea de regresión positiva que confirma el aumento en el “Peso” con la “Talla”, siguiendo el coeficiente positivo del modelo de regresión. Líneas punteadas conectan puntos de datos con predicciones basadas en “Talla” y “Peso”. Puntos sobre la línea representan las estimaciones del modelo, respaldando la relación positiva y significativa entre “Talla” y “Peso”.
Modelo 2: Regresión multilínea
Se aplica una regresión lineal múltiple para analizar la influencia conjunta de “Talla” y “Tiempo de Gestación” en el “Peso” de recién nacidos. A continuación, se proporciona el código para generar un resumen estadístico de las variables o columnas seleccionadas en el modelo.
Se aprecia que el rango de tiempo de gestación es de 24 a 42 semanas, con una mediana de 39 semanas. Ahora para explorar la relación entre varias variables, se puede usar el paquete “scatterplot3d” en R. Se presenta a continuación el código y la Figura 2, que ofrece una vista de cómo las variables se distribuyen en un espacio tridimensional.
En la figura anterior se ve claramente que a medida que aumenta la Talla y el Tiempo de
Gestación el Peso de los recién nacidos tiende a ser mayor.
En la construcción del modelo, se representa el modelo ajustado como sigue:
μi = β0 + β1 * Talla + β2 * Tiempo, con una varianza constante (σ^2).
Se procede a definir el modelo de regresión lineal múltiple utilizando el software R.
Análisis del Modelo 2
Este modelo de regresión lineal múltiple usa “Talla” y “Tiempo de Gestación” para
predecir “Peso”. El coeficiente de determinación múltiple (R²) es 0,6279, explicando
alrededor del 62,8% de la variabilidad en “Peso”. Ambas variables tienen coeficientes de
regresión positivos y altamente significativos, indicando que un aumento en ambas se
relaciona con un aumento en “Peso”. El modelo es estadísticamente significativo, y su
representación es:
Peso = -4776.415 + 96.853 * Talla + 80.518 * Tiempo_Gestacion, con σ^2 = 303.
A continuación, el código y la Figura 3 permiten visualizar la incorporación de un plano
de regresión para visualizar cómo se ajustan los datos al modelo.
En el plano del gráfico 3D refleja el modelo de regresión múltiple ajustado, inclinándose en las direcciones positivas y altamente significativas de los coeficientes de regresión de Talla y Tiempo de Gestación. Esto ilustra el aumento del Peso de los recién nacidos con valores más altos de Talla y Tiempo de Gestación.
Modelo 3: Regresión logística
La regresión logística es un algoritmo de clasificación que estima la probabilidad de pertenecer a una clase. En el conjunto de datos actual, se busca crear un modelo para predecir el tipo de parto (cesárea o espontáneo) basado en las semanas de gestación. Para comenzar, se realizará un resumen de la distribución de valores en la variable “Tipo de Parto”.
Análisis del Modelo 3
La variable categórica “Tipo de Parto” se convierte en numérica (1 para cesárea y 0 para espontáneo). Se crea un modelo de regresión logística con “Tipo de Parto” como variable dependiente y “Tiempo de Gestación” como independiente. El resumen del modelo muestra que, a mayor tiempo de gestación, disminuye la probabilidad de cesárea (coeficiente: -0.22391). El p-valor confirma la significancia. La ecuación resultante del modelo de regresión logística es:
Con los resultados obtenidos de los modelos de regresión desarrollados en R, se
puede concluir que se alcanzó con éxito el objetivo planteado de realizar un análisis
estadístico predictivo de nacimientos vivos en Guadalajara de Buga, Colombia. El
enfoque metodológico, que abarcó desde una regresión lineal simple hasta modelos más
complejos, proporcionó una comprensión profunda de las relaciones entre las variables
clave: la longitud del feto, el tiempo de gestación, el peso al nacer y el tipo de parto. En el
Modelo 1, la regresión lineal simple reveló una correlación positiva fuerte entre la talla del
feto y su peso al nacer. La ecuación resultante permitió prever con precisión el aumento
promedio de peso por cada centímetro adicional en la talla, estableciendo un modelo
viable y práctico para la predicción de pesos neonatales.
El Modelo 2, una regresión multilínea, llevó la investigación un paso más allá al incorporar
el tiempo de gestación como predictor adicional. La visualización tridimensional
proporcionó una representación clara de cómo la combinación de la talla y el tiempo de
gestación influye en el peso de los recién nacidos.
Finalmente, el Modelo 3, basado en una regresión logística, abordó la predicción del
tipo de parto según las semanas de gestación. La significancia de la variable de tiempo
de gestación en la probabilidad de cesárea destacó la utilidad clínica de este enfoque
predictivo.
La investigación permitió demostrar relaciones importantes entre variables en nacimientos
vivos, proporcionando herramientas predictivas valiosas a través de modelos de regresión
y logísticos. Estos hallazgos pueden tener un impacto positivo significativo en la toma de
decisiones clínicas y en la planificación obstétrica, señalando resultados que tienen el
potencial de mejorar sustancialmente la atención materno-neonatal en Guadalajara de
[1] R. Sesmero, Principios de medicina: materno fetal. España, Editorial de la Universidad
de Cantabria, 2018
[2] B. Oñate, E. Morales, C. Jiménez, y P. Méndez, “Una alternativa a Stata: usando R para
estimación de Modelos de Regresión”, ACI Avances En Ciencias e Ingenierías, Vol. 11,
no 2, 2019
[3] F. Nedel, B. Morina, y M. Utzet, Introducción a la estadística para ciencias de la salud
con R-Commander. Universitat Autónoma de Barcelona, 2016
[4] A. García, Estadística aplicada avanzada con R. UNED - Universidad Nacional de
Educación a Distancia, 2022
[5] W. López, Estadística práctica para ciencias de la salud y enfermería. San Juan, Puerto
Rico: Universidad de Puerto Rico, 2021
[6] J. Pineda, “Modelos predictivos en salud basados en aprendizaje de maquina (machine
learning)”, Revista Médica Clínica Las Condes, Vol. 33, no 6, pp. 583–590, 2022
[7] J. Tapia, “Factores determinantes en el peso del recién nacido de madres adolescentes
en lima a través de la regresión logística multinomial”, 2022
[8] H. Llinás, Estadística Inferencial. Barranquilla, Colombia: Universidad del Norte, 2018
[9] M. Hernández, M. Tapia, y S. Hernández, Estadística inferencial 2: aplicaciones para
ingeniería. Ciudad de México, México: Grupo Editorial Patria, 2019
[10] C. Viedma, Estadística descriptiva e inferencial. Madrid, España: Ediciones IDT, 2018
[11] M. Díaz, Estadística inferencial aplicada. Universidad del Norte, 2019
[12] W. Proaño, Estadística descriptiva e inferencial. Universidad del Azuay, 2020
[13] L. Díaz, M. Morales, y L. León, Análisis estadístico de datos categóricos. Bogotá,
Colombia: Editorial Universidad Nacional de Colombia, 2018
[14] J. H. Ávila-Toscano, L. J. Vargas-Delgado, C. D. Jiménez-Yejas y D. J. Ortiz-Mejía,
“Statistical accessibility in articles published in scientific education journals (EuropeLatin America) included in Scimago Journal Ranking”, Eco Matemático, vol. 13, no. 1,
pp. 81-92, 2022
[15] K. Trejo, Fundamentos de metodología para la realización de trabajos de investigación.
Editorial Parmenia, Universidad La Salle México, 2021
[16] M. Pujol, y D. Liviano, Análisis cuantitativo con R: matemáticas, estadística y econometría.
Editorial UOC, 2017
[17] A. López, M. Rojas, y A. Tunja, Herramientas para el análisis estadístico de datos
biológicos en R. 1. Editorial UPTC, 2022
[18] J. Gil, Aplicaciones de R en estadística básica y textual. UNED - Universidad Nacional
de Educación a Distancia, 2020
[19] J. Freijo, El paquete estadístico R (2a. ed.). CIS - Centro de Investigaciones Sociológicas,
2013
[20] C. Tallerez, Modelos estadísticos lineales: con aplicaciones en R. Ediciones de la U,
2016
[21] M. Contento, Estadística con aplicaciones en R. Editorial Utadeo, 2019