Sobre este proyecto
E ste análisis fue realizado en R Studio utilizando un proyecto de R y documentado con R Markdown, como parte de un estudio exploratorio sobre el mercado automotriz en Alemania.
El objetivo del proyecto es predecir el precio de los vehículos en función de las variables del dataset. Para ello, se analizaron 500 registros con información clave sobre automóviles disponibles en el país. A través de visualizaciones y modelos estadísticos, se exploraron los factores que influyen en el precio, la eficiencia según el tipo de combustible y otros aspectos relevantes del sector automotriz
El dataset incluye:
✅ Marca y modelo
✅ Año de fabricación
✅ Kilometraje
✅ Tipo de combustible
✅ Consumo
✅ Tipo de transmisión
✅ Precio
Link al dataset utilizado:
Metodología
Se emplearon herramientas de análisis en R Studio, incluyendo:
- Visualización de datos: Exploración de patrones y tendencias en el dataset.
- Análisis de correlación: Evaluación de la relación entre variables numéricas.
- Regresión lineal simple: Análisis del impacto del kilometraje, año de fabricación, potencia del motor y tipo de combustible en el precio de los vehículos.
- Regresión Lasso: Identificación de las variables con mayor influencia en el precio, penalizando las menos relevantes para optimizar el modelo.
- Contraste de hipótesis: Comparación de precios según el tipo de combustible para detectar diferencias significativas.
Hallazgos principales
☑️ Alta dispersión en los datos.
☑️ Variables son en su mayoría independientes entre sí.
☑️ El tipo de transmisión en este caso particular no tiene un impacto importante en el consumo de combustible.
☑️ El tipo de transmisión en este caso particular no tiene un impacto importante en el consumo de combustible.
Este estudio puede servir como una referencia inicial para:
- Analistas de mercado: Evaluar la necesidad de datasets más completos para modelar correctamente la relación entre precio y características del vehículo.
- Empresas automotrices: Identificar qué variables adicionales podrían ser clave en la fijación de precios.
- Investigadores en ciencia de datos: Explorar mejoras en la calidad del dataset o aplicar técnicas avanzadas para obtener modelos más precisos.
Distribución de precios
✔️ Los precios de los vehículos en el dataset oscilan entre 0 y aproximadamente 100.000 euros, con concentraciones notables alrededor de los 25.000 y 75.000 euros. Esta variabilidad sugiere una alta dispersión en los datos.
Boxplot de precios por marca
✔️ En este gráfico se observa que la marca Porsche tiene una mediana similar a BMW y Mercedes, pero con una menor dispersión de precios, lo que indica que sus vehículos están más concentrados en un rango específico. BMW, Mercedes y Volkswagen presentan medianas similares, mientras que Audi y Opel tienen medianas inferiores.
Esto sugiere que BMW, Mercedes y Porsche están asociados con gamas más altas, mientras que Opel y Audi se orientan a vehículos de precios más moderados.
Análisis de Correlación
✔️En el gráfico de correlación se observa que las relaciones entre las variables numéricas del dataset son muy débiles, con valores cercanos a cero. Esto sugiere que no existe una relación lineal fuerte entre las variables analizadas.
En particular, la relación de la variable ‘Precio’ con las demás es prácticamente nula. Este resultado refuerza los hallazgos obtenidos en los modelos de regresión lineal ejecutados previamente, donde las variables no parecían ser buenos predictores del precio de los vehículos.
En consecuencia, estas variables son en su mayoría independientes entre sí.
Regresión lineal simple
Variable | Estimación | Error Estándar | t-value | p-value |
---|---|---|---|---|
(Intercept) | 304015.24 | 473669.19 | 0.64 | 0.521 |
Año | -123.17 | 235.00 | -0.52 | 0.600 |
Kilometraje | -0.01 | 0.02 | -0.65 | 0.518 |
Caballos de fuerza (HP) | -4.86 | 10.68 | -0.46 | 0.649 |
Tipo de CombustibleElectric | -3258.87 | 3719.82 | -0.88 | 0.381 |
Tipo de CombustibleHybrid | 502.48 | 3746.87 | 0.13 | 0.893 |
Tipo de CombustiblePetrol | -4510.72 | 3662.93 | -1.23 | 0.219 |
✔️ El modelo presenta un R² de 0.0074, lo que indica que menos del 1% de la variabilidad en el precio de los vehículos es explicada por las variables seleccionadas. Además, el análisis de los coeficientes muestra que ninguno resulta estadísticamente significativo. Estos resultados sugieren que las variables incluidas no son suficientes para explicar el comportamiento de los precios en este dataset.
Contraste de hipótesis
## ## Welch Two Sample t-test ## ## data: Consumo de combustible (L/100km) by Tipo de Transmision ## t = 1.4086, df = 490.42, p-value = 0.1596 ## alternative hypothesis: true difference in means between group Automatic and group Manual is not equal to 0 ## 95 percent confidence interval: ## -0.1322892 0.8022892 ## sample estimates: ## mean in group Automatic mean in group Manual ## 7.805 7.470
✔️ En este análisis se realiza un contraste de hipótesis para evaluar si existe una diferencia significativa en el consumo de combustible entre vehículos con trasmisión automática y manual.
-
-
Hipótesis nula (H0): No hay diferencia en el consumo promedio de combustible entre los vehículos con transmisión automática y manual.
-
Hipótesis alternativa (Ha): Existe una diferencia en el consumo promedio de combustible entre los vehículos con transmisión automática y manual.
-
El p-valor es 0.1596 el cual es mayor al nivel de significancia (0.05) y el intervalo de confianza incluye el valor cero (está entre -0.1323 y 0.8023.) Esto significa que no existe suficiente evidencia para rechazar la hipótesis nula.
Podemos decir entonces que el tipo de transmisión en este caso particular no tiene un impacto importante en el consumo de combustible.
Conclusión
En este trabajo se analizaron diversos factores que influyen en el precio de los automóviles en la industria alemana, utilizando técnicas estadísticas para obtener datos relevantes. Se emplearon técnicas como regresión lineal, Lasso y contraste de hipótesis para explorar el dataset. A lo largo del trabajo se observa que los resultados obtenidos no son óptimos.
Uno de los principales factores que influyó en este resultado es la naturaleza de los datos. Aunque el dataset incluía variables relevantes como la marca, el kilometraje y el año del vehículo, estas no mostraron relaciones significativas con el precio. Este hecho limitó la capacidad de los modelos para explicar o predecir el comportamiento de la variable objetivo.
Si bien, los métodos aplicados fueron apropiados, el dataset no es idóneo para poder alcanzar resultados concluyentes.
¿Querés ver los detalles por tu cuenta?
Accedé al material relacionado con este proyecto en mi OneDrive. Hacé clic en el ícono de descarga para obtener los archivos.
📌 Créditos de imágenes: FreePik