Jul 11, 2023 · Tecnología

Un vistazo al motor de IA que impulsa las llegadas puntuales

Uber Freight

Por: Mudit Gupta, científico de datos sénior; Mohit Gulla, científico aplicado; y Angelo Mancini, gerente de ciencias aplicadas.

¿Mi carga llegará a tiempo?

En el sector logístico, comprender cuándo una carga se retrasa es fundamental para mitigar los resultados deficientes del servicio. Con un aviso previo, Uber Freight puede colaborar con el transportista y el remitente para mitigar el impacto de una llegada tardía. Sin embargo, las llegadas tardías suelen detectarse demasiado tarde para realizar ajustes, o no se detectan hasta que la hora de la cita ya ha pasado.

En Uber Freight, nuestro sistema de rastreo está diseñado para brindar un servicio de la más alta calidad a los transportistas. Al combinar nuestros datos de rastreo internos con nuestro profundo conocimiento de la logística y nuestra experiencia en aprendizaje automático, hemos desarrollado un sistema que refina continuamente nuestros datos sobre la ubicación de las instalaciones y los utiliza para generar predicciones en tiempo real sobre llegadas tardías para nuestro equipo de operaciones.

El problema y nuestro enfoque para resolverlo

En esencia, predecir la puntualidad de un transportista a una instalación requiere tres componentes clave: (1) la ubicación de la instalación, (2) geocercas alrededor de la instalación que permitan detectar la llegada o salida de un transportista, y (3) un modelo que permita predecir retrasos en tiempo real, considerando la ubicación del transportista y la ubicación de la instalación. Como veremos en el siguiente ejemplo, si alguno de estos componentes falla, el sistema se desmorona.

Figura 1: Dos camiones que se dirigen a la misma instalación (pin verde) generan diferentes tipos de errores de seguimiento cuando el sistema tiene una ubicación de la instalación inexacta (el círculo marrón, con una geovalla de llegada de 1,5 millas y una geovalla de salida de 6 millas).

En el caso del camión verde, ninguna geocerca se activa, lo que significa que, según el sistema, el transportista nunca llegó a las instalaciones (aunque podría haber llegado a tiempo). En el caso del camión marrón, ambas geocercas se activan < mientras el transportista se dirige a las instalaciones, lo que significa que el sistema registrará incorrectamente la llegada del transportista a las instalaciones, su permanencia en ellas (dado que en realidad solo está de paso, lo que se conoce como "defecto de permanencia") y su salida a las instalaciones. Para ambos camiones, cualquier predicción de llegada tardía realizada durante el trayecto no sería fiable, ya que el modelo estaría realizando predicciones utilizando la ubicación incorrecta de las instalaciones.

Este ejemplo motiva el enfoque que adoptamos para desarrollar nuestro sistema de rastreo: perfeccionar los fundamentos (ubicación y geocercas) para construir un modelo de llegadas tardías de alta calidad. A lo largo del proyecto, aprovechamos la gran cantidad de datos históricos de carga y rastreo a nuestra disposición.

Paso 1: Sentar las bases con Project Pinpoint

Obtener datos de ubicación de las instalaciones de envío parece sencillo, ¿verdad? Al fin y al cabo, son los camiones los que se mueven, no las instalaciones. Desafortunadamente, no es tan sencillo. Al revisar los datos de ubicación de nuestras instalaciones al inicio del proyecto, descubrimos que las ubicaciones que obteníamos de las empresas de navegación GPS tradicionales eran frecuentemente incorrectas. En una muestra de 500 de las instalaciones más grandes de nuestra red, aproximadamente el 40 % tenía ubicaciones GPS incorrectas, incluyendo un 10 % de los casos en los que la ubicación de la instalación tenía una diferencia de al menos 0,3 millas (probablemente asignada al centro del código postal de la instalación). 0,3 millas puede no parecer un error considerable, pero para estas instalaciones, nuestros datos indicaron que aproximadamente el 24 % de las cargas tenían horas de llegada/salida incorrectas registradas por el sistema.

Utilizamos nuestros datos internos de rastreo GPS, que recopilamos a través de la aplicación móvil Uber Freight para miles de envíos diarios. La Figura 2 a continuación ilustra nuestro enfoque.

Figura 2: La ubicación de la instalación en el sistema (círculo rojo) es incorrecta; la ubicación correcta se puede identificar analizando la ubicación de los pings de GPS de los transportistas que visitan la instalación.

Este ejemplo deja claro que la ubicación de la instalación del sistema es incorrecta y que, en realidad, se encuentra cerca del grupo de pings en la esquina superior derecha. Sin embargo, realizar este análisis manualmente para cada instalación no es viable dada la escala de nuestra red. En su lugar, creamos un modelo de aprendizaje automático para analizar nuestros datos históricos de GPS e identificar grupos de pings asociados a las instalaciones. Para garantizar la precisión del algoritmo, añadimos comprobaciones de sentido común, como distinguir entre los pings recibidos de transportistas en movimiento y los que estaban en reposo; descartar grupos asociados con paradas de descanso, repostaje y otras ubicaciones falsas; y descartar las señales de GPS de los despachadores que no estaban en tránsito.

Después de limpiar nuestros datos históricos de ubicación de instalaciones, ahora ejecutamos el algoritmo Pinpoint de forma recurrente para asegurarnos de que las ubicaciones de nuestras instalaciones estén siempre actualizadas y de que identifiquemos las ubicaciones de las nuevas instalaciones que se unan a nuestra red lo más rápido posible.

Paso 2: Construir mejores geocercas con Project Lasso

Como comentamos en el primer ejemplo, el sistema de seguimiento automatizado de Uber Freight (y muchos sistemas de seguimiento en el sector del transporte de mercancías) utiliza geocercas para determinar la hora de llegada y salida de un transportista. Existen varios desafíos al intentar trazar geocercas eficaces:

Las geocercas demasiado grandes pueden generar eventos de llegada y salida inexactos, mientras que las geocercas demasiado pequeñas pueden pasar por alto llegadas y salidas reales.
No existe un radio ideal para una geovalla, ya que las instalaciones varían ampliamente en tamaño: algunas instalaciones son edificios pequeños o individuales, mientras que una supertienda o un importante centro de distribución podrían tener una dirección y una "ubicación" vinculadas a un complejo de edificios y un estacionamiento espacioso, ninguno de los cuales representa el muelle de carga real.
Si la instalación es compartida por varios transportistas, entonces es posible que necesitemos cambiar la ubicación de la geovalla para enfocarnos en el área de la instalación relevante para la carga que se está rastreando.

Para abordar estos desafíos, recurrimos nuevamente a nuestros datos GPS internos de alta calidad. En el Proyecto Lasso, desarrollamos un algoritmo que analiza cientos de miles de señales GPS para crear automáticamente geocercas personalizadas para nuestras instalaciones. Mientras que la geocerca estándar es un círculo con un radio de 2,4 km, hemos podido crear geocercas con radios de tan solo 0,1-0,5 km alrededor de las instalaciones o del muelle de carga dentro de ellas. Las figuras 3 y 4 a continuación muestran cómo convertimos los datos GPS en datos genéticos para diversas instalaciones.

Figura 3: (Izquierda) Pings GPS sin procesar para los transportistas que visitan las instalaciones; (Derecha) Ubicación de las instalaciones y geocerca derivada automáticamente a partir de los pings GPS.

Figura 4: Dos ubicaciones y geocercas diferentes identificadas en la misma instalación pero conectadas a diferentes transportistas.

El Proyecto Lasso ha ayudado tanto a expedidores como a transportistas a ahorrar tiempo al reducir las disputas sobre las horas de llegada y salida. También hemos observado una reducción relativa del 60 % en la proporción de cargas con algún tipo de comportamiento obviamente incorrecto, como defectos de permanencia en los que el transportista parece haber pasado menos de 15 minutos entre la llegada y la salida, y defectos de tránsito en los que el transportista parece haber viajado a más de 128 km/h de media entre dos paradas. Estas mejoras nos dan confianza en las horas de llegada y salida registradas en nuestro sistema.

Figura 5: El proyecto Lasso logró una reducción sostenida del 60 % (relativa) en las tasas de seguimiento de defectos después del lanzamiento completo.

3: Predicción de llegadas tardías con aprendizaje automático

Tras consolidar las bases de nuestro sistema corrigiendo la ubicación de las instalaciones y construyendo geocercas personalizadas, estábamos listos para afrontar nuestro reto original: proporcionar predicciones de llegadas tardías de alta calidad y en tiempo real a gran escala. Seguimos un proceso de cuatro pasos:

Utilizamos las ubicaciones de las instalaciones y las geocercas recientemente corregidas para limpiar retroactivamente nuestros datos históricos y asegurarnos de utilizar los datos más precisos posibles para construir nuestro modelo.
Luego, seleccionamos las cargas históricas de nuestros datos para asegurarnos de que solo se incluyeran aquellas cargas para las que teníamos datos de seguimiento GPS de calidad suficientemente alta disponibles, nuevamente para ayudar al modelo a aprender de los datos de la más alta calidad.
A continuación, enriquecimos los datos disponibles para el modelo; además de la posición del transportista, incluimos información como la dirección de viaje del transportista, la velocidad, el ritmo, etc., así como su desempeño histórico en puntualidad.
Finalmente, entrenamos y afinamos nuestro modelo utilizando nuestra plataforma de ciencia de datos interna, obteniendo un modelo que podía predecir el riesgo de llegada tardía a partir de seis horas antes de la recogida.

Con estas predicciones, nuestro equipo de operaciones puede centrarse en las cargas con probabilidad de retraso y tomar medidas de mitigación, como contactar al transportista para verificar su llegada, avisar al remitente para que pueda extender o reprogramar la cita, o reasignar la carga a otro transportista (también conocido como "rebotar"). Desde la implementación del modelo de probabilidad de retraso (PLA) en producción, hemos observado una mejora significativa en nuestra capacidad para identificar cargas retrasadas y detectar cargas rebotadas.

¿Qué sigue?

Consideramos el proyecto de aprendizaje automático sobre llegadas tardías que se describe aquí como el primer paso de una ambiciosa hoja de ruta para mejorar los resultados del servicio a nuestros transportistas. Trabajamos activamente en un modelo de tiempo estimado de llegada (ETA) que complemente nuestro modelo PLA. El modelado de ETA es omnipresente en el sector de consumo y comercio minorista (todos hemos usado alguna aplicación de navegación o hemos visto ETA para entregas de comida), pero la predicción de ETA para el transporte de mercancías plantea desafíos específicos. Por ejemplo, los viajes de mercancías suelen durar mucho más que los de entrega de comida o viajes compartidos, atraviesan múltiples zonas geográficas con diferentes condiciones de tráfico y clima, y se ven afectados tanto por las regulaciones sobre horarios de servicio como por el comportamiento de los transportistas (por ejemplo, parar para dormir, repostar, etc.).

Con los modelos PLA y ETA implementados, desarrollaremos flujos de trabajo automatizados de autorreparación para mejorar aún más el servicio a nuestros transportistas. Por ejemplo, podemos usar el modelo PLA para identificar cargas con riesgo de llegar tarde a la recogida, luego usar los modelos ETA y PLA para identificar qué transportistas cercanos podrían recoger la carga a tiempo y, finalmente, preguntar automáticamente a los transportistas más prometedores si pueden intervenir para evitar perder una cita. También estamos aprovechando las bases desarrolladas en el proyecto de llegadas tardías para ir más allá del seguimiento de la carga para los transportistas. Por ejemplo, utilizando los tiempos de llegada y salida mejorados generados por los Proyectos Pinpoint y Lasso, hemos generado estimaciones mucho más precisas del tiempo de espera de los transportistas en las instalaciones (tiempo de espera) y hemos combinado estas estimaciones con nuestros datos internos de calificación de transportistas para cuantificar el impacto de las instalaciones de transporte deficientes en la satisfacción del transportista y, en última instancia, en los costos para el transportista.