Available in English

 

Seminario sobre Aplicaciones y Desarrollo de Big Data y Data Science en la Banca Central

Del 1al 3 de junio de 2021.
Videoconferencia.

 

Este seminario fue organizado conjuntamente por el CEMLA y el Banco de España y se llevó a cabo en formato virtual, del 1al 3 de junio de 2021. El objetivo principal del seminario fue el de constituir un foro de expertos con el propósito de que se presentaran algunos de los avances que en este tema se han logrado en los bancos centrales y propiciar el intercambio de experiencias e ideas entre ellos.

En los últimos años se ha venido observando con más frecuencia el uso de Big Data y de Data Science en diferentes esferas de actividades de los bancos centrales, tales como las de contabilidad, administrativa, de comunicación, económica y financiera. En estas dos últimas, su uso tiene como fin último contribuir a un mejor monitoreo de la actividad económica y financiera, con indicadores oportunos de su evolución y de alerta temprana ante posibles surgimientos de riesgos; así como de indicadores que permitan a las autoridades evaluar el impacto de sus decisiones de política en la economía y el sistema financiero.

En el seminario se contó con una presentación inicial por parte de un funcionario del FMI, quien proporcionó un marco general sobre la relevancia que ha adquirido la economía digital como generadora de enormes volúmenes de información digital. Se destacó como las diferentes plataformas de Internet se han constituido en nuevas fuentes de información con características muy relevantes en términos de cobertura, granularidad, referencia geográfica, variedad de variables, entre otras, las cuales capturan el comportamiento de consumidores, empresas, instituciones financieras y entidades gubernamentales. Se mencionaron algunos retos que enfrenta el uso del Big Data, entre los que cabe mencionar la importancia de la identificación y establecimiento de “mejores prácticas” en términos de las metodologías y técnicas estadísticas usadas, con el objeto de lograr la calidad, precisión y oportunidad requeridas de la información obtenida. Las demás presentaciones que integraron la agenda del seminario cubrieron diferentes aspectos que se agruparon en cuatro grandes temas que engloban trabajos desarrollados en varias áreas de los bancos centrales.

Aplicaciones de la ciencia de datos en la producción de estadísticas y en el control de calidad.
En la presentación del Banco de México se destacó como ha venido creciendo el uso de la información de precios en línea, tanto para la medición de los precios como para su uso en trabajos de investigación. Se analiza el comportamiento de los precios de bienes comerciados por empresas minoristas que operan tanto en tiendas físicas, como por ventas en línea. Algunos de sus resultados indican que los precios de los bienes considerados en el estudio cambian mas frecuentemente en las tiendas en comparación con sus canales en línea; para un determinado cambio de precio, la magnitud del cambio es mayor en el canal en línea, que en la tienda; estos resultados no se vieron afectados por la presencia de la pandemia COVID-19. El Banco de España presentó los resultados de dos estudios: i) utilizando La Encuesta Financiera de las Familias, presenta los resultados de un estudio cuyo objetivo es encontrar un modelo estadístico de clasificación que sea capaz de predecir si existe necesidad de re-contactar a un hogar entrevistado, para preguntar nuevamente sobre algunas partes clave de la encuesta, con el fin de evitar el descarte de cuestionarios en su totalidad, y mantener la representatividad de la muestra y la calidad de los datos finales. Los resultados preliminares apuntan a que, aplicando técnicas de machine learning, se puede encontrar una metodología robusta que sea capaz de generar un score de re-contacto, contribuyendo a un trabajo más eficiente del equipo de revisión; y, ii) Un caso de uso en la Central de Balances. El objetivo es utilizar técnicas de machine learning para la clasificación y depuración de cuestionarios; y para la realización de imputaciones de valores faltantes. Los resultados indican que si es factible diseñar algoritmos que permiten alcanzar los objetivos plateados. Así mismo, una de las lecciones adquiridas es que se debe incorporar el conocimiento de los expertos en contabilidad en el diseño de los algoritmos. El Banco Central del Uruguay presentó lo que identificó como primeros pasos y retos para la profundización en el uso de la Ciencia de Datos en las estadísticas de las cuentas nacionales en Uruguay. El trabajo que están realizando comprende la evaluación de varias fuentes de datos como la factura electrónica de la Dirección General Impositiva, Google Trends y los reportes de movilidad; la generación de datos a través de la técnica de Webscrapping; la adquisición de experiencia en el manejo y procesamiento de grandes cantidades de datos; y, el establecimiento de una infraestructura mínima y automatizada. Su objetivo último es cubrir las necesidades de información de alta frecuencia y en tiempo real para la toma de decisiones, además de cubrir los desafíos planteados por la pandemia COVID-19. El Banco Central de Chile presentó un trabajo sobre la clasificación automática de las glosas de balances de empresas. Utilizando técnicas de procesamiento de datos y algoritmos de machine learning, obtienen una clasificación automática de los gastos de las empresas en varias categorías de bienes y servicios, las cuales son usadas en la actualización de funciones de producción sectoriales. La base de datos de costos resultante está sirviendo como referencia en el proceso de evaluación de las funciones de producción que se están elaborando en el marco de la compilación de las cuentas nacionales de Chile con base 2018.

Aplicaciones de las técnicas de procesamiento de lenguaje natural.
El Banco de México presentó los resultados de un estudio que utiliza las herramientas de analítica de datos y machine learning para la generación de indicadores que permitan dar seguimiento a la evolución de la demanda laboral en México. Construyen dos indicadores: El Índice de Anuncios Impresos de Empleos, con frecuencia trimestral; y, el Índice de Anuncios Electrónicos de Empleo, con frecuencia semanal. Los resultados obtenidos muestran una tendencia decreciente en el uso de medios impresos para anuncios de trabajos disponibles, con fluctuaciones cíclicas alrededor de la tendencia. El Banco de España realizó presentaciones de tres estudios: i) Elaboración de un Indicador Diario de Sentimiento Económico Basado en Noticias (DENSI). Los indicadores de confianza son utilizados en los ejercicios de predicción de la evolución de la actividad económica. En España utilizan el Indicador de Sentimiento Económico (ESI) publicado por la Comunidad Europea en la realización de esos ejercicios. La pandemia COVID-19 afectó la efectividad del ESI, lo que originó la necesidad de disponer de indicadores precisos y de publicación más oportuna para predecir la actividad económica en el corto plazo (nowcast). Los resultados obtenidos indican que el nuevo indicador DENSI es mejor que el ESI como indicador adelantado de la actividad económica en España; ii) Aplicación de la minería de textos al análisis de la información sobre riesgo de cambio climático. El Task Force on Climate-Realted Financial Disclosure (TCFD) desarrolló una serie de recomendaciones con el objetivo de promover la divulgación de información en los estados financieros anuales de las empresas sobre los impactos potenciales del cambio climático que permita a los inversionistas evaluar los riesgos y oportunidades relacionados con el clima. En el estudio se presenta el desarrollo, mediante el uso técnicas de lectura de lenguaje natural y de machine learning, de un índice de cumplimiento de las recomendaciones del TCFD por parte de las empresas. Los resultados indican que las empresas han ido avanzando en el cumplimiento de las recomendaciones; iii) Aplicaciones de la ciencia de datos en la comunicación de los bancos centrales. En este trabajo se busca cuantificar dos aspectos de la comunicación de los bancos centrales: a) la atención prestada por el banco central a los asuntos internacionales; y, b) el alineamiento de intereses entre el banco central y el mercado. Utilizan las ruedas de prensa del Banco Central Europeo (BCE) y de la Reserva Federal de EUA (FED), distinguiendo entre la temática del resumen ejecutivo de la conferencia (banco central) y las preguntas de los periodistas (mercado). Los resultados preliminares sugieren que el BCE está más orientado hacia los temas internacionales en comparación con la FED; y, en situaciones coyunturales, los mensajes que quieren transmitir los bancos centrales coinciden con los de interés del mercado, pero en ocasiones el mercado muestra otros intereses. El Banco Central de Chile presentó los resultados preliminares de la construcción de un índice de sentimiento basado en noticias de prensa (IS-NEWS) cuyo objetivo es contar con un indicador en tiempo real que complemente la estadística “tradicional” en el análisis de la actividad económica. Utilizaron técnicas de webscraping y text mining para la elaboración del indicador. El IS-NEWS presenta altas correlaciones con los índices de confianza del consumidor y empresarial, y con los indicadores de actividad económica global (PIB) y sectoriales. Así mismo, anticipa los shocks económicos en la economía chilena en un lapso de alrededor de 3 a 4 semanas. La presentación del Banco Central de Costa Rica se centró en el uso de los microdatos en la generación de indicadores macroeconómicos. En los últimos años, en Costa Rica se han desarrollado bases de microdatos sobre diversos aspectos de algunas variables económicas. Ello ha hecho posible obtener información clasificada por sector institucional, sector de actividad, tamaño de empresa, régimen de exportación, número de trabajadores, salarios pagados, georreferenciación, entre otras características. Mediante la interrelación de las bases de microdatos ha sido posible la realización de estudios como: los efectos de unirse a las cadenas de suministro de multinacionales y la regionalización de la matriz insumo-producto costarricense, entre otros.

Desarrollo de data science en los laboratorios de datos.
El Banco Central de Chile (BCCH) realizó una presentación sobre su proceso de adopción de la plataforma Big Data. El BCCH recibe dos documentos tributarios que corresponden a las bases de registros administrativos más grandes que hayan recibido: La Factura Electrónica, la cual contiene información detallada sobre las transacciones entre todas las empresas; y, la Boleta de Venta de Bienes y Servicios, la cual permite conocer los detalles de las ventas a los consumidores finales. La información disponible abre la puerta a la compilación de nuevas y mejores estadísticas; y al fortalecimiento de la investigación. Con la finalidad de contar con las herramientas para el almacenamiento y explotación de grandes volúmenes de datos, elaboraron un programa de desarrollo e implementación en etapas a cubrirse en el período julio de 2021-tercer trimestre de 2022. El Banco de España presentó sobre el uso de herramientas software para el control de la confidencialidad y del output. Debido a las leyes nacionales sobre privacidad, no se puede divulgar microdatos que permitan la re- identificación de las personas o empresas, ya que esto implicaría la divulgación de información confidencial. El objetivo del control de divulgación estadística es minimizar el riesgo de revelación y a la vez maximizar la utilidad de la información al publicar microdatos o datos tabulares. Presentaron los resultados de su ejercicio de control de confidencialidad, en los que se destaca que los paquetes de software son fundamentales para la anonimización de conjuntos de datos. El Banco Central do Brasil presentó su proyecto S-LAB, el cual está orientado a la organización de procesos de ciencia de datos. Este proceso implicó la creación de Datalabs, la disponibilidad de las plataformas de desarrollo, la creación de un Laboratorio de Inteligencia Analítica, la disponibilidad de servidor exclusivo para aplicaciones de inteligencia analítica y un programa de capacitación a empleados.

Aplicaciones en otros ámbitos de la banca central.
El Banco de España presentó tres estudios: i) uso de la técnica de machine learning en actividades de supervisión. En particular, desarrollaron una herramienta para el tratamiento y revisión de expedientes (TyREX). Los resultados indican que, a través del uso de algoritmos, se puede automatizar la identificación de expedientes que no están cumpliendo con determinadas reglas. Si bien esta herramienta no sustituye al analista supervisor, si aumenta la productividad sirviendo de base para obtención de evidencia de incumplimiento por parte de las entidades supervisadas; ii) El objetivo era construir una herramienta que fuese útil para las previsiones del PIB en el contexto de la pandemia. Para ello, construyen indicadores de restricciones y movilidad en cada región autónoma (RA) basado en noticias de prensa.  Selecciona un conjunto de indicadores de demanda, de actividad productiva y del sector externo para cada RA, y el indicador nacional es una media ponderada de los indicadores regionales. Con estos indicadores estiman la relación entre la movilidad y la caída de la actividad económica durante la pandemia. Los resultados indican que en 2021 la movilidad explica casi perfectamente el comportamiento de la actividad económica. Así mismo, a partir de escenarios sobre la evolución de las restricciones y la movilidad, el modelo genera previsiones para el indicador de actividad, que se traducen después al PIB; y, iii) Aplicación de técnicas de aprendizaje automático a la clasificación por estado de uso de los billetes. Hay lineamientos establecidos por el Banco Central Europeo (BCE) sobre los criterios a tener en cuenta (en términos de suciedad, manchas, arrugas, rasgaduras, mutilaciones, entre otras) para considerar un billete como “Apto” o “No apto” para permanecer en circulación. Este proceso de clasificación de los billetes por estado de uso se realiza con “maquinas selectoras”. Con técnicas de machine learning, desarrollan módulos de análisis de imágenes de billetes que ayudan a comprobar que la clasificación de billetes que están haciendo las máquinas selectoras cumple con los lineamientos establecidos por BCE. Los resultados obtenidos indican que la herramienta de software desarrollada puede usarse como medio de control de la clasificación que llevan a cabo las máquinas. El objetivo del trabajo presentado por el Banco Central de la República Dominicana (BCRD) es el establecer el impacto de la incertidumbre económica, de una comunicación explícita del balance de riesgos y de las decisiones de las autoridades monetarias, sobre las expectativas de los agentes económicos. Utilizan algoritmos de text mining para llevar a cabo la construcción de una métrica inherente a la incertidumbre internacional, así como también para extraer la tónica subyacente en los comunicados de política emitidos por el BCRD. Los insumos empleados son noticias de alta frecuencia (diarias/hora) y los comunicados de política del BCRD. Los resultados obtenidos indican que el alineamiento de las comunicaciones del banco central con sus decisiones de política permite minimizar las sorpresas monetarias, facilitando el traspaso de las decisiones monetarias a los objetivos que se persiguen.

Martes, 1 de junio

Inauguración del Seminario
CEMLA - Banco de España

La economía digital y Big Data
Gabriel Quirós, Fondo Monetario Internacional

Sesión 1: Aplicaciones de la ciencia de datos en la producción de estadísticas y en el control de calidad
Modera: Diego Solorzano, Banco de México

Hechos estilizados de precios al consumidor de minoristas multicanal en México
Diego Solorzano, Banco de México

Predecir la necesidad de recontacto en encuestas financieras a hogares: un enfoque con aprendizaje automático
Nicolás Forteza, Banco de España

El papel de la Ciencia de Datos en las estadísticas de las Cuentas Nacionales. Los primeros pasos y los desafíos para su profundización en Uruguay
Fernando Barbeito Ruiz Díaz, Banco Central del Uruguay

Clasificación automática de glosas de balances de   empresas utilizando machine learning para la actualización de funciones de producción sectoriales de Chile
Joaquín Pérez, Banco Central de Chile

Técnicas de machine learning aplicadas a la imputación y control de calidad de los microdatos contables
Natividad Pérez, Banco de España

 

Miércoles, 2 de junio

Sesión 2: Aplicaciones de las técnicas de procesamiento de lenguaje natural
Modera: Alberto Urtasun, Banco de España

Índice de anuncios de empleo con base en anuncios de periódicos en línea
León Fernández, Banco de México

Un nuevo indicador de sentimiento basado en noticias de periódicos. Su uso durante la actual crisis
Matías Pacce, Banco de España

Utilización de noticias de prensa como indicador de actividades en tiempo real
Mª del Pilar Cruz Novoa, Banco Central de Chile
Hugo Peralta, Banco Central de Chile
Juan Pablo Cova, Banco Central de Chile

Aplicación de la minería de textos al análisis de la información sobre riesgo de cambio climático
Teresa Caminero, Banco de España
Ángel Iván Moreno, Banco de España

Aplicaciones de la ciencia de datos en la comunicación de los bancos centrales
Marina Diakonova, Banco de España

Uso de los microdatos para la generación de indicadores macroeconómicos
Carlos Brenes Soto, Banco Central de Costa Rica

 

Jueves, 3 de junio

Sesión 3: Desarrollos de data science en los laboratorios de datos
Modera: Manuel Ortega, Banco de España

Adopción de plataforma de Big Data en el Banco Central de Chile
Viviana Rosales, Banco Central de Chile

Herramientas software para el control de la confidencialidad y del output
Eugenia Koblents, Banco de España

Organización de procesos de ciencia de datos: Proyecto S-Lab
Marco F. Rocha Menezes, Banco Central do Brasil

Sesión 4: Aplicaciones en otros ámbitos de banca central
Modera: Lisette J. Santana, Banco Central de la República Dominicana

Tratamiento y revisión de EXpendientes (TyREX)
Bruno Coutinho, Banco de España
Pablo Yoldi, Banco de España

Incertidumbre, gestión de la política monetaria y entropía de las expectativas macroeconómicas: un enfoque basado en algoritmos de text mining y redes neuronales
Lisette J. Santana, Banco Central de la República Dominicana
Juan Quiñonez Wu, Banco Central de la República Dominicana

Relación entre las medidas de contención de la pandemia, la movilidad y la actividad económica
Samuel Hurtado, Banco de España
José Luis Herrera, Banco de España

Aplicación de técnicas de machine learning al estudio de la calidad de los billetes
Eduardo Kropnick, Banco de España

Clausura del Seminario

 

 

Ponentes

Banco de España
Nicolás Forteza
Natividad Pérez
Matías Pacce
Teresa Caminero
Ángel Iván Moreno
Marina Diakonova
Eugenia Koblents
Bruno Coutinho
Pablo Yoldi
Samuel Hurtado
José Luis Herrera
Eduardo Kropnic

Banco Central do Brasil
Marco F. Rocha Menezes

Banco Central de Chile
Joaquín Pérez
Ma. del Pilar Cruz Novoa
Hugo Peralta
Juan Pablo Cova
Viviana Rosales

Banco Central de Costa Rica
Carlos Brenes

Banco de México
Diego Solorzano
León Fernández

Banco Central de la República Dominicana
Lisette J. Santana
Juan Quiñonez Wu

Banco Central del Uruguay
Fernando Barbeito Ruiz Díaz

Fondo Monetario Internacional
Gabriel Quirós

Moderadores

Sesión 1: Diego Solorzano, Banco de México

Sesión 2: Alberto Urtasun, Banco de España

Sesión 3: Manuel Ortega, Banco de España

Sesión 4: Lisette J. Santana, Banco Central de la República Dominicana