¿CÓMO ACTUALIZAMOS ESTE ESPECIAL?

El trabajo legislativo no se limita a dialogar, negociar y votar, sino que incluye proponer la emisión de Leyes o decretos para, idealmente, mejorar la calidad de vida de los salvadoreños.

Para incluir las iniciativas de los diputados que han sido aprobadas en la actual legislatura, la Unidad de Datos de El Diario de Hoy, Focus Data, accedió a https://www.asamblea.gob.sv/eparlamento/indice-legislativo/leyes-y-decretos-por-ano, donde la Asamblea Legislativa coloca los decretos aprobados anualmente. A través de una herramienta informática se automatizó la descarga de todos los decretos y leyes aprobados, así como la información sobre cómo la Asamblea los categoriza.

Luego, a través de un algoritmo se extrajo de cada documento el apartado donde se especifica quiénes presentaron la iniciativa.

Es importante recalcar dos puntos: el primero, es que al crear las bases de datos, se excluyeron todas aquellas iniciativas que habiéndose aprobado en 2015, lo fueron antes del mes de mayo, pues corresponden a una legislatura anterior; segundo, dado que la Asamblea Legislativa no sube a su portal web la información en formatos procesables, su procesamiento automatizado induce márgenes de error, el cual es de 5% por el constante refinamiento del método de tratamiento.

Posteriormente, la información fue analizada con herramientas de inteligencia de negocios, derivando en la elaboración de notas que ponen a disposición del lector un producto que le permite informarse y entender mejor las dinámicas de la Asamblea Legislativa.

Si usted detecta alguna anomalía en la información sobre las votaciones o las iniciativas aprobadas de los diputados, le invitamos a comunicarse con nosotros al correo focusdata@eldiariodehoy.com. Esto nos permitirá revisar, verificar y corregir la información si usted encuentra un error.


¿Cómo se hizo este especial?

“Diputados Bajo la Lupa” es un proyecto desarrollado por la Unidad de Datos de El Diario de Hoy (Focus Data) con datos extraídos del portal web de la Asamblea Legislativa. Con ese fin, Focus Data, Proyecto Cero y TRACODA formularon un proyecto para extraer la información disponible en esa plataforma para sistematizarla y analizarla.

Primero, el programador de Focus Data diseñó un algoritmo de descarga y extracción automatizada de la información contenida en los dictámenes colgados en la web de la Asamblea Legislativa, como también de las votaciones de los diferentes dictámenes durante la legislatura 2015-2018.

Solo se tomaron en cuenta las votaciones por dictámenes, no las de aprobaciones de agenda. Una vez descargada la información, se delineó la estructura lógica en que se almacenaría. La información se visualizó y se analizó para, con base a ello, escribir las notas periodísticas que se publican en este portal y en elsalvador.com

¿Qué retos enfrentamos?

Gracias a la Ley de Acceso a la Información Pública, como información oficiosa, el detalle sobre quiénes y cómo votan en las plenarias y el contenido de los dictámenes votados debe estar a disposición del público.

Sin embargo, en la web de la Asamblea Legislativa dicha información está incompleta –hay votaciones sin dictamen y dictámenes sin votación- y la información que sí está, se encuentra en formato pdf, muchas veces sin OCR, y no en formatos xls (hojas de cálculo de Excel) o csv (valores separados por comas), que facilitan la recolección y el análisis de los datos. Como la información se provee en archivos PDF (no procesables), el programador formuló un algoritmo, que facilitó la extracción automática del contenido de cada pdf.

El siguiente reto era extraer la información de los dictámenes, que también están disponibles como pdf compuestos de imágenes escaneadas de los dictámenes impresos. Esto dificultó el procesamiento a través de los algoritmos programados.

En muchas ocasiones, la calidad de las imágenes era muy baja, lo que forzó a rediseñar los algoritmos y los programas para mejorar la calidad del texto extraído. Una vez creada la base de datos con la información ya mencionada, se inició su análisis e interpretación, proceso que arrojó resultados preocupantes: existía una considerable cantidad de información sin correspondencia entre ella; es decir, dictámenes de los que no se tenía registro de votación o bien, votaciones en las que no se registraba el contenido del dictamen.

Ante ello, Focus Data verificó el hallazgo manualmente en el sitio web de la Asamblea. Tras esa búsqueda, se concluye que, al momento de esta publicación, no estaba disponible la información mencionada. Igualmente, se enfrentó al reto de ofrecer a nuestros lectores una clasificación temática de lo votado, debido a que la Asamblea Legislativa no lo hace.

Con este fin, el programador diseñó un procedimiento automatizado para clasificar el texto de cada dictamen por área, lo que permite poner a disposición de nuestros usuarios un buscador temático de dictámenes. ¿Qué herramientas utilizamos? Este especial se elaboró utilizando exclusivamente software libre.

Este sirvió para analizar, procesar y presentar la información a los usuarios. Algunas de las herramientas utilizadas fueron: Python y sus respectivas librerías (Pandas, Pillow y Numpy) así como librerías para reconocimiento óptico de caracteres desarrolladas y utilizadas por Google, como Tesseract, frameworks código abierto en PHP y gestores de bases de datos libres.