EL CORPUS DIGITENDER SOBRE SALUD DE LA MUJER PARA ESTUDIOS CONTRASTIVOS Y TERMINOLÓGICOS (PÓSTER) - ANTONIO MORENO SANDOVAL Y CHELO VARGAS-SIERRA
Presentamos en esta comunicación los detalles de compilación del corpus DIGITENDER, corpus comparable bilingüe español-ingles sobre temas de Salud de la Mujer. Este corpus es uno de los principales resultados del proyecto nacional titulado “Recursos lingüísticos multilingües abiertos con perspectiva de género para la sociedad digital”, realizado por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid y IULMA de la Universidad de Alicante. Los objetivos de compilación del corpus han sido: 1) recopilar un conjunto de textos bilingües sobre temas específicos de la Mujer; 2) distinguir entre textos especializados (escritos por profesionales de la medicina en revistas y monografías) y textos divulgativos (recogidos en blogs y páginas web para el público general); 3) buscar un equilibrio entre los textos en ambas lenguas; 4) alcanzar un número suficiente de palabras y variado de documentos en cada subtema para que fuera una muestra representativa. En la metodología se ha procedido de la siguiente manera: 1) consulta a especialistas médicos para los textos especializados; 2) exploración por internet de sitios con textos del ámbito WomenHealth. Los recursos localizados aparecen en dos formatos: impreso y digital. Con los textos impresos se ha procedido a escanearlos y pasar un OCR, mientras que los textos en formato digital se han descargado, empleando técnicas de web scraping.
Copyright © IULMA. Tots els drets reservats