Codificación y edición digital
Modera: Carlos Nusch
Descripción: Digital semantic technologies are formidable tools for uncovering information recorded in primary sources that document cultural heritage and make it available in the form of open, shareable and interconnected data. The field of digital humanities has employed these technologies, linked open data (LOD) in particular, in various areas of humanities research and data publishing. At the Semantic Lab at Pratt Institute, we have been experimenting with the application of linked data to arts and humanities, from jazz history to artists’ archives, for over a decade, spearheading new methods and innovative tools to generate knowledge bases from textual documents, including oral histories, correspondence, directories, and more. Our intent was to demonstrate how this powerful set of principles and techniques could offer innovative ways to enhance discoverability and facilitate access to cultural resources. Along the way, we discovered that LOD could also be used to uncover previously unknown or underrepresented voices, giving visibility to communities all but erased from the historical record. While generating and sharing open and linked data is fundamental to building new modes of historical research and scholarship, making these data more inclusive is necessary to challenge canonical narratives and open up new lines of inquiry. This presentation provides an overview of the methodology, techniques and workflow that we used to expose influential, yet marginalized, figures in the jazz community—black women jazz musicians. This effort is part of a broader project entitled Linked Jazz that employs LOD technologies to create knowledge graphs from jazz history archival documents. Our ultimate goal is to share a model that can be deployed across a variety of community memory projects to lower the barrier to generating LOD and shed light on under or misrepresented voices, while bringing digitized cultural heritage collections to new audiences and communities.
Descripción: La codificación de textos ha sido, desde los albores de las humanidades digitales, una de las líneas de trabajo y teorización de esta disciplina. La transformación de los textos en datos informáticos ha constituído una de las cuestiones centrales no sólo para aquellos procedentes del campo de los estudios literarios sino también de todos los estudios humanísticos en general. Además de esta mediación, otro aspecto sobre el que se ha trabajado a nivel internacional ha sido el traer la dimensión semántica a esos datos textuales. Así, por ejemplo, la Text Encoding Initiative ha sido una de las comunidades más activas y que, desde los años ochenta, ha venido proponiendo un estándar para la codificación de cualquier tipo de textos. La TEI, empleada a nivel internacional y concebida para cualquier lengua, ha tenido un cierto uso entre los proyectos llevados a cabo en el mundo hispánico o relacionados de alguna manera con el español o lenguas afines. Desde el proyecto TTHUB, Hub de Tecnologías del Texto, proponemos una presentación que aborda diferentes cuestiones. En primer lugar, queremos insistir en la relevancia y utilidad de la codificación textual y de la comunidad TEI en particular, con algunos ejemplos específicos. En segundo lugar, ofreceremos algunos de los resultados obtenidos a través de una encuesta llevada a cabo entre los meses de enero y abril de 2022 sobre los usos de TEI en español. En tercer lugar, presentaremos a la comunidad argentina alguno de los nuevos recursos que hemos integrado en nuestra plataforma TTHub con el fin de facilitar y difundir el uso de la TEI para proyectos en español. Estas actividades forman parte del proyecto “Communicating the Text Encoding Initiative to a Multilingual User Community” financiado por la Fundación A. Mellon que tiene como objetivo comprender mejor las necesidades de la comunidad TEI hispanohablante. Por una cuestión de tiempo, la presentación estará a cargo de las investigadoras responsables del proyecto Susanna Allés Torrent y Gimena del Rio Riande.
Descripción: Este trabalho apresenta uma proposta metodológica para a edição eletrônica de textos, cujo objetivo é a inserção de uma camada de edição para identificação de palavras. A metodologia aqui apresentada, discutida por Tuy Batista e Leal (2021), foi empregada em textos da coleção documental Família Estrela Tuy (CDFET), composta por 152 textos manuscritos, produzidos entre 1920 e 2000, por 49 brasileiros (23 mulheres e 26 homens); uma das coleções que integram o Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS) (www.uefs.br/cedohs), projeto desenvolvido no âmbito do Núcleo de Estudos de Língua Portuguesa (NELP), da Universidade Estadual de Feira de Santana (UEFS). A edição eletrônica foi realizada a partir do programa computacional eDictor (PAIXÃO DE SOUSA; KPLER; FARIA, 2013), desenvolvido especialmente para o trabalho filológico e para a análise linguística automática, a fim de facilitar a edição eletrônica de textos antigos, ao fazer a mediação entre o editor e a linguagem XML. O eDictor combina um editor de XML e um etiquetador morfológico, que permite que o texto seja transcrito, editado e etiquetado (etiquetação morfossintática), possibilitando que diferentes versões de edição – diplomática, semidiplomática e modernizada (em HTML), acompanhadas pelo fac-símile –, inclusive o texto original, sejam gerados sem prejuízos à qualidade filológica, além de versões com anotação morfológica (em texto simples e XML), reunindo todas as informações em camadas editoriais sobre um mesmo arquivo (cf. PAIXÃO DE SOUSA, 2014). Ampliando a proposta metodológica de edição eletrônica adotada pelo CE-DOHS, é aplicada uma camada de edição, em um nível mais alto, que permite a inserção de outras informações e a instanciação da palavra editada. Ao utilizar esse método, não estamos mais trabalhando, necessariamente, como um conjunto de caracteres e sim como um “objeto” que está inserido no texto, seja para inserir informações de cunho sócio-histórico ou de identificação por ID de todas as pessoas presentes nos manuscritos, por exemplo. A edição eletrônica de textos, aplicada na CDFET, propõe a inclusão de recursos quando da edição, a partir da adição de uma camada de informações, de forma que permitirá a recuperação desses dados e a construção de uma rede de ligação entre as informações dos metadados e os manuscritos, sendo possível aplicar essa proposta de edição em outras coleções documentais. Além disso, ao inserir as informações nessa camada mais alta de edição, reunimos pistas que podem auxiliar na investigação acerca da comunidade linguística, da sócio-história, dos manuscritos, entre outras, oferecendo textos com controle rigoroso das informações, tornando um conjunto de documentos confiável, desde dados como escolaridade até as relações interpessoais, que podem servir como fonte de dados para demais trabalhos. Para concretizar o trabalho, utilizamos as ferramentas computacionais junto às necessidades discutidas nos campos filológico e linguístico, sob os métodos das humanidades digitais.
Descripción: En el presente trabajo se describe la propuesta de sistema de información para el proyecto Aetates Amoris, dedicado a las concepciones del amor y el vocabulario amoroso en diferentes épocas. Se detalla un modelo de metadatos basado en XML-TEI y Dublin Core Cualificado para los diferentes materiales textuales y bibliográficos que contendrá el sitio. Como una aproximación adicional al corpus de estudio se realizaron diferentes análisis estilométricos aplicando el análisis estadístico de textos literarios. Las herramientas y métodos utilizados proceden del Procesamiento de Lenguajes Naturales (PLN) y de la Inteligencia Artificial (IA), más específicamente el modelo Latent Dirichlet Allocation o LDA. Tanto las técnicas de Lectura Distante (Distant Reading) como las de Lectura Cercana (Close Reading) presentan una enorme utilidad y complementariedad a la hora de identificar ciertos patrones lingüísticos y temáticos presentes en el corpus de estudio.