摘要:Digital libraries allow not only to improve the preservation of documents and to facilitate access by users, but also to experiment with new methods; for example, it is possible to examine the statistical relationships between the contents of thousands of documents in a short time, an operation almost inaccessible to traditional methods. The key step remains that of converting from analogue support, paper or microfilm, to the digital one, including the transformation of images of the printed text into digital text: only in this way is it possible to statistically analyze those texts, an analysis that cannot be separated from the historical context of their production and from other sources. In this article, we describe in detail the process of creating a digital corpus formed by Italian newspapers published in Gorizia between 1873 and 1914. This includes digitization, editable text extraction, annotation process and statistical analysis of the resulting time series. The data thus obtained are compared with a corpus of Slovenian newspapers printed in the same city and at the same time, already digitized by the Slovene National Library. The analysis of the 47.466 pages of Italian newspapers allows us to demonstrate the type of information that can be extracted from a digital corpus, highlighting the importance of operating within a historical and comparative context. This example of multilingual digital humanism allows us to identify the statistical traces of profound cultural transitions that have taken place in a very complex geographical area and historical period, whose study cannot ignore a particular attention to cultural, technological and social transformations.
其他摘要:Le biblioteche digitali consentono non soltanto di migliorare la conservazione dei documenti e di facilitarne l’accesso da parte degli utenti, ma anche
di sperimentare nuovi metodi; ad esempio è possibile esaminare in tempi
ridotti le relazioni statistiche tra i contenuti di migliaia di documenti, operazione pressoché inaccessibile ai metodi tradizionali. Il passaggio chiave
resta quello della conversione dal supporto analogico, carta o microfilm, a
quello digitale, includendo la trasformazione delle immagini del testo stampato in testo digitale: solo così è possibile analizzare statisticamente quei
testi, analisi che del resto non può prescindere dal contesto storico della
loro produzione e da altre fonti. In questo articolo, descriviamo in dettaglio
il processo di creazione di un corpus digitale formato dai giornali italiani
pubblicati a Gorizia tra il 1873 e il 1914. Questo include la digitalizzazione,
l’estrazione del testo editabile, il processo di annotazione e l’analisi statistica
delle risultanti serie temporali. I dati così ottenuti vengono comparati con
un corpus di giornali sloveni stampati nella stessa città e nello stesso periodo, già digitalizzati dalla Biblioteca Nazionale Slovena. L’analisi delle 47.466
pagine di giornali italiani ci consente di dimostrare il tipo di informazioni
che possono essere estratte da un corpus digitale, evidenziando l’importanza di operare all’interno di un contesto storico e comparativo. Questo
esempio di umanistica digitale plurilinguistica ci consente di individuare le
tracce statistiche di profonde transizioni culturali che hanno avuto luogo in
un’area geografica e un periodo storico molto complessi, il cui studio non
può prescindere da una particolare attenzione alle trasformazioni culturali,
tecnologiche e sociali.