首页    期刊浏览 2024年12月12日 星期四
登录注册

文章基本信息

  • 标题:Análisis de metadatos de noticias para la extracción de información del código fuente. El software METADATOSHTML
  • 本地全文:下载
  • 作者:María-José Baños-Moreno ; Eduardo R. Felipe ; Juan-Antonio Pastor-Sánchez
  • 期刊名称:Information Research
  • 印刷版ISSN:1368-1613
  • 出版年度:2017
  • 卷号:22
  • 期号:1
  • 页码:1-12
  • 出版社:University of Sheffield, Department of Information Studies
  • 摘要:Los objetivos de este trabajo son determinar qué esquemas se utilizan para título, resumen, palabras clave, autoría y periódico en prensa; conocer qué pautas siguen los periódicos en la implementación de dichos esquemas; y averiguar cómo esto afecta a la extracción de información. Para ello, se define una muestra de diarios y se analiza su código fuente, identificando esquemas utilizados y patrones de uso. Esto permite extraer valores de dato utilizando la aplicación MetadadosHTML. Se han detectado esquemas estándar, ad hoc y propios de los periódicos. Se han hallado diversas prácticas, como valores agrupados en una misma línea de código o por separado; ruido en un valor y errores al referir los nombres de los atributos de esquemas estándar. Estos problemas afectan a la extracción de datos basada en esquemas de metadatos y metadatos en MetadadosHTML. Es necesario avanzar en el uso de esquemas estándar, como Dublin Core o schema.org, favoreciendo la implantación de estos (u otros) en los códigos fuente de noticias. También resulta imprescindible la adopción de buenas prácticas al explicitar datos y valores de datos. Sólo así es posible evolucionar en la interoperabilidad entre sistemas y en la recuperación y reutilización de información.
  • 关键词:information technology; newspapers; semantic web; metadata
国家哲学社会科学文献中心版权所有