El Mayor Conjunto de Datos Científicos acerca del COVID-19

El Mayor Conjunto de Datos Científicos acerca del COVID-19

El pasado 16 de marzo de 2020, investigadores y líderes del Instituto Allen para IA, la Iniciativa Chan Zuckerberg (CZI), el Centro de Seguridad y Tecnología Emergente (CSET) de la Universidad de Georgetown, Microsoft y la Biblioteca Nacional de Medicina (NLM) en los Institutos Nacionales de Salud publicaron el COVID-19 Open Research Dataset (CORD-19) de literatura académica sobre COVID-19, SARS-CoV-2 y el grupo Coronavirus se unieron para formar el mayor conjunto de datos cientificos acerca del COVID-19.

En respuesta a la pandemia de COVID-19, la Casa Blanca y una coalición de grupos de investigación líderes han preparado el conjunto de datos de investigación abierta COVID-19 (CORD-19). CORD-19 es un recurso de más de 45,000 artículos académicos, incluidos más de 33,000 con texto completo, sobre COVID-19, SARS-CoV-2 y coronavirus relacionados. 

Este conjunto de datos de libre acceso se proporciona a la comunidad de investigación global para aplicar los avances recientes en el procesamiento del lenguaje natural y otras técnicas de IA para generar nuevas ideas en apoyo de la lucha continua contra esta enfermedad infecciosa. Hay una creciente urgencia por estos enfoques debido a la rápida aceleración en la nueva literatura sobre coronavirus, lo que dificulta que la comunidad de investigación médica se mantenga al día.

La colección fue construida a través de una colaboración única entre Microsoft, NLM, CZI y el Instituto Allen para IA, coordinada por la Universidad de Georgetown. Las herramientas de curación de literatura a escala web de Microsoft se utilizaron para identificar y reunir esfuerzos y resultados científicos mundiales, CZI proporcionó acceso a contenido previo a la publicación, NLM proporcionó acceso a contenido de literatura y el equipo de Allen AI transformó el contenido en una forma legible por máquina, preparando el corpus para su análisis y estudio.

El recurso CORD-19 está disponible en el sitio web SemanticScholar.org del Instituto Allen y continuará actualizándose a medida que se publique una nueva investigación en servicios de archivo y publicaciones revisadas por pares. Los investigadores deben enviar el texto y las herramientas de minería de datos y los conocimientos que desarrollan en respuesta a este llamado a la acción a través de la plataforma Kaggle . A través de Kaggle, una comunidad de aprendizaje automático y ciencia de datos propiedad de Google Cloud, estas herramientas estarán disponibles de forma abierta para investigadores de todo el mundo.