El Mayor Conjunto de Datos Científicos acerca del COVID-19

abril 1, 2020

El pasado 16 de marzo de 2020, investigadores y líderes del Instituto Allen para IA, la Iniciativa Chan Zuckerberg (CZI), el Centro de Seguridad y Tecnología Emergente (CSET) de la Universidad de Georgetown, Microsoft y la Biblioteca Nacional de Medicina (NLM) en los Institutos Nacionales de Salud publicaron el COVID-19 Open Research Dataset (CORD-19) de literatura académica sobre COVID-19, SARS-CoV-2 y el grupo Coronavirus se unieron para formar el mayor conjunto de datos cientificos acerca del COVID-19.

En respuesta a la pandemia de COVID-19, la Casa Blanca y una coalición de grupos de investigación líderes han preparado el conjunto de datos de investigación abierta COVID-19 (CORD-19). CORD-19 es un recurso de más de 45,000 artículos académicos, incluidos más de 33,000 con texto completo, sobre COVID-19, SARS-CoV-2 y coronavirus relacionados.

Este conjunto de datos de libre acceso se proporciona a la comunidad de investigación global para aplicar los avances recientes en el procesamiento del lenguaje natural y otras técnicas de IA para generar nuevas ideas en apoyo de la lucha continua contra esta enfermedad infecciosa. Hay una creciente urgencia por estos enfoques debido a la rápida aceleración en la nueva literatura sobre coronavirus, lo que dificulta que la comunidad de investigación médica se mantenga al día.

La colección fue construida a través de una colaboración única entre Microsoft, NLM, CZI y el Instituto Allen para IA, coordinada por la Universidad de Georgetown. Las herramientas de curación de literatura a escala web de Microsoft se utilizaron para identificar y reunir esfuerzos y resultados científicos mundiales, CZI proporcionó acceso a contenido previo a la publicación, NLM proporcionó acceso a contenido de literatura y el equipo de Allen AI transformó el contenido en una forma legible por máquina, preparando el corpus para su análisis y estudio.

El recurso CORD-19 está disponible en el sitio web SemanticScholar.org del Instituto Allen y continuará actualizándose a medida que se publique una nueva investigación en servicios de archivo y publicaciones revisadas por pares. Los investigadores deben enviar el texto y las herramientas de minería de datos y los conocimientos que desarrollan en respuesta a este llamado a la acción a través de la plataforma Kaggle . A través de Kaggle, una comunidad de aprendizaje automático y ciencia de datos propiedad de Google Cloud, estas herramientas estarán disponibles de forma abierta para investigadores de todo el mundo.

Datos COVID-19

COVID-19 Open Research Dataset Challenge (CORD-19)

Estamos emitiendo un llamado a la acción a los expertos mundiales en inteligencia artificial para desarrollar herramientas de minería de datos y texto que puedan ayudar a la comunidad médica a desarrollar respuestas a preguntas científicas de alta prioridad. El conjunto de datos CORD-19 representa la colección de literatura sobre coronavirus legible por máquina más extensa disponible para la minería de datos hasta la fecha. Esto permite a la comunidad de investigación de IA en todo el mundo la oportunidad de aplicar enfoques de minería de datos y texto para encontrar respuestas a las preguntas dentro de este contenido y conectar información sobre este contenido en apoyo de los esfuerzos de respuesta COVID-19 en todo el mundo. Hay una urgencia creciente para estos enfoques debido al rápido aumento en la literatura sobre coronavirus, lo que dificulta que la comunidad médica se mantenga al día.
Puede encontrar una lista de nuestras preguntas clave iniciales en la sección Tareas de este conjunto de datos. Estas cuestiones científicas clave se extraen de SCIED del NASEM (Academia Nacional de Ciencias, Ingeniería, y el Comité Permanente de la medicina sobre Enfermedades Infecciosas Emergentes y amenazas del siglo 21 Salud) temas de investigación y de la Organización Mundial de la Salud I + Plan D para COVID-19.
Muchas de estas preguntas son adecuadas para la minería de texto, y alentamos a los investigadores a desarrollar herramientas de minería de texto para proporcionar información sobre estas preguntas.
Mantenemos un resumen de las contribuciones de la comunidad . Para obtener orientación sobre cómo hacer que sus contribuciones sean útiles, mantenemos un hilo del foro con los comentarios que recibimos de las comunidades de políticas médicas y de salud.

Ingresar a Kaggle

Fuente: