Цифровите инструменти предлагат непрекъснато нарастващи възможности за съвместна наука, поемаща глобални предизвикателства – но твърде често ценни данни, необходими за информиране, че работата остава недостъпна за изследователите.
Данните може да са заровени в неподлежаща на търсене колекция, кодирани с идиосинкратична терминология или по начин, който не може лесно да бъде накаран да работи с други данни – или да не могат лесно да се използват, защото учените не могат да проверят подробности за самите данни, като техния произход или условия за ползване.
„Това е проблем, който всъщност е толкова стар, колкото и самата наука“, обяснява Саймън Ходсън, изпълнителен директор на Комисия по данни (CODATA) на Международния научен съвет (ISC), който работи за подобряване на наличността и използваемостта на данните.
Тези проблеми с данните могат да ограничат възможностите за изследване и да губят време и пари. Според изследване публикуван от Европейската комисия през 2018 г., изчистването на данни с лошо качество, за да станат използваеми, е определено най-отнемащата време задача за среден проект за анализ на данни и може да възлиза на 80% от общите усилия.
- Световен панаир проект, сътрудничество между CODATA и Международния научен съвет (ISC), се зае с този проблем. Проектът имаше за цел да „накара данните да работят“, като насърчи приемането на ПАНАИР (Намируеми, достъпни, оперативно съвместими, повторно използвани) принципи за данни, насърчаващи по-добро управление на данни и изследвания, подкрепени от машинно-подпомогнат анализ.
С приключването на проекта CODATA има за цел да продължи и разшири инициативата WorldFAIR+, който ще включва нови партньори и международни казуси, прилагащи на практика уроците, научени по време на двугодишния проект WorldFAIR.
Новата фаза ще бъде структурирана като „федерация“ от проекти, осигуряваща рамка за сътрудничество, където учените могат да споделят технически опит и да надграждат взаимно работата си. CODATA кани потенциални партньори да предложат казуси и да се включат.
Първоначалната работа на CODATA, която осигури основата за WorldFAIR, започна през 2017 г. с подкрепата на ISC и финансиране от Китайска асоциация за наука и технологии. Тази формираща работа включваше семинари, които доведоха до разработването на три казуси, всеки от които се фокусира върху използването на данни в конкретна област: инфекциозни болести, градско планиране и намаляване на риска от бедствия. В началните етапи на проекта CODATA също така разви ключово партньорство с Инициативата за документиране на данни (DDI).
Надграждайки тези усилия, CODATA осигури финансиране от Европейската комисия за WorldFAIR. Проектът подкрепи 11 казуси, изследващи използването на данни в широк спектър от области – включително културно наследство, наноматериали и наука за океана. Казусите обхващат 13 държави, включително Бразилия, Кения, Нова Зеландия и САЩ
Уроците, извлечени от проекта, са в основата на 11 препоръки за политика за подобряване на използването и наличността на данни за науката и доведе до развитието на Рамка за оперативна съвместимост между домейни (CDIF), чиято цел е да направи данните от различни научни области по-оперативно съвместими.
В същото време CODATA публикува нови Терминология за управление на изследователски данни, който предоставя ясни дефиниции на термините, използвани в областта; тези термини вече са публикувани като машинно четими “СПРАВЕДЛИВ речник”, и скоро ще бъде достъпен онлайн в по-лесен за четене формат.
Всеки от 11-те казуси също генерира свои собствени доклади и насоки за използване на данни, с цел да се направят препоръки, подходящи за различни области на науката.
Един от разгледаните казуси земеделско биоразнообразие, фокусирайки се върху опрашването – област, в която моделът за описание и категоризиране на данни все още се дефинира. Въз основа на данни и принос от колеги от цял свят, изследователи от половин дузина страни – Бразилия, Кения, Аржентина, САЩ, Обединеното кралство и Холандия – разработиха изчерпателно ръководство и набор от инструменти за данни, свързани с това как си взаимодействат растенията и опрашителите.
Това е изключително специфична тема, но такава, която е подходяща почти навсякъде, за учени в много различни области – които сега могат да се възползват от унифициран, стандартен начин за подход към данните, което улеснява надграждането върху работата на колегите и ускорява тяхната собствени изследвания.
„Преминаването от разнообразни подходи и изолирани инициативи към широко достъпни FAIR данни за взаимодействията между растенията и опрашването за учени и лица, вземащи решения, ще даде възможност за разработване на интегративни изследвания, които подобряват разбирането ни за биологията, поведението, екологията, фенологията и еволюцията на видовете“, пишат изследователи, работили по казуса.
В друг казус изследователите разгледаха намаляване на риска от бедствия. „Тъй като изменението на климата и увеличеното население вероятно ще увеличат тежестта и честотата на бедствията, необходимостта от надеждни данни, които да информират нашите отговори, става все по-критична“, пишат те.
Учени и национални и международни агенции, работещи върху риска от бедствия, гледат към миналото, за да оценят въздействието на възможни бъдещи събития и да разберат как да смекчат и възстановят след това. Те също черпят от данни, които се извличат постоянно от сензори на земята и от сателити, управлявани от обществени и частни източници.
Но в казуса изследователите откриха, че е трудно да получат информацията, необходима за извършване на точни оценки, тъй като голяма част от съответните данни не отговарят на принципите за FAIR данни. Често липсва жизненоважна информация – като броя на хората, ранени при бедствие, или колко бързо се е развило събитието. В други случаи националните органи използват свои собствени методи за изчисляване на ключови точки от данни, без да показват своята работа, което затруднява сравнението за другите.
Въз основа на своите задълбочени изследвания екипът от казуси направи поредица от препоръки за практики, които трябва да улеснят вземането на основани на доказателства политически решения в тази все по-неотложна област – „фундаментална стъпка към изграждането на по-безопасни, по-устойчиви общности и нации“, те пишат.
Изследователи от Международния съюз по чиста и приложна химия (IUPAC) се зае с казус, разглеждащ как данните и терминологията, свързани с химикали, могат да бъдат направени по-лесно използваеми както за хората, така и за машините.
IUPAC има повече от век опит свикване на химици, за да дефинират и стандартизират начина, по който учените в областта работят и говорят за химикали. Но тъй като дигиталните инструменти – и все повече ИИ и свързаните с тях технологии – предлагат нови начини за работа, казусът на IUPAC разгледа как тези стандарти могат да бъдат направени по-ефективни и да улеснят други учени при повторното използване на химически данни.
Един от продуктите на казуса беше „готварска книга“, отворен ресурс от насоки, които да помогнат на учените – включително студенти, учители и работещи професионалисти – да разберат как да работят с данни по химия и как да направят собствените си данни по-достъпни за другите.
Проектът също така описва амбициозен нов отворен цифров протокол, който може да свърже много различни глобални химически бази данни заедно, позволявайки на учените да намират и имат достъп до данни с една заявка – и също така да проверяват дали техните собствени данни са машинно четими.
Събирането на учените, за да говорят за данните, които произвеждат, и да се опитат да разберат как другите работят със собствените си данни, отвори очите, обяснява Ходсън.
И като определят ясни стандарти и дефиниции, учените не само помагат на настоящите изследвания, но и улесняват следващите поколения да надграждат работата си – може би по начини, които първоначалните автори може би никога не са обмисляли, добавя той.
„Нещо, което открихме в WorldFAIR, беше колко завладяващо и полезно беше просто да водим тези разговори, да съберем всички казуси в една стая и да ги накараме да говорят за своите данни и какво правят, как работи и как го описват – и в някои случаи идентифициране на връзки, които не е задължително да сме си представяли предварително“, казва той.
Снимка от Тейлър Вик on Unsplash.
Отказ от отговорност
Информацията, мненията и препоръките, представени в нашите блогове за гости, са на отделните сътрудници и не отразяват непременно ценностите и вярванията на Международния научен съвет