Published 2025-02-10
建立“Clear Data Bay“/ 清数湾 的初衷
Author:
Content
初衷:
数据驱动作为物理试验,解析推导和数值模拟之外的第四类研究范式正在重塑着科学研究的基本思路和模式。尽管数据增强与合成技术,物理/先验信息神经网络,主动/迁移学习、多保真/多任务学习等各种各样方法正在尝试着用更少的数据发挥更大的效能,但毕竟巧妇难为无米之炊!海量数据的获取,仍是一个制约数据驱动方法发挥更大效力的关键所在!
在大模型等AI技术颠覆各行各业的时代,数据同算力一样,正成为一种科学研究的重要生产要素。然而,数据的管理,目前面临着高质量数据稀缺、数据分布不均衡、数据孤岛化、且缺乏标准等挑战。建立跨机构、跨领域的数据共享平台,打破数据孤岛,已成为推动数据驱动科学研究继续向前发展的关键瓶颈之一。
基于此,“Clear Data Bay” 尝试以元数据为主要方式集成领域内的开放数据集,旨在构建一个综合、全面但是轻量化的数据字典,建立一个为工程科学研究提供数据的管理、共享、合作和交易平台,从而促进工程科学数据的高效流通与价值释放。
基本设计:
在50M以下的原始数据(Raw data),Clear Data Bay支持直接上传。如果数据文件过大,建议选择以下网盘或者网站存储原始数据,再经过Clear Data Bay发布Metadata来获取更多同行的关注。
图1 常见的原始数据汇集中心
用户指南:
1. 用户自己提交的资料,登录后在其用户中心可以自由查看,修改,删除。
网站提供与游客和用户的互动功能。采用统一的邮箱/留言框格式,登录用户自动获取邮箱,游客需要手动填写。欢迎Clear Data Bay的用户们,对网站建设多提意见