图说:甲骨文多模态数据集正式发布 采访对象供图
7月5日,2024世界人工智能大会·腾讯论坛在上海世博中心举办,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。
数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯ssv数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立,吸纳了来自中国社会科学院古代史研究所、复旦大学、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。
此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。
另一方面,ai相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。
腾讯数字文化实验室负责人舒展在分享中介绍,守护中华文脉,焕活汉字源头。用人工智能助力甲骨文“破译”和活化利用,我们一直在探索,将“甲骨文ai破译”纳入探元计划支持的创新探索型项目的定向命题。联合数字甲骨共创中心发布甲骨文ai破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于ai助力甲骨文破译的科研机构形成九游会体育官网登录的解决方案。经过遴选评审的共创伙伴将获得资助,共创甲骨文ai考释破译的新算法、新工具、新方法。
近年来,腾讯持续探索数字科技与文化深度融合,运用前沿数字科技帮助文化遗产保护传承,发起并推动了ai助力甲骨文研究、三星堆文物修复、国博数字人等多个项目,用数字技术推动文化遗产焕活。
ai也在持续助力天文探索。2021年,腾讯联合国家天文台,发起了“探星计划”,基于优图实验室的计算机视觉技术,用ai 云提高探星效率,辅助快速射电暴和近密双星系统中脉冲星搜索。
快速射电暴是目前天文界研究热点,相比脉冲星,快速射电暴因发现时间晚、ai训练数据少、出现频率低,发现难度相比脉冲星要大很多。为此,优图团队通过设计全新的端到端ai算法,引入多示例学习和大模型注意力机制,显著提升了模型精度和数据处理速度。截至目前,“探星计划”从巡天观测数据中发现了3颗快速射电暴、41颗脉冲星。
新民晚报记者 杨玉红