BasicAI 是全球首个开源多模态训练数据平台,通过提供 AI 赋能的软件工具、数万项目提炼的本体中心和丰富的数据治理特性,来加速多模态训练数据的处理效率,进而提高 AI 工程师的建模效率。 业务背景在现今 AI 大模型流行的时代,大部分算法都是开源的,用于训练模型的标注数据的质量变得尤为重要。要想得到高质量的人工标注数据,需要对标注数据进行全方位质检,比如检查标注对象属性是否缺失、标注对象大小是否满足需求、标注对象重叠程度等。标注对象数据量非常大,一个包含 100 万个 Data 的数据集,假设每个 Data 标注出 30 个对象,那么就会产生 3000 万个对象,对于拥有成千上万数据集的 BasicAI SaaS,很容易就会达到百亿,甚至千亿级别。要对这么大的数据量进行分析,只能求助于大数据系统,然而传统的基于 Hadoop 生态的大数据系统过于复杂,不适合小团队和简单业务场景,经过调研分析,最终我们选择了 Doris 这款 OLAP