Tagged

annotation

A collection of 4 posts

BasicAI 标注数据质检实现方案
qa

BasicAI 标注数据质检实现方案

BasicAI 是全球首个开源多模态训练数据平台,通过提供 AI 赋能的软件工具、数万项目提炼的本体中心和丰富的数据治理特性,来加速多模态训练数据的处理效率,进而提高 AI 工程师的建模效率。 业务背景在现今 AI 大模型流行的时代,大部分算法都是开源的,用于训练模型的标注数据的质量变得尤为重要。要想得到高质量的人工标注数据,需要对标注数据进行全方位质检,比如检查标注对象属性是否缺失、标注对象大小是否满足需求、标注对象重叠程度等。标注对象数据量非常大,一个包含 100 万个 Data 的数据集,假设每个 Data 标注出 30 个对象,那么就会产生 3000 万个对象,对于拥有成千上万数据集的 BasicAI SaaS,很容易就会达到百亿,甚至千亿级别。要对这么大的数据量进行分析,只能求助于大数据系统,然而传统的基于 Hadoop 生态的大数据系统过于复杂,不适合小团队和简单业务场景,经过调研分析,最终我们选择了 Doris 这款 OLAP

BasicAI 工作流标注绩效实现方案
performance

BasicAI 工作流标注绩效实现方案

BasicAI SaaS 的工作流标注是为了满足专业的标注团队对大量数据进行标注,既然是团队工作,那么就需要监管团队成员的工作进度和质量,也就是工作绩效管理。由于工作绩效需要细到标注对象(Object)的粒度,并且还需要按工作阶段和时间周期统计,导致计算逻辑非常复杂,并且计算量也很大。工作绩效还用于给标注人员结算工资,因此其准确性要求也很高。