您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
2022年8月1日更新 人工智能群英会 云天励飞首席科学家王孝宇做主旨报告
数据,模型,算法2022年8月1日更新 人工智能群英会 云天励飞首席科学家王孝宇做主旨报告
发布时间:2020-12-06加入收藏来源:互联网点击:
算法设计的自动化,学者陆陆续续意识到这个问题是可以做的,有专门的学术会议讨论设计这方面的新的算法,让设计可以自动化,数据迭代的自动化也需要技术的支持,同时需要系统层级的支持。
为什么要做这件事情?为什么要做AI模型生产的平台化?过去,只有科技巨头,比如谷歌、IBM、微软、苹果等等公司会去投入AI,因为他们有大量的数据需要处理,所以他们需要智能化的算法。但现在不一样了。我了解到很多房地产公司在投入AI,这代表他们也有对AI人才的需求。我们发现地产公司、物业公司等等传统行业的公司都慢慢引入AI解决实际问题。为什么会这样呢,有一句话概括得很贴切,就是AI就像电一样,是一个非常基础的能力,让你所做的事情效率高一点,它不改变行业,但是可以提升你生产的效率,所以影响是全方位的。现在慢慢地波及到房地产公司了。更不用现在这么多广泛的制造业,制造过程中有很多AI的能力去构建,如果想提高自己的国际竞争力,提高自己的生产质量、效率,就需要AI的能力去赋能生产。
但问题又来了,我们没有这么多AI人才。这种形势下AI人才薪资待遇非常高,一个高质量的AI博士工作三四年就要花三四百万、四五百万成本,但问题是很多企业一年的利润都没有这么多。从这个角度考虑,我们就做了这样一个东西YMIR自动化模型生产系统,我们先看一段VCR。
视频里面这四位研发人员,除了我自己之外,另外一位硅谷的科技公司的创始人,另外两位都是前Google的员工。
大家可以看到这是一个国际化的项目,这是我们和国际知名高校和科技公司一起联合发起的开源的、公益性的AI模型生产平台。我们邀请了多家美国科技巨头公司的首席AI官担任项目顾问,已经在GitHub上面开源。
接下来我详细介绍一下这个平台,为什么它能够去解决实际应用中的问题。
工业化模型生产主要流程,主要分成这几个部分。第一需求的定义;第二是技术方案,技术方案就是什么样的技术可以解决问题,或者用怎么样的组合的技术解决这个问题;第三开始做数据收集,用AI方法解决问题。数据收集之后进入迭代的阶段,迭代就包括数据的标注、模型的训练、数据的挖掘。
在整个迭代化的大系统里面,也有一些技术需要power,包括数据预标注技术。数据预标注就是在数据没有标注之前,打一个可能的标签,可以极大提升数据标注的速度。预训练大模型可以提高模型训练的performance。当模型performance比较高的时候,你做数据挖掘的效率就会比较高,需要标注的数据就会比较少,有效标注就会比较高。当你有了初始模型,需要高效的找数据训练模型的时候,就需要主动学习技术。主动学习就是海量的几亿、上百亿的数据里面找到你想要的数据,而不是把100亿的数据标注一遍。主动学习可以降低数据标注的成本,提高标注的效率。
这是一个简单的技术,我不做技术细节的叙述,预训练大模型在实际生产中产生了一些效率,这里讲了城市治理的例子,包括垃圾暴露、广告牌的识别、垃圾桶满溢的识别,这都是在日常城市治理中所需要的算法,我们发现加入了预训练大模型之后,再在小模型上训练模型,至少提高10个点的performance,10个百分点的performance很多时候就意味着只标注一半数据,就节省了一半的成本,实际上我们企业做事情,每一个事情都是对应成本核算的,大模型可以帮助我们减少一半的成本,它极大提升算法的泛化性能,同时加速样本收集,就是我说的数据的效率。
再看看主动学习。主动学习要解决的就是数据自动化的关键技术,以前我们都是闭着眼睛标数据,这儿有一批数据拿过来标一下,模型训练到一定程度之后,不是所有数据都对模型训练有帮助,你需要找到能提升模型精度的数据,这个技术就叫主动学习,我们主动学习的框架也把它开源了。
有了这些技术的power之后,我们打造了一套工程化的系统,就是YMIR。它能够覆盖模型生产全流程,与现有的模型生产系统不一样,在正常使用过程当中都不太能够满足真实在工业界场景迭代的需求,所以这个自动化平台就聚焦在模型的快速迭代,不是训练出一个模型这个事情就结束了,主要是解决现实场景的需求,可以一直迭代。
这是整个技术的框架,左边是一次性的过程,数据的准备、数据的标注、模型的训练,右边是迭代的过程,包括挖掘数据准备、数据挖掘、数据标注、更新训练集、模型训练。
这是我们实际正在使用一套系统实际的UI的界面,每一步都有提示,告诉你导入数据之后,要继续做训练了,训练之后做数据挖掘,数据挖掘之后做标注,然后再训练,这是一个轮回的过程。
这是我们导入数据集的界面,你点击可以选择一个数据的链接,也可以建立一个文件把数据放到我们系统里面去。导入数据之后可以可视化,看看有哪些没有标注好的,或者有数据标签有偏差的,不同的任务数据不均衡的,都可以通过可视化的方式呈现在你的面前,发掘数据里面的问题。
在这基础之上有一排按钮,有的按钮打了蓝色背景,有蓝色背景就是你现在可以执行的操作,现在执行的就是准备数据。后面我们看到数据挖掘、数据标注都没有点亮,是可以通过人机交互来看怎么做,数据准备完之后看数据挖掘,第二个按钮就会亮起来。挖掘数据是没有被标注的数据,挖掘过程是在海量的数据里面找到可以让你使用的数据,你可以标注它,标注完之后,你可以和以前有的数据合在一起,更新数据集,然后再训练。这步走完了之后又回到最初始的第一步,而且你会发现整个过程中,完全不需要算法人员,不需要写代码,甚至连软件的基本操作都不需要,通过点击按钮就完成研发过程。
研发过程中这个模型到底好不好呢?我们有一个可视化的界面,让你诊断模型到底好不好,这个功能叫模型的诊断。这个里面可以看到专业化的词汇,叫FN、FP,我不展开讲,FN实际上就是这个是一个正样本,但是没有检测到,FP就是假阳性,就是你检测到了,但是实际上不是。你的错误到底是FN产生的还是FP产生的,还是其他方式产生的,通过可视化产生的方式告诉你这个模型产生的问题,当你发现存在问题的时候,要么就把数据打回去重新标注,也有可能数据偏差出现了问题,需要更多的数据标签,通过可视化的方式就可以知道实际应用中知道模型到底还有哪些问题,以及下一步用什么方式解决它。
除了这个之外,还有一个很好的地方,就是购买了足够的算力,这一套系统可以供很多人一起开发,而不是只有一个人开发,这里面有很多project,每一个project都是算法模型的任务,你可以很多人同时进行算法研发,这些人员只要高中生毕业就可以,不需要花几百万招聘算法人员去做。
我们做了很多实验,在自己公司里面,我们做了大概6个月长期的跟踪实验,我们投入的标注人员是10个,要么是高中生,要么是职业院校毕业的学生,算法人员也有投入。为什么不能完全脱离算法人员,当你面对一个问题的时候,怎么分解成技术实现,还需要算法人员介入,同时需要给标注人员做一些简单的系统的培训,算法人员投入0.3左右,就是一天中花30%的时间做这个事,其他时间的还要做算法研发,当然还要做标志文档的审核,模型迭代情况的查看以及发现模型的问题,带着大家去做。
上一篇:2022年8月1日更新 三缸机就是香!贝纳利TNT899摩托上市:7.98万
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |