【极道智能数据系统】直击AI训练痛点,助力自动驾驶

智能汽车终极远景是自动驾驶和互联生态的打造,受益于近年来各国政策推进、相关技术实现突破及车企产品逐步落地,全球无人驾驶汽车正在迎来较大增长。Frost & Sullivan预测,到2030年自动驾驶(私家车)市场规模将达到600亿美元,其中2020年被认为行业快速增长的元年,L4级自动驾驶车将在相当长时间内扮演重要角色。

在自动驾驶中,车与车、车与路等对外互联的智能化车体是车辆根据路况信息做出刹车、避让、减速、转弯、超车等动作的关键。要形成如此娴熟的驾驶技术,这些车辆是如何练就的呢?

自动驾驶系统的核心要素是算法、算力和数据,其中算法是灵魂,数据和算力是基础。构建高度可扩展的数据平台和计算平台,是自动驾驶系统的首要问题。

高效的数据管理系统,MetaView

人工智能作为自动驾驶汽车的"大脑",所拥有的准确指挥能力并非与生俱来,而是靠前期的数据积累和后期的AI训练。

· 第一步:海量数据收集、存储

车上装有多种多样的传感器,如果以每天行驶6小时-8小时计算,每周会收集到高达PB级的数据。海量的图像和雷达数据在进行清洗、标记、存储后,被用于训练算法、学习道路规则、并发现车辆运行的深层神经网络中的潜在故障,然后不断地迭代循环执行上述训练步骤,直到满足自动驾驶对精度的训练需求。

面对多样化的数据来源,数据存储和数据管理也是自动驾驶训练所面临的主要挑战。高效的训练系统不仅需要高性能的分布式存储系统,还需要统一对海量数据进行特征管理、快速发现数据、构建数据集合;甚至能够对数据集的合并、拆分、过滤等进行数值填充,并行处理。数据的存储和管理效率,将直接决定一个优秀自动驾驶训练系统的成败。

极道存储系统支持海量数据的收集,传感器或雷达采集的数据可通过对象或文件的形式进入极道存储系统;同时,极道的对象存储和并行文件系统对海量小文件的读写进行了优化,提高了对象与文件的读写能力,系统性能、吞吐量明显高于同类产品。

· 第二步:数据管理支持

存储只是数据治理的第一步,传统存储解决方案或开源HDFS提供的功能大多仅限制于此。但极道MetaView在存储基础上,还提供数据管理支持,包括实时数据追踪、秒级数据检索、动态数据重组以及自动数据溯源等功能。

数据进入存储系统后,用户可通过MetaView发现新数据;同时,用户还可通过MetaView的标签功能给数据进行自定义追加,作为后续的训练数据集。

· 极道MetaView支持任意数量的键值对作为标签。

强大的策略引擎支持用户自定义编写程序,数据在进行分析或主动学习时,系统自动生成标签。训练阶段用户还可通过复杂的标签表达式、数据特征进行检索,检索结果存为数据集。不同的表达式则生成不同的训练集和验证集。在百亿规模下极道所有操作可秒级完成,MetaView提高了自动驾驶企业的数据治理能力。

异构融合架构,助力昂贵的AI训练

自动驾驶系统训练过程中,模型训练和仿真需要使用大量的异构计算资源(GPU、CPU、NPU)。极道从中不仅看到了AI算力需求的迅勐增长,也看到了用户的诸多痛点——算力昂贵。

这主要是因为用户的稀有计算资源利用率低,计算训练的并行程度不充分;相关行业和企业所面临的多样化计算框架集成和运维难度大;以及面对分布式机器学习和深度学习的参数配置难和开发效率低。

自动驾驶训练涉及到数据的多样化处理,需要根据实际情况搭建或调整不同计算处理模式的算法和模型,资源利用率制约着模型训练效率。例如,在大规模数据上训练模型,很有可能会利用Map Reduce并行的方法对数据进行预处理,剔除无效特征、常数列、标准化、归一化数据采样,再根据需求启动不同的分布式机器学习或深度学习框架。

这种包含大数据Map Reduce和各种人工智能异构框架的动态构建和融合需要对用户完全透明,相关计算过程结束后计算框架会自动销毁,资源再次被释放出来并共享给其它的计算和数据处理应用,才能够真正的打破异构计算框架带来的资源壁垒,提升资源利用率。

·极道计算数据流系统Achelous

极道采用了先进的多计算框架融合技术,在统一计算资源管理和分配的基础上,灵活地按需动态生成计算框架。在一个集群内共享硬件的前提下,动态实现了Map Reduce、高性能计算、批量计算和多种分布式机器学习、深度学习计算框架的融合共存。

同时,极道Achelous能够对稀有计算资源GPU进行高级策略调度,例如显存调度、拓扑调度等,提高异构计算集群的资源利用率。极道Achelous的智能执行引擎,利用数据流技术描述AI的训练工作流程,协助研发人员尽可能数据并行和多种模型并行,减少人为干预,提升自动化程度和训练效率。

随着应用对算力要求的变化,计算资源会根据需要及时添加到计算集群中。极道Achelous采用多级调度和分布式调度器,在形成统一调度空间的前提下能够动态扩展、均衡负载,突破大规模计算集群规模的瓶颈。截至目前。极道计算数据流系统Achelous可以预装到包含英伟达DGX和多家第三方GPU加速服务器上,为自动驾驶模型训练保驾护航。

自动驾驶领域解决方案,极道智能数据系统

极道智能数据系统的"三驾马车":计算数据流系统Achelous、分布式存储系统ANNA/ALAMO和数据管理系统MetaView相互配合,协同设计。在高自动化的自动驾驶应用领域从数据采集、数据预处理、数据处理、模型训练、模型部署到推断过程,全程一体化完整的高效运行,帮助用户有效利用资源,快速构建业务模型,将数据转化成数据资产。

· 智能动态集群

Achelous按需智能构建业务集群,动态分配环境、CPU、GPU、内存、存储等资源,降低运维成本,压缩资源配置时间,让用户更专注于自动驾驶模型训练。

· 合适的数据存储

极道分布式存储系统ALAMO/ANNA和计算数据流系统Achelous的协同设计,能够更快、更准确的感知数据特征与业务需要,帮助存储系统选择更好的缓存策略和数据一致性策略,让数据发挥更好的性能。

· 统一系统管理

所有数据相关业务系统部署在极道智能数据系统上,可集中调度AI模型训练所需的各种计算和存储资源,统一进行数据预处理、数据处理、数据集管理、模型管理、模型评估、模型部署甚至模型推荐。

· 可视化建模

Achelous基于极道智能数据系统对业务系统的集中管理,可以通过可视化界面快速构建自动驾驶AI训练模型。

· 智能业务计算

Achelous按照自动驾驶AI训练模型的需要,可以快速轻松构建分布式的深度学习和机器学习环境,利用AI数据流进行数据并行和模型并行,有效压缩研发时间,简化多框架分布式计算环境。

· 跨系统数据管理

极道数据管理系统Metaview可按照AI训练模型的需求,抽取调用多系统来源数据,充分理解数据特征,轻松动态构建数据集合,进行复杂特征管理。例如根据特征构建训练、测试集合、发现噪声样本、处理缺失值以及特征将维等,让数据集管理不再成为瓶颈。

在AI训练全量业务模式下,所有数据业务系统都可以部署在极道智能数据系统上,通过集中管理并调度资源,完成跨系统计算和数据调用,提升业务关联度以方便数据交互,为更高级自动驾驶模型AI训练提供更统一、更高效、更智能的服务。在不涉及管理业务系统的轻量业务模式下,极道为高级自动驾驶模型AI训练提供统一的资源管理,以提升AI算力的利用率,充分发挥稀有计算资源的能力。

作为智能网络的重要延伸支点,自动驾驶领域正在成为极道的又一发力点。极道智能数据系统的高度智能化计算框架动态构建和系统资源的统一调度,正不断突破计算集群规模瓶颈,为自动驾驶领域带来巨大的计算力,同样也将加速其他领域科学研究和商业创新的智能化进程。

关于极道

极道,专注于数据"存"、"管"、"算"的创新数据系统公司,由国内顶尖的存储和数据分析专家团队建立,是一家以分布式系统为核心帮助客户提升IT资源效率,提供高效智能的数据处理基础平台的数据系统公司。

极道的核心产品涵盖了分布式并行文件存储、强关联大规模实时数据管理系统,以及集群的调度系统和执行引擎,以满足企业对数据处理、分析和建模的多样化需求。极道注重自主知识产权和产品的可控性,核心软件系统均为自主研发,已拥有多项专利和软件着作权。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

图片版权归原作者所有,如有侵权请联系我们,我们立刻删除。
新化月报网报料热线:886 2395@qq.com

相关文章

你可能会喜欢

推荐阅读