45353 深入技术,关于智能驾驶的三个细节
服务热线:400-858-9000 咨询/投诉热线:18658148790
国内专业的一站式创业服务平台
深入技术,关于智能驾驶的三个细节
数科社 ·

柠溪

2023/01/30
随着AI正在逐步成为新基建的技术“底座”,助力基建迈入“智造时代”,以深度学习平台加上大模型为牵引的全行业智能化升级已拉开帷幕。
本文来自于微信公众号“数科社”(ID:sktxs0),作者:柠溪,投融界经授权发布。

轿车自动行驶在高速公路上,路上的电路为车子引导方向,一家人围坐在车内玩着多米诺骨牌……一张上个世纪的老旧插画描绘出人们对未来出行的憧憬:没有堵车,没有疲劳驾驶,能够安心享受旅程。

这是有关智能驾驶的早期写照。百年来,经过自动驾驶产业不断的推进与技术竞速,汽车从马力到算力,插画里的出行画面正在逐步被投射在现实生活中,成为当下高热度的发展趋势之一。

这一变迁背后,技术突破与服务升级,正在迭代更多智能驾驶场景。近年,由智能座舱、自动驾驶及车路协同三大核心构成的智能驾驶产业链,涵盖了包括芯片、传感器、大数据、算法、高精度地图以及智慧交通等一系列软硬件技术,迎来引来传统主机厂、造车新势力、Tier1、半导体制造商、及海内外科技龙头公司如谷歌、阿里、百度等的参与。

尤其是在诸多科技公司的投入下,智能驾驶在越来越肥沃的技术土壤里变革成长,抛开硬核难懂的技术名词不说,就大家当下比较关心的如何用智慧语音改善使用导航应用的体验,如何提升汽车自动驾驶的安全和智行能力等比较实际的场景落地问题,科技公司是如何用技术写下注脚的?

#01

语音助手越来越像真人

大家日常行驶总会用到手机导航,享受一定便利的同时也会遇到一些麻烦,比如由于手机里软件语音播报导航信息时,总是识别不出用户说的话。前段时间,笔者自驾去郊区也遇到了这样的问题,临时修改导航终点,安全起见只能把车听到路边再操作。

行业专家对此也给出了一些专业解释。百度语音首席架构师贾磊表示,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互,即在手机播放导航提示的同时,能够听清用户的指令,就像真人对话一样,可以被随时打断,对新的语音指令给予反馈。因此,想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。

不过,这一解决方案在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。而手机终端款式多,硬件参差不齐等因素叠加在一起,会导致声音信号的回声消除出现各种各样的问题。再加上手机硬件的迭代更新非常速,回声消除效果就更加难以保证了。

为解决手机场景下的回声消除问题,百度融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题:即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。

深入技术,关于智能驾驶的三个细节

针对手机便携性导致语音交互中面临的音乐、闲聊、环境噪声、内噪残余等与交互内容无关的信息干扰问题,降低语音识别难度,百度研发了基于SMLTA2的多场景统一预训练模型,一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,在业界同类技术中,准确率最高。

在全双工状态下,除了能实现免唤醒词连续对话之外,还有一个非常关键的技术突破,称之为“拒绝反应”,即让导航能够判断出哪些话是针对导航的指令、哪些话是用户在聊天。如果判断某些话并非对相应指令,它便会“拒绝反应”,安静听、不插嘴。配合语音语义一体化的置信技术,这一套方案可以降低错误响应,并且支持交互过程中的引导和澄清,让人机交互更像人与人的交流。

百度在手机端实现全双工语音交互后,下一步将用到更多产品,同时,语音产品产生的新数据也将促进更多的创新,“人工智能获得了眼睛、耳朵和无数其他感官,从而可以收集从来没有过的新数据,随后使用这些数据推动更复杂的流程自动化”。正如百度创始人、董事长兼CEO李彦宏在《人民日报》发表的《推动新一代人工智能健康发展》文章中所说,人工智能正深刻改变着人们的生产方式、生活方式、学习方式,推动人类社会迎来人机协同、跨界融合、共创分享的智能时代。

#02

让自动驾驶比人类驾驶更安全

提到一款车的智能程度,很多人首先想到的便是智能驾驶辅助和智能车联系统,也就是大家日常听到的自动驾驶。如今中国自动驾驶产业不仅在技术和应用上领先,在市场上的接受度也逐渐增高。

据市场调研机构J.D. Power发布的报告显示,中国消费者对自动驾驶技术信心指数达到了50分,远高于美国消费者的36分,说明中国消费者对自动驾驶的接受度更高。随着智慧的车和聪明的路越来越多,如何让自动驾驶比人类驾驶更安全是用户关注的一大难题。

在自动驾驶领域,传统的图像空间感知方法是将汽车上的雷达、摄像头等不同传感器采集来的数据分别进行分析运算,把各项分析结果融合到统一的空间坐标系中,去规划车辆的行驶轨迹。这个过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段会导致误差叠加,无法拼凑出道路实际情况的准确全貌,给车辆的决策规划带来困难,继而会引发出一系列安全问题。

深入技术,关于智能驾驶的三个细节

近些年来,行业中提出了BEV(Bird‘s Eye View,视觉为中心的俯视图)自动驾驶感知方案。不同于传统的方式,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加;这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。

即便如此,那些身处全球自动驾驶技术第一梯队的玩家并没有止步于BEV自动驾驶感知方案,比如百度在业内提出车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。

基于统一的BEV空间,UniBEV 车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。百度借助大数据+大模型+小型化技术闭环,在车端路侧的动静态感知任务上都取得了领先的成绩,在北京高级别自动驾驶示范区,通过对主城区路口进行智能化升级改造,自动驾驶在相关路口的问题发生频率降低80%以上。

作为国内自动驾驶的头部企业,百度一直高度重视并全面布局车路协同自动驾驶,先后参与多项相关国家标准制定,率先推出Apollo Air计划,率先开源了全球首个车路协同数据集DAIR-V2X,并持续在全球范围内推进L4共享无人车规模化测试运营。依托坚实的AI技术底座,目前,百度自动驾驶技术泛化能力进步速度超预期,落地新城市技术交付时间仅需20天。

此前,百度还发布了Apollo自动驾驶地图,强调其具有知识增强、分层多维、为自动驾驶而生的新一代地图优势。目前,百度高精地图构建自动化率已达到96%,大幅解决了应用成本高的问题。同时,为保障自动驾驶高安全性,Apollo 自动驾驶地图融合车端感知数据与多源地图,实时生成在线地图,满足自动驾驶过程中实时更新的需求,确保自动驾驶安全。此外,为提升自动驾驶舒适性,Apollo自动驾驶地图基于百度地图1200万公里的领先路网覆盖范围及海量时空数据,结合数亿司机的驾驶知识沉淀,构建全路网级别的驾驶知识图谱。学习人类司机经验,用驾驶知识图谱为自动驾驶搭建进步的阶梯。

此外,备受关注的芯片,也成为自动驾驶公司拥有自主可控技术的关键。百度方面透露,百度自研AI芯片昆仑芯2代已完成无人驾驶场景端到端性能适配,将持续夯实百度Apollo软硬一体优势。组合拳出击为中国自动驾驶行业写下最好的注脚。

#03

深度学习助力提升用户体验

上述关键技术不断持续提升的同时,深度学习框架技术也在不断取得突破。更直白的来讲,百度自动驾驶技术为了“预知未来”,需要把大量数据、以及数据之间的关联,构建为一张“超大的图”,图的规模越大,那么一张图里能表达的信息量就会更丰富。机器通过对图中各个节点的分析,找到更复杂的关系,就可以实现一定的预测。例如,交通路网上两个地点,虽然它们在物理上不相连,但通过相关性建模可以把两个具有相似交通规律的地点关联起来,从而构建更具准确性的预测。图的结构信息越丰富,相应就能越好地建模交通规律。

百度架构师胡晓光表示,百度地图很早就上线了通行时间预估功能,这个功能背后的原理,是把路网中的路口和道路组成一张“交通图”,基于这张“交通图”,机器可以对交通路网的流量进行精细建模,然后就具备了路况的预测能力。由数百亿节点和数百亿边构成的庞大图对算法和算力都提出了巨大的挑战,基于规则的图计算方法已经无法完全适用,这时图神经网络算法就发挥了关键作用,我们再通过扩大图神经网络算法的参数量,对图的特征进行更完整的表达,从而达到了模型越大效果越优的极致表现。

当然,数据规模和模型参数规模的增大,带来了计算成本更高、训练稳定性差、策略迭代周期长等一系列问题和挑战。由此,基于飞桨平台完成了图神经网络架构的全新升级,为业界带来了超大规模图学习训练技术PGLBox。

深入技术,关于智能驾驶的三个细节

PGLBox是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模。PGLBox为百度业务创新提供了广阔的空间,目前已经在智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。

技术改变生活,百度近年用技术为数字社会带来的变革和发展先机不止于这三个方面,但可以肯定的是,随着AI正在逐步成为新基建的技术“底座”,助力基建迈入“智造时代”,以深度学习平台加上大模型为牵引的全行业智能化升级已拉开帷幕,在智慧生活的星辰大海里,智能驾驶,仅仅是一个开始。

智能驾驶 AI 汽车
评论
还可输入300个字
专栏介绍
400-858-9000
免费服务热线
kefu@trjcn.com
邮箱
09:00--20:00
服务时间
18658148790
投诉电话
投融界App下载
官方微信公众号
官方微信小程序
Copyright © 2024 浙江投融界科技有限公司(www.trjcn.com) 版权所有 | ICP经营许可证:浙B2-20190547 | 浙ICP备10204252号-1 | 浙公网安备33010602000759号
地址:浙江省杭州市西湖区留下街道西溪路698号15号楼509室
浙江投融界科技有限公司trjcn.com版权所有 | 用户协议 | 隐私条款 | 用户权限
应用版本:V2.7.8 | 更新日期:2022-01-21
 安全联盟
在线客服
手机APP
微信订阅