农村道路运输许可证难办吗轿车手续全自主道由东向西行驶划分摩托无证无牌从小路由北向南行驶相撞,双方均无酒责任如何划分

开无牌电动四轮车上路 有人驾照被扣了12分
开无牌电动四轮车上路 有人驾照被扣了12分
河南商报记者高鹏
7月11日,郑州市多部门联合发布《关于进一步加强机(电)动三轮车、机(电)动四轮车管理的通告》,明确机(电)动三轮车、机(电)动四轮车属于机动车。在郑州,这些车辆无论是无证上路还是无牌上路,都将按照机动车标准执行处罚。
不过,对于这些机(电)动三轮车、机(电)动四轮车来说,它们并不符合交管部门为机动车上牌的标准。
通告一出,让拥有上述车辆的市民、电动车经销商头疼不已,车属于机动车,却无法上牌上路,该怎么办?
电动三轮车、电动四轮车
严禁在郑州城区上路
昨天,郑州交警支队各个大队十分忙碌,严查城区电动三轮车、四轮车违法行为。
河南商报记者了解到,交警四大队组织警力联合辖区公安分局、执法局成立联合执法小分队,在中州大道航海路、中州大道郑汴路、紫荆山路商城路周边路段对电动三轮车、四轮车非法拉客、违法停车、逆行、无牌无证等严重违法行为依法查处。仅12日一天,四大队已经查处电动三轮车、电动四轮车违法行为141起。
12日上午8时许,交警五大队在交警支队副支队长吴永平、五大队大队长海洲带领下,组织近20名精干警力,对花园路东风路、花园路农业路口交通秩序开展集中整治。
8时25分许,一年长男子驾驶老年代步车沿花园路由南向北行驶至路口,在红绿灯处被民警拦停。看到民警拦截,该男子起初一脸茫然,对民警的执法表示不理解。随后,在吴永平和海洲向该男子解释法律规定后,他才配合民警完成了执法。
开着电动四轮车上路
驾照被扣12分
市民李女士说,昨天上午,她的家人开着电动四轮车行至商城路与人民路交叉口时,被交警当场拦停。根据交警的说法,这辆电动四轮车属于机动车,但因没有悬挂合法车牌,属无牌照上路。
由于李女士的家人拥有驾照,其被交警扣12分,并处相应罚款。
随后,李女士将情况分别反映给了12345市长热线、车管所,得到了“车辆既无法上牌,也无法上路”的答复。
为什么李女士的电动四轮车不能上牌?河南商报记者了解到,汽车上牌必须依据国家工信部发布的车辆生产企业及产品的公告。三轮和四轮电动车产品必须在工信委机动车产品公告的范畴内,才能登记上牌。而市面上常见的接送孩子、非法营运等电动三轮、四轮车大都不符合上牌的标准。
李女士很困惑,家里买这辆车时花了将近3万元,主要是为了接送孩子上下学,并不用于非法营运。“既属于机动车,又找不到地方上牌,那我们该咋办?”
【经销商】
四轮电动车不符合上牌规范
600多辆库存压在手里
与李女士一样头疼的,还有郑州市区内的各大电动车经销商。
贾先生在郑州销售电动车超过10年,最近几年只销售电动四轮车,不过,他销售的电动车不符合上牌规范。
从今年5月份到现在,他一直睡得不好,“愁啊,愁。”在接受采访时,他每隔一会儿就自顾自地叹气。
目前,贾先生手中有600多辆四轮电动车的库存,每辆车销售价都在1万元以上。
“5月份一两天能卖出去一辆,进入7月份后,一辆都没卖出去。”贾先生说,圈内的人都知道郑州开始全面严查电动三轮车、电动四轮车了,“都在一块讨论,但是没有办法。”
贾先生说,他还没想好咋去处理这些车辆,“实在不行,就只能扔那儿了。”
持续严查“七类车”
就在昨天下午,郑州警方召开全市公安机关道路交通秩序综合治理工作会议。郑州市副市长、公安局长马义中和市公安局在郑全体班子成员,各警种各部门相关负责人悉数参会,会议的重要性不言而喻。
会上,明确提到要持续严查电动摩托车、机(电)动三轮车、观光电瓶车、老年代步车、搭棚改装三轮车、摩托车、低速货车这“七类车”。
对于郑州市民、经销商的顾虑,郑州交警支队相关负责人表示,不符合上牌标准的电动三轮车、电动四轮车上路,一律会受到严查,“其实国家规定很明确,市民在购买电动车时,可以要求经销商明确告知车辆是否属于机动车范畴,自主决定是否购买。”
一些市民也提到,交警部门是否可以给予他们一个缓冲期再进行处罚。对此,有交警大队的基层民警表示,查电动三轮车、电动四轮车违法上路,并不是从这两天才开始,“交警部门一直在查,市民应该了解情况。”
【他山之石】
规范电动四轮车
其他地区是怎么做的
山东菏泽出台关于低速电动车管理举措,以单县为代表的县市率先实施低速电动汽车上牌。同时在车牌上安装了防盗芯片,不仅可以让车主随时通过手机对车辆进行定位,在车辆进行二次买卖时,买家还能通过电子证件的二维码确认车辆来源是否合法。
允许纯电动低速汽车上路,时速50公里以内的低速电动汽车可以生产、销售、上牌、购买保险,可在除高速公路以外的道路上行驶。
交警部门简化低速电动汽车注册登记所需手续,市民携带车辆出厂合格证、购车发票、身份证明和第三者强制险保险单,就可以进行低速电动汽车注册登记、申领牌照。
低速电动汽车驾驶员需取得C3以上(含C3)驾驶证,低速电动汽车号牌、登记证书参照国标式样制作,允许低速电动汽车在二级以下(不含二级)公路上行驶,在城市道路上行驶时走机动车道。
大河网 版权所有吴甘沙:做智能驾驶其实是出于对社会问题的思考
我们做智能驾驶其实是真正出于现在对一些社会问题的思考。今天堵车的问题很严重,堵车导致了路怒、违规驾驶,又会导致交通事故;交通事故会让路更堵。
同时会造成能源浪费、废气排放。另一方面,我们停车也很困难。关于停车有三个数据,第一个数据,一辆车 96% 的时间是处于停放状态,而且它需要两个停车位,家里和办公室各一个;第二个是美国统计的,在商业中心附近的闹市区,汽车行驶里程当中的 30%~35% 是为了停车,并不是为了从A 点到 B 点 ; 第三个数据,现在很多大城市15%~30% 的土地是用来停车的。我们想象一下,为什么房价贵?这里面“军功章”也有车的一半。房价贵又会导致很多年轻人只能够居住在远离城市中心的郊区,于是有了“睡城”,有了上下班的“潮汐效应”。今天北京可能多数人一天要花 2 个半小时在路上。2 个半小时意味着什么?一个人 1/10 的生命在通勤。中国一天可能有一二十亿的小时浪费在路上,如果我们回到五六千年以前,古埃及人建造了一座吉萨大金字塔,也就花了这么多的时间,中国现在一天在路上要浪费这么多的生产力。所以我们认为,智能驾驶是解决堵车事故、排放,以及停车等等诸多问题的关键要素。
未来智能驾驶我们可以想象,车辆可能是排的整整齐齐的在路上走,它对路面的利用效率非常之高,交通事故减少 90% 以上;而且能源效率也得到提升,第一辆车把所有的风阻挡掉,其他车的能耗会非常的低。并且绝大多数车将会变成无人驾驶的出租车,它们整天在路上走,对于停车位的需求会极大的降低,即使是需要停车了,一个小小的停车位就足以停进去,而不像今天我们要预留很大的停车位,才能让这些新手停进去。
未来汽车交通工具的属性会极大的降低,商业空间的属性会提升。想象一下,在这个车里面放一台咖啡机,就变成了移动的星巴克;放一块大屏幕,它就变成了移动的电影院;放一套办公设备,它就变成了移动的写字楼。从某种意义上来说,它把每一辆车、每一条路,变成了商业的地产,所以未来 5~10 年,所有跟人或者物高度相关的产业都会被重新定义,包括出租车、停车业、写字楼、服务业、物流、金融、保险等等。
它离我们有多远呢?我们认为并不遥远,我们来看几个数据,第一,根据中国官方的智能驾驶的路线图,到 2020 年,带有驾驶辅助和半自动驾驶功能的新车销量将会达到 1 500 万台 / 年,占所有的新车销量的一半。第二,我们再看政策决策者,根据达沃斯论坛 , 以及波士顿咨询集团对于全世界一两百个城市的决策者做的调研,88% 的决策者希望智能驾驶能够在未来 10年之内得到商业化。我们成立这家公司也是希望能够在 2~3 年之内 , 实现辅助驾驶和无人驾驶的商业化,所以我们是真正从车库开始创业的。
现在我们有两套产品,一套叫做高速汽车的辅助驾驶,作为国内唯一一家能够实现 100 公里时速的高速辅助驾驶的公司,目前它在道路上已经路测了超过 2 万公里。它的亮点就是自主超车,在多数时间它是在高速的中间和右边的车道以 100 公里的时速行驶,如果前车速度太慢,它会非常敏捷地换到高速车道,完成漂亮的超车,然后再回来。另外一套产品线是无人驾驶,我们已经有多款无人驾驶的产品开始测试,其成本是诸如百度无人驾驶样车的 1/5~1/10之间,以单排两座的小车为例,非常适合最后 3 公里的出行,就是从地铁站到小区,或者小区到商业中心的距离。同样有一款车是针对园区的共享出行,两排座椅对坐,没有方向盘和刹车。
这些无人驾驶车也已经在我们的园区开始常态化测试了,可以想象这样一个典型的使用场景,我们用手机对车发出信号,设置目的地,它就可以把我们带到那个地方,使用非常简单。另外,最后3公里的小车,我们认为未来可能会成为类似摩拜单车等这样的一种轻型交通工具,它不但实现了无人驾驶,而且实现了无人维护。当它低电量的时候,会找到一个带无线充电功能的停车位,以一个非常准确的姿势停进去,然后进行充电。
完成上述所提的技术门槛是非常高的,如下图所示的这样一个软件站,非常复杂,从底层的硬件和网联的模块到系统软件,要求实时性和高可靠性,再到状态的记录和监控,到驾驶员行为的学习、人机接口,再到上面的算法层,从感知到规划、到控制,从远程监控、维护到信息系统安全,再到测试、仿真等等。
对于这样一套智能驾驶系统来说,最基本的一个功能就是感知,我们要检测那些不能撞的障碍物,以及路面的可行驶的区域。最直观的一个方案就是通过摄像头,因为摄像头非常便宜。视觉,它对于这个世界的理解主要是抽取语义模型,它会看到这两条线是车道线,这个是车,那边是行人,那边是交通标志、交通灯等等,我们希望能够把这些语义的模型抽取出来。
车道线识别从传统视觉的算法上来讲,已经比较成熟了,最早就是通过边缘检测,做视觉处理,这是最基本的功能。通过边缘检测,把很多直线当中的一些车道线能够挑选出来,这时候我们可能要用一些像Hough 变换、拟合等等这样一些方法;可能要用到人的一些知识,比如说路面的颜色是什么、天空的颜色是什么,这样会把一些噪音的直线过滤掉。当然下一步更加困难的就会是曲线的车道线识别,这时候我们就需要有一些曲线的模型。
除了车道线之外,车辆的识别是非常重要的。车辆的识别其实在计算机视觉领域也做了很久,以我为例,早在 2007 年,我的小组在做车辆识别的时候,就用的非常简单的计算机识别算法。这个算法原来是从人脸识别迁移过来的,就是用海尔特征,然后再加上AdaBoost 的这样一些训练,这样我们也能够相对比较准确地把这些车辆识别出来。那时用的是传统算法,而传统算法当中很重要的就是特征提取,特征提取好不好,决定了最终这个识别的效率。像下图这样一种汽车,特征还是比较明显的,我们看:在车底下面有一团阴影,车的尾部是一个几何的对称体,车灯是红色的,两边也是对称的,等等。
后来行人检测也慢慢进入到了产品化阶段。行人跟汽车不一样,因为行人并不是一个刚体,这时候就需要更好的一些算法。对于传统的行人检测,最简单的就是用 HOG 的特征,再加上 SVM 算法来做一些分类,而随着深度学习的出现,就出现了更多的、更好的一些方法。这里传统的视觉,就是从图像当中抽取出语义特征。
还有一种视觉,立体的视觉,它是能够抽取出来几何的模型。刚刚提到行人检测,传统上来说我们需要机器学习,但是如果说我们有双目的摄像头,则可以非常准确地把这些行人,包括旁边黄色的是一只狗,能够把它以一种点云的方式呈现出来,而且这个点云可以用色彩去表示,远处的时候可能是冷色调,靠近的时候变成暖色调。这个并没有通过算法去理解它是什么样的语义,只是用双目的立体视觉,把这样一个几何的模型抽取出来。
还有一种手段就是通过雷达,尤其是毫米波雷达,目前来说它更多的是通过多普勒效应去检测障碍物,尤其是那些运动的障碍物,所以严格来说,它的几何模型是残缺的。但是慢慢地我们发现,毫米波雷达还可以有更高级的使用场景,比如说这样一种场景(如下图所示),这是一条右拐的路,如果说车在这条右拐线上即将要右拐的时候(我们想一下这个车头是冲着斜前方的,而且往往摄像头它的视场角是比较窄的),从这个地方突然走出来行人,摄像头是看不见的,这时候雷达就变得很重要了。一个非常典型的智能驾驶车,车周围有很多的传感器,它的车头两侧有150 度角短距离的毫米波雷达,这样一种雷达去检测行人,检测上述场景中的行人是非常适合的。所以针对毫米波,把多普勒效应采集出来的数据,对它进行一些机器学习、进行分类,也是可以检测出行人的;只不过这里面的难度更高一点,而且行人并不是金属物体,对于毫米波雷达的反射可能就没那么强,这时候我们可能需要更好的算法。现在已经有公司通过相控阵雷达这样一种原理,能够更好地去了解障碍物,它就不仅仅是一个多普勒,它还加上XYZ,这样它对于环境的感知就更好。
有一种更好的传感器叫激光雷达,它是真正能够准确地把环境的几何模型建立出来的。现代意义的无人驾驶历史上最有名的一辆车,是斯坦福的车,在 2005 年获得了美国 DARPA Grand Challenge 的冠军。
我们可以看到,这辆车顶上有 5 个激光雷达,这 5 个激光雷达都来自于德国的一家叫 SICK 的公司,而且它是一线的,可以进行反复扫描,扫描这个平面上有没有障碍物。但是,我们只知道在这个平面上有障碍物是不够的,所以它用 5 个激光雷达,用 5 个不同的俯仰角扫出来 5 个平面。它扫出来一条平面是这样的,碰到旁边的灌木丛的时候进行了反射,这样它就知道那边有障碍物;然后通过 5 个平面的扫描,它就能够知道这个几何世界是什么样子的。到了 2007 年,DARPA Urban Challenge 卡耐基梅陇的这辆车拿到了冠军,而这辆车顶上出现了一个新品种的激光雷达,这个激光雷达一直到现在还是无人驾驶车主要的一种激光雷达,它有64 线。上面提到的 SICK 只是一线,它的视场角相对是有限的;而这样一个雷达能扫出来64根线的世界,且是360度在不停的旋转,每秒钟能够转 5~12 转,所以它对这个场景的感知就变得非常准确了。
到后面我们可以看到,谷歌的第一代的无人车顶上有这样的雷达,第二代的无人车上面也有,第三代还有。百度的第一代顶上也有,百度的第二代顶上依然有诸如此类的雷达。当然百度的第二代无人驾驶车,除了顶上 4 线激光雷达之外,还有三个 16线的激光雷达,这三个 16 线的激光雷达是俯向地面,使得车身周围的盲区会进一步减少。
现在存在一个问题,这个激光雷达造价是很昂贵的,目前市场价一台是 70 万元人民币,边上的两个 16 线一排差不多七八万元人民币,所以使得无人车非常昂贵。而对于驭视科技,我们的车上同样也装了雷达,装了 16 线的激光雷达,相对来说便宜一些。这样的价钱其实已经成为了无人驾驶商业化的阻碍。但是好消息是说,未来几年这么一个昂贵的问题马上就要得以解决,未来三五年像这样的激光雷达会从 75 000 美金降到 500 美金以下,甚至是现在有一家激光雷达厂商喊出来说降到 50 美金以下,这意味着它不再成为无人驾驶商业化的一个阻碍。所以我们可以看到,很多激光雷达的厂商,都在针对 2020 年会推出性价比非常高的产品,意味着我们又可以有摄像头,又可以有雷达,还可以有激光雷达。
这样会让我们去考虑,我能否把视觉跟激光雷达结合起来,进行融合,这样意味着我可以把语义和几何模型结合起来。视觉的好处是,它有色彩,且分辨率非常高,1 080 P 的摄像头就是有 1 080 根线;而激光雷达现在有 64 线,未来最多发展到 128根线,所以它的分辨率是有限的。激光雷达没有色彩,是单色的激光,至多它回来的时候有一个反射强度,这样意味着它是对纹理不敏感的;而摄像头对色彩、对纹理是非常敏感的,所以这两个东西结合起来是非常好的。
再 看 特 斯 拉, 我 们 都 知 道 特 斯 拉 的autopilot 可能是现在商业化场景当中最好的,它主要靠挡风玻璃后面的一个摄像头,加上上面的一个毫米波雷达,以及车身周围的很多超声波。这三种传感器目前看来也并不完备,在去年 5 月份,特斯拉的一辆车就出现过一起致命的车祸。一辆特斯拉的 Model S 的传感器并没有发现横着的大卡车侧面,于是高速从大卡车的车身下面钻过去,驾驶员当场身亡。
我们现在就要考虑,为什么这些传感器、摄像头、雷达等等都失效了呢?所谓超声波失效是可以理解的。超声波只有五六米的这么一个距离,它肯定是感知不到远处的大卡车。那摄像头的原因是什么,现在有多种解释。
首先特斯拉的解释是,当时这辆车是迎着晨曦在行驶。做视觉的都知道,对面是强逆光过来,摄像头的成像可能会受到影响,这个时候对它的算法会产生影响。有的时候强逆光要比微光光照不强更严重。
另外一个解释是,当时它的算法是有局限性的。我们如果说用海尔特征再加上AdaBoost,可能训练的是对车辆尾部的特征识别,但是实际的情况是,这辆大车是横在那个地方,横截面不符合这个尾部的任何特征,算法根本没有检测出来这么一辆车。所以,不论是哪种原因都展示了摄像头和视觉算法的局限。有人就会问,雷达为什么没有起作用呢?马斯克在 Twitter回答说,其实系统在很远的地方是看到了在路面上方有不少的反射点,但是这个时候它还不能做决策,雷达对静态障碍物的认定是保守的。它在高速上开的时候,它比较忌讳误刹车,高速上面突然给你来一下刹车的话,不但不舒服,而且很危险。所以它采取了一种比较保守的分类,把它分类成为了一个马路上面的交通标志牌;是希望等到靠近的时候,如果有更多的数据能够进行判断时进一步做分类。但是悲剧在于,它的毫米波雷达安装位置比较低,而这个车身的底盘很高,靠近的时候这个毫米波雷达就扫空了,从车肚子下面扫过去了,因此靠近了也没有识别出来。
所以,这是现在我们的辅助驾驶技术的一些缺陷,该如何解决呢?现在已经有几种解决方法,一种就是大数据的思维,我们来改进雷达的算法。比如说雷达返回的数据量更大,如果说雷达返回的数据量足够大,意味着我们就可以做更好的分类。第二个,我们把时间因素加上去,不仅仅是说这么一个时间点上面雷达反射回来是什么,我们把多个时间帧的数据都融合进去,进一步地把静态和动态的问题区分开来,把虚假的反射过滤出去。第三个方法,其实就更简单了,就是非常简单的大数据众包的方法。但是想象一下,如果说我有一辆特斯拉的车经过这个地方的时候,扫到前面有一排的反射点,虽然它不知道,但它可以记下来。第二辆特斯拉的车又经过这个地方的时候,如果还是扫到这些反射点,意味着它是一个永久的障碍物,可能就是马路上面的交通标志牌;如果说第二辆车经过的时候没有扫到,说明它是临时的一辆大卡车,它现在已经开走了。这个方法听起来好像很简单,但是实际的应用当中是非常有用的。
第二个改进点,就是提升信噪比。比如说,在强逆光的时候他就看不清楚,我要改进视觉的感知能力,这也算是一种大数据的思路。比如说,摄像头改成宽动态。宽动态它在强逆光、在微光下面的细节还原就变得更好,现在一些星光级的传感器,在马路灰暗的路灯下,或者汽车前灯照射这种非常微弱灯光的辅助之下,也能够看清路面情况。还有就是在摄像头里面加入动态的曝光和自动的增益。如果有动态曝光和自动增益,对于刚才那些场景也能够很好的呈现。
另一种就是多摄像头,甚至是在摄像头上面做进一步的创新。应该说,大自然创造眼睛是从寒武纪开始的,创造眼睛这么一个器官真的是巧夺天工,在这里面可以有很多学习的地方。比如像苍蝇的复眼,还有很多昆虫的复眼,它是一种非常有效的器官,很多小镜片放在一起,用非常简单的算法就能检测障碍物。以蝗虫为例,它做障碍物检测,只需要一个神经元就可以完成;它做避障,就是做控制,只需要一个神经元就可以完成,这依赖于它的复眼的结构。而老鹰厉害在什么地方?它在离地面两三千米的高空盘旋,能够看到地面上的兔子或者一条小蛇,它的眼睛的远视能力非常强。事实上,老鹰眼睛里面有两个中心凹,一个深的,一个浅的,有点像我们多个摄像头组合的一个感知设备。还有像变色龙,它是 360 度环视,现在汽车上已经装上 4 个广角组合成的 360 度环视。还有像哈士奇,它在晚上看得很清楚,两个眼睛可能有不同的颜色;在晚上,它对眼睛瞳孔的控制能力很强,其实就是光圈的控制能力很强,所以夜视能力非常好。现在像特斯拉的 Model AutoPilot 2.0,它车身周围装上了很多的摄像头——8 个摄像头,未来即使是一个方向上,它可能需要短、中、长三种不同焦距的摄像头,通过多个摄像头的配合,能够对场景有很好的感知。
当然在短期的话,一个最实用的方法就是使用双目立体摄像头,我们做三目,为什么三目呢?在我们做视觉感知的时候,未必需要彩色的传感器,这样拍出来的图像是灰度的。但是灰度有一个问题,红绿灯就变得看不清楚,所以中间放一个彩色的摄像头,两边看的比较远,视场角是比较窄的;而中间这个是广角,附近能够看得见行人、自行车,这就是多摄像头的组合。这两边两个摄像头,它看到的世界是一个几何的世界,每一种障碍物都是一团点云,像静态的栏杆也是点,动态的车也是点,而暖色代表近,冷色代表远,所以它对场景里边的这些障碍物是有很好的感知。那么如何能够通过提升传感器的能力,通过多种摄像头来获得更多的信号,我们知道,感知的过程其实就是希望有更多的信号、更少的噪声,所以这是第二种做法。
第三种做法,现在普遍使用的是通过深度学习的方法,即通过单目摄像头进行深度学习。深度学习比传统的这些视觉算法有更好的目标检测能力。不同的距离,不同的角度,哪怕有遮挡,或者是一些奇形怪状的车都是可以容忍的,现在只要标注数据足够,我们在马路上看到一些非常奇怪的车也能进行识别,甚至针对一些类似拖着树的车,只要给定数据它就能识别出来;而且它能够很轻易地从简单的检测车辆到检测行人、自行车、交通标志等等,且我们可以把多个检测网络融合在一个,在这样一个 multi-tasking 神经网络里面。这个场景比之前的场景更加复杂,因为会存在行人、自行车等情况。
上面我提到了最基本的感知,无论是摄像头的语义模型,还是激光雷达的几何模型,还是多种传感器的组合。感知到不能撞的东西和可行驶的路面,第一步是存在两条车道线绘制出来可行驶的路面;第二步就要解决地图和定位的问题,而地图本身来说就是一个空间模型。人开车靠的是什么?定位靠的是 GPS,还有靠的是我们简单的用肉眼去看交通标志,这两种对于定位的精度并不具有很高的要求,比如说GPS 是 10 米的定位误差,但我们人不会有误差问题,我们不会因为 GPS 的误差而会错过一个路口。对于智能驾驶来说这里需要强调,就是我们之前所有这些算法都叫弱人工智能,它并没有我们人大脑里面一直在运行的常识,它并不能处理模糊的信息,并不能容错,所以它要求更高的定位精度,就是 10 厘米定位精度。
今天智能的不足我们要通过大数据来解决,通过各种传感器的融合来解决。举个例子,我们首先想到的就是绝对定位。绝对定位最先想到的一个传感器叫做 GNSS RTK,GNSS 就是全球卫星定位系统,RTK使得定位精度从普通的民用 10 米到 10 厘米、1 厘米的这么一个定位精度。在我们的一个研发基地,我们在大楼的周围故意做了一些不规则的运动,可以看到,在绝大多数情况下它的定位精度是准确的,偶尔出现一个毛刺;另一边,因为障碍物就是大楼的遮挡,使得它跟卫星的通讯、跟地面基站的通讯会产生问题,所以就出现了很多毛刺。而换一个时间,在障碍物的这里边出现了大量的毛刺,意味着什么呢?意味着光靠它是不行的。这时候绝对定位不行,再加上一个相对定位,相对定位能够随时把运动的姿态记录下来。比如说,每一步都是向前走的,还是往其他角度走的,走了多远?这些能够把轨迹记录下来。绝对定位再加上相对定位就能够得到更好
的效果,而相对定位在汽车上最直观的就是一个惯性导航。惯性导航其实在我们每台手机里面都有,通过加速传感器和陀螺仪能够形成惯性,但是手机不准。往往在自动驾驶上面需要高精度的惯导,高精度的惯导非常的昂贵。现在最典型的一种高精度惯导是基于光纤陀螺,用在哪里呢?用在战斧巡航导弹上,这个导弹打出去以后,如果说GPS 信号被破坏掉,它还能够靠自身的惯导飞行一两百公里,还能够击中目标。
我们也测过,如果用这样的光纤陀螺的话,可能车开到 20 分钟,它还能够比较准确的定位,它完全是靠相对定位,能够比较准确。但是这个比较昂贵。我们现在想到另外一个计算机视觉的算法,这个计算机视觉的算法就是视觉的里程计,它是做什么呢?就是通过单目和双目去检测帧与帧之间特征点的位移来判断摄像头的位移,然后把这些位移区分起来就是行动的轨迹。当然这个东西要做得好是非常困难的。体现它好不好一个很重要的标志就是,它走一圈这个环绕不是能够闭上,如果最后环闭上,说明它的累积误差是足够的小。这个在实际的应用当中用处非常大,我们知道全宇宙最复杂的立交桥就是西直门立交桥,走西直门立交桥 GPS 经常是罢工,所以你通过这样一个视频里程计能够很好地把你的运行轨迹记录下来。
这是我们把绝对定位加上相对定位融合起来的结果,右上角是摄像头的实景,我们看到这是灰度的摄像头;左上角是我们规划出来的行驶路径,这个路径的颜色紫色是匀速、黄色是减速、绿色是加速;左下角是双目的视觉雷达,我们可以检测障碍物,而这边这条轨迹我们可以看到,就是把绝对定位加上相对定位融合出来的一条轨迹,在蓝色顶上出现了一点小的修正。所以这套系统就是比较完美的符合我们的要求。为什么说比较完美呢?其实这里面还是存在着问题,比如说在一个园子里面,GPS 的工作效果不是很好,这时候我们要靠惯导。视觉里程计其实工作的效率也不好,为什么呢?大检测出来的很多特征点是树叶,树叶是会动的,所以我们可以看到,整个车身随着行驶是偏离了真正的地图规定的这条路。我们所想到的方法是每过一段距离放置两个牌子,牌子上面是一些特定的视觉特征,我们检测出来了以后可以做一次校正,然后它就会回到主要的路线上,所以这是第三种方法进一步对数据进行纠正。但是这种方法在实际应用当中是有问题的,因为我们不可能在马路上放置很多这样的牌子,而通过一些简单的思维拓展,我们只要把现实世界中的那些交通标志牌检测出来,拿这些交通标志牌来做累计误差的校正就行了。
所以我们可以看到,在行驶的时候持续用深度学习的方法把标志牌检测出来,然后把它跟地图里面存储信息进行匹配,一旦匹配上就知道我现在到底是在什么地方。因此只要在现实世界当中,这样的交通标志牌分布足够的稠密,我每过一段时间就可以做一次校正,每过一段时间做一次校正,就能保证在 GPS 不好的状况下也能够保证很好地在路面行驶。
到目前为止似乎比较完美,而实际还存在着一些问题。我们现在看到很多道路上面,交通标志牌它的分布非常稀疏,可能每过一两公里才能够检测出来一个交通标志牌,因为毕竟这个深度学习算法是目前最完美的,它有时候还会错过一个交通标志牌,这时候怎么办呢?我们会发现在路面上也有非常明显的视觉特征,我只要把路面的这些视觉特征识别出来进行匹配,其实是有连续的绝对的视觉参考的。所以我们做的办法是,把这个路面粘贴起来。这个粘贴的方法很简单,跟我们手机拍场景图片一样,我们慢慢移动的时候可以把这个场景粘贴出来,粘贴出来以后就变成这么一条一条连贯的路面,然后在驾驶的时候,我实时看到的路面跟地图做一次匹配,这样就能够比较准确知道我在什么样的地方。这个算法本身可以做到鲁棒。
所以从绝对定位到相对定位,再加视觉参考点,从视觉参考点再到外面的交通标志牌,再到路面的视觉特征参考点,通过一系列方法,我们使得这么一个定位做的非常棒。当然,有时候在车库里面,我们可能又要寻找其他的方法,这里其实用的就是一个 Video Slam 的技术。
这些都是定位的方法,未来还有另外一个帮助,就是高精地图。地图一般是用来导航的,但它也能够帮助我们做定位,它能够使得定位更加准确。此外,它还有两个功能,第一个是它给我们提供了一些预见性,比如说我们看到这个地方,知道 500米以后要上匝道,或者它能够提前让我们知道这里面有一个坡,这时候能够使得我们的驾驶规划更好;另外一个就是提供了鲁棒性,如果我们定位不准的话,地图能够帮助纠正。
现在高精度地图有不同的种类,比如像谷歌这样的高精度地图,是基于激光雷达点云的,它是非常大的高精度地图,1 公里差不多一两个 GB 左右。还有像地图厂商做的高精度地图,它就可能不一定有点云,它只有这些已经抽象出来的几何的这样一些符号,这些几何符号已经足够帮助我们通过其他的手段进行定位了。这些几何符号的信息也是非常丰富的,想象一下,比如说路肩有多高,它也会标志出来;比如说这个交通灯是在空间的什么位置,红、黄、绿它是竖着的还是横着的,它都会为我们标出来,这样能够弥补现在我们汽车人工智能的不足。
有了这些矢量的几何表示以后,我们就可以进行匹配了。这只是显示一种匹配的做法,即把这些质量的地图重新渲染出来,变成图片,原来是矢量的,它只有一些箭头线,然后把它重新渲染出来;渲染出来变成图片以后,再进行图片之间的匹配,它就能够做的更好,这就是地图和定位的问题。
第三,对人工智能要求更高了,从感知向认知要进行跨越。认知的第一阶段,我们提到过,只要去检测那些不能撞的东西,或者检测那些该识别的东西,这个在计算机视觉里面它的说法叫做 detection by recognition,我们必须先 recognize,这样detect 出来的东西它的视觉特征在你的数据库里必须要存在的。然而这意味着就是一个边界的问题,因为数据库毕竟是有限的,万一出现了那些在我们的数据库里并不存在,但同时又不能撞的东西,很可能就识别不出来了。比如我们的车开到了印度的街上,印度的街上有牛在走,牛这个特征可能从来不在数据库里,就无法识别出来,很可能就撞上去了。所以,它需要更好地去理解这个世界,当然理解这个世界可能也是分不同的阶段。最简单的,这是特斯拉最新版的 Autopilot 里面的功能,在它的仪表盘上大家可以看到,它能够把前面的一辆车用图标显示出来,但这次它不但显示出来前边有一辆车,而且知道这是什么样的车,比如说这是一辆客车,还是一辆摩托车,还是一列载重的货车。其实自动驾驶的时候,我们要有一个策略是说离大货车远一点,所以这已经代表比刚才的第一阶段进一步了,它不仅仅是检测出来,而且能够检测出来是什么样的东西,我们是不是需要离它远一点。另外,车辆检测的下一步就会变得,我不但能够检测出来有车,而且这个车的朝向是什么样子的,它占用的三维的几何空间是怎样的,这个也能够检测出来。
再下一步就涉及到语义分割。做计算机视觉的话都知道,我不但有 classification detection、object classification detection,还有 semantic segmentation。语义分割我们知道,把整个画面所有的像素都会赋予一个颜色,这个颜色就是一个标签,代表它是一种什么样的东西,这是用一种算法叫做 segnet,也是深度学习的一种算法,它能够近乎实时地把每一帧的每个点给它分割出来,比如紫色代表的是路面、橙色代表的是车道线、深蓝色色代表车、蓝色代表人行道等等。这种分割其实就比原来的detection by recognition 更加鲁棒,因为它基本上对于这个世界场景中的每一块区域都做了一个判断。而且这个分割对车道线检测也很有用,前面的车道线检测是通过最简单的图像处理就是边缘检测来的,而这个语义分割出来的车道线可以更准确。
但是对于语义分割,如果说路面上有几辆车,它都是用同一种颜色去标识,不区分到底是哪辆车。再下一步叫做 instance segmentation,做实际分割的时候,每辆车都可以把它的边界圈出来,用不同的颜色标出,这就是从语义分割到 instance segmentation。之前的语义分割中整个路面都是用紫色标识出来的,但是有时候这是不够的,比如说双向路,双向路是不能在整个路面上行驶,只能够在这个方向上的那一半的路面上行驶,所以我们要进一步去理解这个道路的这些标识的语义,能够把真正行驶的区域标识出来。
还有在很多场景下,车道线并不清晰,或者车道线被大雪覆盖了,或者没有车道线、没有路肩,这时候深度学习就非常有用。因为它并不是明确的特征,是通过大量的概率计算出来的一个特征,它能够把这么一个没有明确的马路边界的这么一条土路也能够识别出来,而且有时候仅仅是识别出来马路的这么一个几何区域还不够。
针对另一个应用,我们知道车行驶的时候是有风噪和胎噪的,通过胎噪能够把道路的干或者湿检测出来,这时候这种信息对于我们下一步自动驾驶的规划和控制是非常有用的,所以这是第一阶段。第一阶段是说识别那些原来该识别的东西,到理解整个世界。
第二阶段,从简单的不撞,要到更加舒适的驾乘感受。什么叫做舒适的驾乘感受,举个例子。在北京的三环上行驶,上路之前在车顶上放了一枚硬币、一个打火机、一个盒子这三样东西,然后在三环上加速、减速、换道,行驶多公里再下来,如果这三样东西还是稳稳地放在那边,就满足舒适的标准。这意味着我们在做规划的时候,它是一个多目标的优化,不仅仅安全性是一个目标,舒适型也是一个目标。
这里面就需要很多的能力,第一个就是对道路更加精细的感知,尤其是路面上可能有一些东西能否检测出来。比如,路面上有一块石板,还有一个球从前面滚过去,这个对于我们是不是能够做到安全和舒适的驾驶非常重要,所以我们利用双目摄像头,要把这块石板和这个球检测出来。
另外一个,就是从确定经验到自学习。如何理解呢?今天我们的自动驾驶系统,前面感知这部分是用深度学习的,但到后面规划和控制,它其实还是基于一套经验专家系统。经验专家系统说的比较通俗一点是什么意思?就是基于规则、基于查表的这样一套系统,就是一个确定的经验,它是不能学习的,这部分是前面已经学好了的,放到这个车里面就固定了。但是近期研制出了一套系统,叫做端到端的深度学习。又该怎么理解呢?之前我们是每一步做一件事情,比如说深度学习先把事件的模型建立出来,然后再通过专家系统做规划和决策,最后变成控制能力。而端到端的深度学习完全不一样了,它直接视频进去,控制命令出来,中间的步骤全部省掉,这是深度学习的一个优势,它能够实现端到端。但是,它里面真正有意义的地方就是自学习,它能够在开的过程当中不断去学习这个人的驾驶行为。
这种方法本身也并不新,我们可以看到 2005 年深度学习的一个大师叫做 Yann Lecun,他写了一篇论文,用端到端的学习去做避障。最近像 Nvidia,就真正地用卷积神经网络实现了一套端到端学习的一个方法。它用三个摄像头作为数据的输入,同时方向盘的转动作为另外一个数据的输入。它把这两个作为输入来训练这个深度学习卷积神经网络的模型,最后就出来一套这个系统,现在已经工作的非常不错。这是一套思路,就是通过卷积神经网络这样的一套系统,端到端做深度学习。
还有一套系统,就是基于强化学习了。现在强化学习在决策当中使用的越来越多,强化学习包括哪些东西呢?最后要学习出来一个驾驶的策略,这里面包括了环境的一些数据,还包括一个 cost function。在真正的自动驾驶当中,它的环境包括了如距离前车的距离、马路两边的距离等等这些数据。而 cost 包括了一些奖励和惩罚,如我们在单位时间里面开的里程多就给予奖励,就是单位时间里我们开了更多的距离就给我们奖励;如果我们压上了路肩或者撞上了其他的车就给我们扣分,通过这样的方法不断的学习,学出来更优的一个网络。强化学习我们知道是不需要标注数据的,它事实上现在被认为就是未来做自动驾驶决策当中更好的一种手段。我这里边加上一个深度——深度强化学习,可以不接受简单的这些参数,我刚才说这些参数是事先要算出来,跟其他车的距离或者是跟两边马路的距离、速度等等,而深度强化学习的一种典型形态直接送图片进去就可以,通过深度的强化学习,它能够直接地帮我们把这个策略学习出来。
还有一种做法,就是这里面加上一个驾驶风格的学习,就是希望驾驶员开了一个月以后,能够学到他的驾驶风格。这里面很有意思,并不是说最终我直接就是能够通过强化学习法将驾驶的策略学出来,而是说,我根据我现在开的这个行为反推出来他的驾驶风格,这个驾驶风格其实就是这么一个 cost function。所以,这里边用到了一种方法大家可以去注意一下,叫 做 inverse reinforcement Learning、 反过来的 reinforcement Learning。标准的reinforcement Learning 是,我从这边的已经知道的 cost function 能够学出来一个具体的驾驶行为,而反过程是指我有这个驾驶行为我能不能学出来这个 cost function,所以这也是一个比较有趣的场景。
关于端到端的学习做一个总结,首先它有优点,非常简单,不学习先验的知识,而且它训练出来的东西,虽然说不清、道不明,但是跟我们人开车的车感比较相同。因为,我们人开车的时候并不会去目测离前车道有多远,只是一种感觉,所以这是它的优点。但是缺点也有很多,第一,它需要学习大量的高质量的训练样本,如果它的样本不够,训练出来的模型 Demo 可以,但是没办法去处理开放环境下各种不确定情况。想一想,传统的方式每个阶段有多种传感器,做相互的交叉验证,每个阶段都可以把错误率限制在某一个阈值底下。但是端到端的深度学习,首先只有摄像头;其次,中间这些东西都不存在,变成了一个黑盒子。黑盒子缺乏可解释性,缺乏可解释性它的应用就会受到限制,而且它不太灵活。它只是在这辆车上学出来让我这样去控制,但是我换一辆车,它车身底层的动力学特性就不一样,底盘的这些标定的参数不一样,就会出现问题——我开一辆小车跟开一辆大货车肯定是不一样的——所以它换一辆车就必须重新学习。而且它学不到一些隐性的知识。其实我们人在开车的时候有大量的隐性知识,比如说,我今天停车停在离这辆车远一点,为什么呢?可能是因为这辆车是一个豪车,我不想碰到它;明天我离它远一点,可能是因为这个停车位地面上有水洼,而这些语境知识很难能端到端的学习学出来。
第三,我们开个玩笑叫“从咏春木人桩到少林 18 铜人”。什么意思呢?叶问在练咏春拳的时候是跟一个静态的木人桩练,但是真正自动驾驶在开的时候,道路上可能有十几个如狼似虎的人类在驾驶,而且他们开车可能有的激进、有的拘束,这时候我们就像闯少林 18 铜人一样,需要动态地去判断态势,去评估每一个人或者是道路上的物体的动静,预测他的行为,合理地获得路权。比如最简单的就是对物的判断,如果从前车上掉下来一个桶,那么我们到底怎么去做,是紧急制动,还是赶紧转到另外一条车道上,这时候我们人是有判断的。如果它是很轻的桶,我就轻轻地制动一下就行了,撞上也无所谓;如果是一个很重的东西,比如像一个洗衣机摔了下来,我们这时候肯定得进行制动,所以这时候这种判断就非常重要,现在也有用循环神经网络来推理这样的动态物体的特性。
我们刚才说要预测每一个个体或者群体的行为,这里面他们的行为是有高度不确定性的,这时候可能我们要从监督学习往强化学习的方向走。因为,监督学习学出来的东西是一个判断,它对环境是没有影响的,而强化学习学出来的东西是对环境有长期影响的,所以这时候需要强化学习,或者是像马尔可夫决策过程,或者是循环神经网络,等等。
这里举一个例子。一辆最简单的车在很多行人的环境里面行驶,最简单的一种做法,就是看见有人在动我就刹车,这样车就一顿一顿的,如果说我能够对环境里面每个行人的运行轨迹进行建模,比如说去预测他的行动轨迹怎么样,他这个轨迹跟我前行的轨迹是不是相交,如果不相交我就不用去刹车了。这里就用到了一个 POMDP这样一个算法,其实就是一个马尔可夫决策过程。当然更复杂的情况下,我们发现马尔可夫决策过程也不够用,因为马尔可夫决策过程很简单,下一个状态就取决于当前的状态和行为。但是真正上路的时候,每个驾驶者都是不可预测的,这时候我们需要强化学习这样的方法。比如像这样一个场景里面,一辆车要并到一个环岛里面,它就要选择最合适的时机去并线。该如何选择呢?它就是要去判断,这辆车开车开比较猛,那辆车开车开的比较拘束的。怎么判断?一点点往前挪,看司机是加速,还是会减速。这就是一个不可预测的过程。
其实从本质上来说,开车跟 AlphaGo很相似。AlphaGo它看到盘面上的各种棋子,来决定下一步该怎么走,最后的赢面有多大。其实他通过两个网络,一个叫 Policy Network,另外一个叫 Value Network,去判断下一步该怎么下。真正的一个开车过程也是非常类似的,AlphaGo 用的方法很早就存在了,比如说上世纪 80 年代reinforcement Learning 已经开发出了 policy function 和 value function 这么一个概念,到 Q Learning 90 年代的时候就已经变得Policy Network 和 Value Network,只不过那时还不是深度的神经网络,是非常浅的网络;DeepMind 把它变成了一个深度的Policy Network 和 Value Network。所以这样一套方法其实在自动驾驶里面也可以使用,只不过就是 Deep Q Network 它的计算量是非常大的,有时候效果也并不是最好的,所以后面大家在 Deep ReinforcementLearning 基础上又开发出像策略梯度,或者像 GPS 等等这样的方法进一步去优化。
Yann Lecun 把强化学习分成一类,跟监督学习和非监督学习并行的一类,而且他能够去解决数据贫穷的问题。因为原来的监督学习要做得好的话,数据量的需求非常大,强化学习如果跟模拟器结合起来的话,事实上可以去产生很多的数据,它可以通过产生大量的数据,再通过 reward function 最后找出来一条最好的道路,所以非常好。
最后,对智能驾驶当中的深度学习做一个总结。首先,数据来源。我们可以通过开放数据,比如从谷歌街景里面把路面数据拿出来的,或者自己装载行车记录仪通过驾驶把这些图片抽取出来,然后通过一种众包的方法去标注。我们标注数据越多肯定训练出来的模型越好,当然标注是有成本的,比如说标一条车道线可能要 2 元钱,画出一个汽车的 bounding box 可能是2 毛钱。于是慢慢地又有人开发出来一些方法,通过机器标注,再加上去审核的方式,能够减少标注的成本。
还有刚才提到端到端的深度学习。我们注意,首先它要装三个摄像头;同时它需要这么一个方向盘的转角的数据要过来,而这个转角数据要通过 Can 总线。我们需要去改装一辆车,并不是所有的研究人员都有这样的财力和能力去改装一辆车,所以现在也有很多的科研单位很聪明,去改赛车的游戏。为什么呢?赛车游戏里面既有图片,又人玩游戏时候的控制数据,到底是左转还是右转、加速还是减速,把这些数据放在一起的话,也能够训练出端到端模型。现在的现状就是有用 CNN 的,有用 RNN 的,也有深度强化学习的,做各种各样东西的检测,做分割,做行为的分析、预测、端到端等等。而现在一般来说规模都不算大,比如说一二十层,至多几千万个参数就足够了,它跟我们在广告当中的深度学习其实规模小很多,这可以理解。为什么呢?因为车载的计算芯片的能力毕竟是有限的,而且现在大家往往是,在训练端用浮点数,在识别端就用定点,因为定点它能够更好地在一些 DSP 这些芯片上运行。
现在我觉得可能其中的一种核心竞争力就在于,我们是不是能够采到更多的数据;采到更多的数据以后,是不是能够有对这么大规模数据的标注能力和训练能力。我们刚才说,通过机器标注再加人审核的一种方法,可能是使得标注成本能够降低100 倍、1 000 倍,所以这个是核心竞争力了。当然,未来深度学习的算法还有待再突破。
而深度学习不是免费的,是需要成本的。CPU 的灵活性最大,而像 ASIC 这样的一个固定的芯片,它的功耗低,深度学习能力强。但是 ASIC 肯定不能用,为什么呢?因为未来几年深度学习的算法还会有大的变化。CPU 太慢了,GPU 有点小贵,FPGA 价格比 GPU 便宜一点。但是这个算法把它移植上去还需要时间,一般移植一套算法可能需要几个月,现在所说的神经网络的加速器是非常好的,只不过它什么时候能商业化,什么时候能符合车规也是一个问题。所以现在我们也要考虑怎么在现在的车规芯片上能够把这些深度学习运行起来。当然一种方法就是用传统识别算法来取代深度学习,比如车道线检测,不用深度学习也能够做的很好。第二,采用多任务的网络,一套网络能够把各种各样的东西识别出来。第三就是用各种各样的优化的方法,比如图像可以压缩,把分辨率降低;比如说把 1 080 P 的降到只有 100×200;还有做模型的压缩,模型压缩可能也从不同的层面去压缩,我们可以把一些卷积层去掉,也可以把这些连接去掉,可以做一些量化,用更少的比特去代表,甚至对模型再进一步用霍夫曼的方法进行压缩等等。还有就是通过级联算法。什么叫做级联算法呢?就是在不同的阶段有些算法用传统的机器学习的方法,而在一些需要识别复杂特征的阶段用深度学习。还有比如说,怎样能够减少 region proposal,现在里面的识别基本上都是基于region based,一般 region 可能数目非常多,可能有 5 000 个,如果能够想办法把它降到100 个,而且它的识别效率不降低,这些都是能够提升性能降低成本的方法。还有就是针对硬件做特殊的优化,等等。
最后说一下,现在还有很多没有解决的挑战,就是人工智能与鲁棒性的关系。但是在汽车上面这套系统非常复杂,一台奔驰的S 级轿车,上面的代码量是一架波音 787 梦想客机上代码量的 16 倍,非常复杂;一架飞机的软件测试的验证成本可能占到它总成本的一半。而且很多东西比代码更难,就是数据,以及在这之上的随机算法和机器学习。想象一下,未来一台车出场的时候,两台车是一模一样的,但是在两个不同用户的手里用了一个月,这两台车就完全不一样了,因为大量随机的算法自学习的能力。这时候就会出现很多问题,比如把牙刷识别成为一个棒球棒是没有问题的,但是我们在自动驾驶的情况下,如果识别错了就会有问题。
所以目前来说,在自动驾驶领域的深度学习还存在着一些障碍。第一就是这套系统并没有一个非常确定的置信度,这个对于车厂来说它是要怀疑的,因为我们没有足够的置信度。举个例子,在特斯拉那起车祸出来以后,马斯克给自己辩解,他说这个车行驶了 1.3 亿英里才死了一个人,全美国的平均水平是 9 000 万英里死一个人,全世界平均水平 6 000 万英里死一个人,所以车比人还是行驶的安全。但是我们都知道,这个样本量太小了,没有统计的显著性,如果第二天再死一个人,就变成 6 500 万英里,所以,我们一定要给它一个置信度。兰德公司就通过一套数学模型推理出来说,如果要有足够的数据去证明自动驾驶比人行驶的安全,有95% 的置信度的话,需要行驶 100 亿英里,一台车不停地要行驶 500 年,所以没有一家车厂是能够达到的。利用的方法就是通过模拟仿真,再加上强化学习来积累里程,其实现在谷歌一天能够在模拟器里面开几百万英里,它就是通过这样的方法。
还有一个难题就是深度学习本身是一个黑盒子,黑盒子是没有可解释性的,这是十分麻烦的,无法将生命交托的。首先我们因为数据的偏差就有可能出问题,比如谷歌他们做的一个工作,用深度学习去识别哑铃,它识别出来一个网络,想要进行可视化,看看这个特征是不是有道理。而可视化出来的一个网络后,他们发现每一个哑铃边上都带着一条胳膊——识别出来的哑铃都带着一条肉色的胳膊。为什么呢?就是因为它输入的数据集都是肉色的胳膊,所以这就是一个所谓的 train set poisoning,或者是 bias。
还有,人们认为生成出来一些的图片,欺骗深度学习,比如这张图片,我们人眼看是没有任何意义的,而深度学习识别出来是个猎豹。
所以,现在一个非常火的方向就是对抗训练,通过生成性的对抗网络,它生成出来一些错误的图片;然后再训练一个辨别器,辨别器去判断到底是一个错误还是正确的招聘,通过这样一种方法来增加其鲁棒性。
还有很多没有解决的挑战。第一个,我们有没有可能通过一些预训练的模型,通过迁移学习来增加它的鲁棒性,我们也看到有这样的案例,在 ImageNet 上训练出来的模型再在我们标注出来的这个数据集上去训练,发现它的效果就更好。第二个,深度学习本身只是一个概念的模型,我能不能把它跟传统基于符号主义的人工智能结合起来;就是把一些背景知识,把一些逻辑推理能够结合起来,我停车为什么没有停在那边,是因为这是一辆豪车,这些知识是可以跟它结合起来的。第三个就是Yann Lecun 最近说的,他认为预测学习未来会变得非常重要;他认为,预测学习可能比非监督学习变得更重要。比如通过对行驶的视频进行预测来自动驾驶。前段时间有一个黑客,他的工作就是这样的,当然他具体地也涉及到了 Auto encoder,加上中间的生成性对抗网络,加上循环神经网络预测。
还有一个就是自监督学习。我认为自监督学习未来也会非常有用,尤其是我们在现实生活当中,采集的数据当中可能是有多种 modelity。比如我们同时看一头牛,又听见了叫声,这样我们就可以使得两种modelity 相互进行标注,我们不需要人去标注,而是通过多个模态来相互进行标注。
还有就是学习开车的感觉,因为人开车并不是精确地计算到底距离是多少,而是一种感觉。
还有就是更低成本的检测和规划算法。之前提到过的蝗虫的检测,只需要一个神经元,为什么呢?因为可能在传感器这边配合。还有就是 Fleet Learning,把它叫做基于云的一个驾驶,它非常有用,我们想象一下,比如摄像头看不远的话,能不能靠前面的摄像头看到的东西帮我们看的更远;如果是在这个时间我们看不到的话,下一个时间另外一辆车看到了它能不能教给我,这个是人工智能厉害的地方。为什么呢?因为我们现在每个人一年开 1 万公里,其学习到的东西很有限;如果 1 万台车,每台车一年开 1 万公里,它们把学习的东西都汇聚在一起,就是 1 亿公里了,所以Fleet Learning 就非常重要。
(本文根据吴甘沙在中国人工智能学会首期“人工智能前沿讲习班”的现场报告整理)
来源:产业智能官
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点}

我要回帖

更多关于 代办道路运输经营许可证 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信