문숙의 집 왕황화단
ChatGPT 에 불이 붙는다면, GPT 가 자동운전에 부딪히면 어떤 화학반응이 일어날까요?
GPT 의 전체 이름은 생성식 사전 훈련 변압기, 즉 생성식 사전 훈련 변압기입니다. 간단한 요약은 인터넷에서 사용할 수 있는 데이터 교육을 기반으로 한 텍스트 생성 심도 있는 학습 모델입니다.
4 월 1 1 일 제 8 회 Millicent AI? 이날 CEO 는 기술 기반 DriveGPT 를 공식 발표했습니다. 중국어 이름은 설호입니다.
DriveGPT 는 무엇을 할 수 있습니까? 어떻게 만들어졌을까요? 아이야? 그날 나는 상세한 해석을 했다. 또한, AI? DAY 는 또한 밀리엔드 자동 운전 데이터 시스템 MANA 의 업그레이드를 보여 주었는데, 주로 시각적 인식 방면의 진보였다.
0 1.
DriveGPT 란 무엇입니까? 어떤 목적을 달성할 수 있습니까?
먼저 해석한 원리를 고려하다. 생성식 사전 훈련 변환기 모델의 본질은 다음 단어를 해석할 확률이다. 각 호출은 확률 분포에서 샘플링되어 단어를 생성합니다. 이런 식으로 다양한 다운스트림 작업에 대해 일련의 문자를 생성할 수 있습니다.
중국어 자연어를 예로 들자면, 한 단어나 단어를 하나의 토큰으로, 중국어 토큰 어휘는 약 5 만 개다. 토큰이 모델에 입력되면 출력은 다음 단어의 확률입니다. 이 확률 분포는 언어의 지식과 논리를 반영한다. 큰 모형이 다음 단어를 출력할 때는 언어 지식과 논리를 근거로 추리한 결과다. 마치 탐정소설의 복잡한 단서를 근거로 살인자가 누구인지 추리하는 것과 같다.
자동 운전 훈련에 적합한 대형 차종으로서 DriveGPT 설호해는 다음과 같은 세 가지 능력을 갖추고 있습니다.
1. 이러한 장면 시퀀스 중 상당수는 확률로 생성될 수 있으며, 각 장면은 전역 장면이며, 각 장면 시퀀스는 앞으로 발생할 수 있는 실제 상황입니다.
2. 모든 장면 시퀀스가 생성된 경우 장면에서 차량의 가장 주목받는 동작 트랙을 수량화할 수 있습니다. 즉, 장면이 생성될 때 차량의 미래 궤적 정보가 생성됩니다.
3. 이 궤적을 통해 DriveGPT 설호해는 장면 시퀀스와 궤적을 생성하는 동시에 전체 의사 결정 논리 체인을 출력할 수 있습니다.
즉, DriveGPT 를 통해 계획, 의사 결정, 추론을 모두 통합 생성 틀 아래에서 수행할 수 있습니다.
구체적으로, Drive 설호해조의 디자인은 장면을 토큰화하여' 드리브' 라고 부르는가? 언어.
드라이브 언어는 운전 공간을 이산화하며 각 토큰은 장면의 작은 부분을 나타냅니다. 현재 밀리는 약 50 만 개의 토큰 어휘 공간을 가지고 있다. 과거에 발생한 일련의 장면 토큰 시퀀스를 입력하면 모델은 내역을 기준으로 가능한 모든 미래 장면을 생성할 수 있습니다.
다른 말로 하자면, 해약도 추리 기계와 같다. 과거에 무슨 일이 일어났는지 말해라, 그것은 확률에 근거하여 미래의 많은 가능성을 추론할 수 있다.
일련의 Token 이 함께 모이는 것은 전체 교통 환경의 상태와 미래의 어느 시점에 자신의 자동차 상태를 포함한 완전한 운전 장면 시계열입니다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스포츠명언)
드라이브? 언어, DriveGPT 를 훈련시킬 수 있습니다.
DriveGPT 의 훈련 과정은 먼저 운전 데이터와 이전에 정의된 운전 시도를 바탕으로 대규모 사전 훈련을 시도하는 것이다.
그런 다음 진행 과정에서 인계되거나 인계되지 않는 장면을 사용하여 사전 훈련 결과를 평가해 피드백 모델을 훈련시킵니다. 잘못된 자동운전 방식 대신 올바른 인간 운전 방식으로 대체한다는 얘기다.
후속 조치는 학습을 강화하는 사상으로 반복 모델을 끊임없이 최적화하는 것이다.
사전 훈련 모델에서는 디코딩 전용 구조의 GPT 모델을 사용하여 장애물 상태, 자전거 상태, 차선 등을 포함한 특정 시점의 장면 상태를 각 토큰으로 설명합니다.
현재 밀리미터의 사전 훈련 모델에는 654.38+020 억 개의 매개변수가 있으며, 4 천만 대의 양산차의 주행 데이터를 이용하여 다양한 장면의 생성 작업을 할 수 있다.
이러한 결과는 사람의 취향에 따라 최적화되고 안전, 효율성, 편안함 등의 차원에서 균형을 이룹니다. 한편, 밀리는 선별된 인간 인수 데이터, 약 50,000 개의 단편을 사용하여 피드백 모델을 훈련시키고 사전 훈련 모델을 지속적으로 최적화합니다.
DriveGPT 설호해는 의사 결정 논리 체인을 출력할 때 prompt 힌트 기술을 사용했습니다. 터미널을 입력하여 모델에 "어디로 가는지, 천천히, 빨리, 단계별로 추리하게 하라" 는 힌트를 준다. 이 힌트를 통해 원하는 방향으로 결과를 생성하며 각 결과에는 의사 결정 논리 체인이 있습니다. 모든 결과에도 미래에 나타날 가능성이 있다. 그래서 우리는 미래에 가장 가능성이 높고 논리적인 체인 구동 전략을 선택할 수 있다.
생생한 예시로 해조의 추리 능력을 설명할 수 있다. 모델이 "목표점에 도달한다" 는 프롬프트를 받는다고 가정할 때, DriveGPT Xuehu 해는 가능한 많은 운전 방식을 생성할 수 있고, 어떤 것은 급진적이며, 연속 도로를 추월하여 목표점에 빠르게 도달하고, 어떤 것은 견고하며, 차와 종점까지 갈 수 있다. 이때 힌트에 추가 설명이 없으면 DriveGPT 설호해는 피드백의 훈련에 따라 효과를 최적화해 대부분의 운전 선호도에 더 잘 맞는 효과를 낼 수 있다.
02.
너는 어떻게 DriveGPT 를 실현했니?
우선, DriveGPT 설호해조의 훈련과 착지는 컴퓨팅 능력의 버팀목에서 벗어날 수 없다.
5438 년 6 월+올해 10 월, 묵호와 화산엔진은 자체 건설된 스마트 컴퓨팅 센터인 묵호설호 오아시스 마나오스를 공동 발표했다. OASIS 컴퓨팅 성능은 초당 67 억 회, 스토리지 대역폭 2T/ 초, 통신 대역폭 800G/ 초입니다.
물론, 컴퓨팅 능력만으로는 충분하지 않으며, 훈련과 추리 프레임워크의 지원이 필요하다. 그래서 밀리도 다음 세 가지 업그레이드를 했다.
첫 번째는 훈련의 안정성을 보장하고 향상시키는 것입니다.
대규모 모델 훈련은 매우 어려운 임무이다. 데이터 규모, 클러스터 규모, 교육 시간의 양이 증가함에 따라 시스템 안정성의 작은 문제가 무한히 확대됩니다. 처리하지 않으면, 훈련 임무가 잘못되어 비정상적인 중단을 초래하고, 초기에 투입된 대량의 자원을 낭비하게 된다.
대규모 모델 교육 프레임워크를 바탕으로 Millie 와 화산 엔진은 함께 전체 교육 지원 프레임워크를 구축했습니다. Millie 는 교육 지원 프레임워크를 통해 비정상적인 작업의 분 단위 캡처 및 복구 능력을 실현하여, 수천 카드 작업이 몇 개월 동안 이상 중단 없이 계속 훈련될 수 있도록 하며, DriveGPT 설호해약대형 모델 훈련의 안정성을 보장하는 데 효과적이다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스포츠명언)
둘째, 자원의 업그레이드를 유연하게 스케줄링한다.
밀리미터는 양산차가 가져온 대량의 실제 데이터를 가지고 있어 반환된 데이터를 이용하여 현실 세계를 자동으로 배울 수 있다. 매일 시간에 따라 전송되는 데이터의 양이 크게 다르기 때문에 데이터 크기에 맞게 유연한 스케줄링 기능을 갖춘 교육 플랫폼이 필요합니다.
결국 증분 학습 기술을 대규모 모델 교육으로 확장하고, 대규모 모델 연속 학습 시스템을 구축하고, 작업 레벨 유연한 스케줄러를 개발하고, 분 단위의 일정 자원을 개발하고, 클러스터 컴퓨팅 리소스 사용률이 95% 에 이릅니다.
세 번째는 처리량 효율성의 업그레이드입니다.
교육 효율성의 경우 변압기의 대형 매트릭스 계산에서 내부 및 외부 루프 데이터를 분할하여 가능한 한 SRAM 에 데이터를 저장하여 계산 효율성을 높입니다. 전통적인 교육 프레임 워크에서 운영자 프로세스는 매우 길어서 화산 엔진이 제공하는 레고 라이브러리를 도입하여 엔드 투 엔드 처리량을 84% 향상시킵니다.
컴퓨팅 능력과 이 세 가지가 업그레이드되면서 DriveGPT 설호해는 더 나은 훈련과 반복 업그레이드를 받을 수 있게 되었다.
03.
마나 업그레이드, 초음파 레이더 대신 카메라
202 1 및 65438+2 월 네 번째 AI? MANA 는 자동운전 데이터의 지능 시스템으로 1 1 월 15 일 발표됐다. 1 년여의 응용 반복 끝에 MANA 는 현재 전면 업그레이드를 맞고 있다.
브리핑에 따르면 이번 업그레이드는 주로 다음을 포함한다.
1. 인식 및 인식과 관련된 대형 모델 기능이 DriveGPT 에 통합되어 있습니다.
2. 컴퓨팅 기반 서비스는 대규모 모델 교육에 맞게 매개변수 크기, 안정성 및 효율성을 최적화하고 OASIS 에 통합됩니다.
3. NeRF 기술을 사용하는 데이터 합성 서비스를 추가하여 모서리 사례 데이터 수집 비용을 절감합니다.
4. 다중 칩 다중 모델 신속한 배송 문제를 위해 이기종 배포 도구 및 차량 적응 도구를 최적화했습니다.
DriveGPT 에 대한 자세한 내용은 다음과 같습니다. MANA 의 시각적 인식 진행 상황을 살펴보겠습니다.
시각적 인식 작업의 핵심 목적은 실제 동적 정적 정보 및 텍스처 분포를 복원하는 것입니다. 따라서 밀리미터는 시각적 자체 모니터링 모델의 아키텍처를 업그레이드하고 예측 환경의 3 차원 구조, 속도 필드 및 텍스처 분포를 하나의 교육 목표로 통합하여 다양한 특정 작업에 침착하게 대처할 수 있도록 합니다. 현재 밀리미터 시각 자체 모니터링 모델 데이터 세트는 400 만 개 이상의 세그먼트로 인식 성능이 20% 향상되었습니다.
주차장 장면에서 밀리미터는 물고기 안경의 순수 시각 거리를 이용하여 주차 요구 사항을 달성하고 15m 범위 내에서 측정 정확도는 30cm, 2m 이내의 정확도는 10cm 보다 높다. 초음파 레이더 대신 순수 시각으로 전체 방안의 비용을 더욱 줄였다.
또한 순수 시각적 3D 재구성의 경우, 대형 모델 기술을 시각적으로 자체 모니터링함으로써 대량의 대량 생산 반환 비디오를 BEV 모델 교육에 사용할 수 있는 3D 마크업 실제 데이터로 변환할 수 있습니다. 라이더에 의존하지 않아도 됩니다.
NeRF 를 업그레이드하면 재구축 오류가 10 보다 작을 수 있습니다.
이 글은 작가 지아에서 온 것이다. Com, 저작권은 저자가 소유합니다. 어떤 형태로든 전재한다면 저자에게 연락하세요. 내용은 대표작자의 관점일 뿐 차 개조와는 무관하다.