Deutsch-Chinesische Enzyklopädie, 德汉百科
ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there’s still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
Einblicke in technologische Durchbrüche
Einheitliche KI-Architektur
Blackwell besteht aus 208 Milliarden Transistoren mit einem TSMC-4NP-Prozess, der den Erwartungen an die Führungsrolle von NVIDIA im Bereich beschleunigte Berechnungen entspricht, und seine Grafikprozessoren sind die leistungsstärksten Chips, die jemals entwickelt wurden. Die beiden Dies sind so groß wie möglich. Sie bieten die schnellste Kommunikationsleistung für KI-Operationen und maximieren gleichzeitig die Energieeffizienz. Sie sind über eine Chip-zu-Chip-NVHyperfuse-Schnittstelle miteinander verbunden, die 10 Terabyte pro Sekunde (TB/s) unterstützt. So wird eine transparente Einzel-GPU-Ansicht für alle Caches und Kommunikation möglich.
Generative KI-Engine
Außer der Transformer Engine-Technologie, die Training mit der Präzision von FP8 und FP16 beschleunigt, wird mit Blackwell die neue generative KI-Engine eingeführt. Die generative KI-Engine nutzt die angepasste Blackwell Tensor Core-Technologie zur Beschleunigung der Inferenz für generative KI und große Sprachmodelle (LLMs) mit neuen auf Präzision fokussierten Formaten, einschließlich Community-definierter Microscaling(MX)-Formate. Die Formate MXFP4, MXFP6, MXFP8 und MXINT8 der generativen KI-Engine bieten eine enorme Beschleunigung für moderne LLMs mit verbesserter Leistung durch geringeren Platzbedarf und mehr Durchsatz als FP8 und FP16.
Sichere KI
LLMs bergen ein enormes Potenzial für Unternehmen. Die Umsatzoptimierung, die Bereitstellung von Geschäftsinformationen und die Unterstützung bei der Erstellung generativer Inhalte sind nur einige der Vorteile. Doch die Einführung von LLMs kann für Unternehmen schwierig sein, da sie sie schulen müssen und dafür private Daten verwenden, die entweder Datenschutzbestimmungen unterliegen oder proprietäre Informationen enthalten, deren Offenlegung Risiken birgt. Blackwell umfasst NVIDIA Confidential Computing, das mit starker hardwarebasierter Sicherheit vertrauliche Daten und KI-Modelle vor unbefugtem Zugriff schützt.
Erfahren Sie mehr über Confidential Computing von NVIDIA
NVLink, NVSwitch und NVLink-Switch-Systeme
Um das volle Potenzial von Exascale-Computing und KI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikprozessoren innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.
Die vierte Generation von NVIDIA NVSwitch™ ermöglicht 130 TB/s GPU-Bandbreite in einer NVLink-Domäne mit 72 GPUs (NVL72) und bietet viermal mehr Bandbreiteneffizienz mit FP8-Unterstützung von NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™. Mithilfe von NVSwitch unterstützt das NVIDIA NVLink-Switch-System Cluster mit mehr als einem einzelnen Server bei denselben beeindruckenden Verbindungsgeschwindigkeiten von 1,8 TB/s. Multi-Server-Cluster mit NVLink skalieren die GPU-Kommunikation angepasst an die zunehmende Rechenleistung, sodass NVL72 den 9-fachen GPU-Durchsatz unterstützen kann als ein einzelnes System mit acht GPUs.
Weitere Informationen zu NVIDIA NVLink und NVSwitch
Dekomprimierungs-Engine
Bei Datenanalysen und Datenbank-Workflows wurden die Berechnungen traditionell auf CPUs durchgeführt. Beschleunigte Datenwissenschaft kann die Leistung von durchgängigen Analysen steigern, die Wertschöpfung beschleunigen und gleichzeitig die Kosten senken. Datenbanken, einschließlich Apache Spark, spielen im Bereich Datenanalyse eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen.
Blackwells Dekomprimierungs-Engine und die Möglichkeit, auf riesige Mengen an Speicher der NVIDIA Grace™-CPU über eine High-Speed-Verbindung von 900 Gigabyte pro Sekunde (GB/s) bidirektionaler Bandbreite zuzugreifen, beschleunigen die gesamte Pipeline von Datenbankabfragen für höchste Leistung bei Datenanalysen und Datenwissenschaft. Dank der Unterstützung der neuesten Komprimierungsformate wie LZ4, Snappy und Deflate ist Blackwell 20-mal schneller als CPUs und 7-mal schneller als NVIDIA H100 Tensor Core-GPUs bei Abfrage-Benchmarks.
RAS-Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit
Blackwell bietet intelligente Ausfallsicherheit mit einer dedizierten Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (Reliability, Availability, and Serviceability, RAS), um potenzielle Fehler frühzeitig zu identifizieren und Ausfallzeiten zu minimieren. Die KI-gestützten Funktionen für vorausschauendes Management von NVIDIA überwachen kontinuierlich den allgemeinen Zustand über Tausende von Datenpunkten von Hardware und Software, um die Ursachen für Ausfallzeiten und fehlende Effizienz vorherzusagen und zu eliminieren. Dadurch entsteht eine intelligente Ausfallsicherheit, die Zeit, Energie und Rechenkosten spart.
Die RAS-Engine von NVIDIA bietet detaillierte Diagnoseinformationen, mit denen Problembereiche identifiziert und Wartungsarbeiten geplant werden können. Die RAS-Engine reduziert die Durchlaufzeit, indem sie die Ursachen von Problemen schnell lokalisiert, und minimiert Ausfallzeiten durch eine effektive Problembehebung.
Die Nvidia Corporation (Eigenschreibweise: NVIDIA,[3] Aussprache: /ɪnˈvɪdiə/, von lateinisch Invidia, Neid) ist einer der größten Entwickler von Grafikprozessoren und Chipsätzen für Personal Computer, Server und Spielkonsolen. Der Hauptsitz liegt in Santa Clara, Kalifornien. Die Nvidia Corporation besitzt keine eigenen Fertigungsstätten und arbeitet somit nach dem Fabless-Prinzip.
NVIDIA(Nvidia Corporation,/ɛnˈvɪdiə/;台湾与香港译为辉达,中国大陆译为英伟达),创立于1993年1月,是美国一家以设计和销售图形处理器(GPU)为主的无厂半导体公司,总部设在加利福尼亚州的圣克拉拉,位于硅谷的中心位置。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列,为专业CGI工作站而设计的Quadro系列,以及为服务器和高效运算而设计的Tesla系列,虽然起家于PC电脑的显卡业务,英伟达也曾涉及移动芯片Tegra的设计,但智能机市场对此响应不大,不过近年却利用这些研发经验,目前朝向人工智能和机器视觉的市场发展,也是图形处理器上重要的开发工具CUDA的发明者。
The next frontier of AI is physical AI. NVIDIA Cosmos™—a platform of state-of-the-art generative world foundation models, advanced tokenizers, guardrails, and an accelerated data processing and curation pipeline—accelerates the development of physical-AI-embodied systems such as robots and autonomous vehicles.
The integration of Cosmos with NVIDIA Omniverse™ creates a sim-to-real synthetic data and multiverse simulation engine for physical AI. This enables the generation of every possible outcome for a given use case, providing physical AI systems with the foresight needed to make more accurate and informed decisions.
人工智能的下一个前沿领域是物理人工智能。NVIDIA Cosmos™ 是一个由最先进的生成世界基础模型、高级标记化器、护栏以及加速数据处理和整理流水线组成的平台,可加速机器人和自动驾驶汽车等物理人工智能嵌入式系统的开发。
Cosmos 与 NVIDIA Omniverse™ 的集成为物理人工智能创建了一个模拟到真实的合成数据和多元宇宙模拟引擎。这样就能为给定的使用案例生成每一种可能的结果,为物理人工智能系统提供做出更准确、更明智决策所需的前瞻性。
1 × Grace-GPU + 2 × Blackwell-GPU = Grace Blackwell
Der offiziell als GB200 Grace Blackwell Superchip vermarktete Hybrid-Lösung basiert auf einer Grace-CPU mit insgesamt 72 ARM Neoverse V2 Prozessorkernen und zwei Blackwell-GPUs sowie bis zu 384 GiByte HBM3e und 480 GiByte LPDDR5X, was in Nvidias hauseigenem NVL72-Supercomputer in äußerst beeindruckenden technischen Spezifikationen resultiert, welche sich wie folgt lesen.
- 36 Nvidia Grace-CPUs
- 2.592 ARM Neoverse V2 Prozessorkerne
- Bis zu 17 Terabyte LPDDR5X-Arbeitsspeicher
- 72 Blackwell-GPUs mit 13,5 Terabyte HBM3e-Speicher
- FP4-Rechenleistung: Bis zu 1.440 PetaFLOPS
- FP8-Rechenleistung: Bis zu 720 PetaFLOPS
- NVLink: Bis zu 130 TB/s an Bandbreite
Da der Nvidia B200 ("Blackwell") aus insgesamt zwei Dies besteht, stehen jedem GB200-Superchip ("Grace Blackwell") somit vier GPU-Dies zur Verfügung, dem neuen Supercomputer NVL72 somit respektive insgesamt 144 Blackwell-Dies.
Der GB200 NVL72 verbindet 36 Grace-CPUs und 72 Blackwell-GPUs in einem Rack-Maßstab. Bei dem GB200 NVL72 handelt es sich um eine Rack-Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikprozessoren, die als einzelner riesiger Grafikprozessor funktioniert und 30-mal schnellere Echtzeit-Inferenz für LLMs mit Billionen Parametern bietet.
Der GB200 Grace Blackwell Superchip ist eine Schlüsselkomponente des NVIDIA GB200 NVL72 und verbindet zwei hochleistungsfähige NVIDIA Blackwell Tensor-Recheneinheiten-Grafikprozessoren und eine NVIDIA Grace-CPU über die NVIDIA® NVLink®-C2C-Verbindung mit den beiden Blackwell-GPUs.
1999 | GeForce 256 |
---|---|
2000 | GeForce 2 series |
2001 | GeForce 3 series |
2002 | GeForce 4 series |
2003 | GeForce FX series |
2004 | GeForce 6 series |
2005 | GeForce 7 series |
2006 | GeForce 8 series |
2007 | |
2008 | GeForce 9 series |
GeForce 200 series | |
2009 | GeForce 100 series |
GeForce 300 series | |
2010 | GeForce 400 series |
GeForce 500 series | |
2011 | |
2012 | GeForce 600 series |
2013 | GeForce 700 series |
2014 | GeForce 800M series |
GeForce 900 series | |
2015 | |
2016 | GeForce 10 series |
2017 | |
2018 | GeForce 20 series |
2019 | GeForce 16 series |
2020 | GeForce 30 series |
2021 | |
2022 | GeForce 40 series |