Tensor -Verarbeitungseinheit

Tensor -Verarbeitungseinheit
Tensor Processing Unit 3.0.jpg
Tensor -Verarbeitungseinheit 3.0
Designer Google
Eingeführt Mai 2016
Typ Neurales Netzwerk
Maschinelles Lernen

Tensor -Verarbeitungseinheit (TPU) ist ein KI -Beschleuniger Anwendungsspezifische integrierte Schaltung (ASIC) entwickelt von Google zum neurales Netzwerk maschinelles Lernen, mit Google's eigene Tensorflow Software.[1] Google begann im Jahr 2015, TPUs intern zu verwenden, und stellte sie 2018 sowohl als Teil seiner Cloud -Infrastruktur als auch für die Anbieten einer kleineren Version des Chips zum Verkauf zur Verfügung.

Überblick

Die Tensor -Verarbeitungseinheit wurde im Mai 2016 angekündigt Google I/O, als das Unternehmen sagte, dass die TPU bereits im Inneren verwendet worden war ihre Rechenzentren für über ein Jahr.[2][3] Der Chip wurde speziell für Google entwickelt Tensorflow Framework, eine symbolische Mathematikbibliothek, die für verwendet wird maschinelles Lernen Anwendungen wie Neuronale Netze.[4] Ab 2017 wurde Google jedoch immer noch verwendet CPUs und GPUS für andere Arten von maschinelles Lernen.[2] Sonstiges KI -Beschleuniger Auch von anderen Anbietern treten Designs auf und zielen darauf ab eingebettet und Robotik Märkte.

Googles TPUs sind proprietär. Einige Modelle sind im Handel erhältlich und am 12. Februar 2018. Die New York Times berichtete, dass Google "es anderen Unternehmen ermöglichen würde, über seinen Cloud-Computing-Service Zugriff auf diese Chips zu kaufen".[5] Google hat gesagt, dass sie in der verwendet wurden Alphago gegen Lee Sedol Serie von Menschenmaschine gehen Spiele,[3] sowie in der Alphazero System, das produziert wurde Schach, Shogi Und spielen Sie allein aus den Spielregeln Programme und besiegten die führenden Programme in diesen Spielen.[6] Google hat auch TPUs für verwendet Google Street View Textverarbeitung und konnte in weniger als fünf Tagen den gesamten Text in der Street View -Datenbank finden. Im Google FotosEine einzelne TPU kann über 100 Millionen Fotos pro Tag verarbeiten. Es wird auch in verwendet Rankbrain Welches Google verwendet Suchergebnisse.[7]

Im Vergleich zu a GrafikkarteEs ist für ein hohes Volumen an geringer Präzisionsberechnung ausgelegt (z. B. so wenig wie 8 Bit Präzision)[8] mit mehr Eingangs-/Ausgangsvorgängen pro Joule, ohne Hardware für Rasterisierung/Textur-Mapping.[3] Die TPU Asics werden in einer Kühlkörperbaugruppe montiert, die in einen Festplattensteckplatz in einem Rechenzentrum passen kann Gestell, entsprechend Norman Jouppi.[2] Verschiedene Arten von Prozessoren eignen sich für verschiedene Arten von maschinellem Lernmodellen. TPUs sind gut geeignet für CNNs Während GPUs Vorteile für einige vollständig vernetzte neuronale Netze haben und CPUs Vorteile für haben können Rnns.[9]

Google bietet Dritten Zugriff auf TPUs über seine Cloud TPU Dienst als Teil der Google Cloud -Plattform[10] und durch sein Notebook-basiert Dienstleistungen Kaggle und Kolabor.[11][12]

Produkte[13]

Tpuv1 Tpuv2 Tpuv3 Tpuv4[14] Edge v1
Datum eingeführt 2016 2017 2018 2021 2018
Prozessknoten 28 nm 16 nm 16 nm 7 nm
Die Größe (mm2) 331 < 625 < 700 < 400
On-Chip-Speicher (MIB) 28 32 32 144
Taktgeschwindigkeit (MHz) 700 700 940 1050
Speicher (GB) 8 GB DDR3 16 GB HBM 32 GB HBM 8 GB
TDP (W) 75 280 450 175 2
Tops (Tera Operations pro Sekunde) 23 45 90 ? 4
Oberen/w 0,3 0,16 0,2 ? 2

TPU der ersten Generation

Die TPU der ersten Generation ist ein 8 Bit Matrix-Multiplikation Motor, angetrieben mit CISC -Anweisungen vom Host -Prozessor über a PCIE 3.0 Bus. Es wird auf einer 28 hergestellt nm Prozess mit einer Würfelgröße ≤ 331mm2. Das Taktfrequenz ist 700MHz Und es hat eine Wärmekonstruktionskraft von 28–40W. Es hat 28MiB von On Chip Memory und 4MiB von 32-Bit Akkumulatoren die Ergebnisse eines 256 × 256 nehmen systolisches Array von 8-Bit Multiplikatoren.[15] Innerhalb des TPU -Pakets ist 8Gib von Doppelkanal 2133 MHz DDR3 SDRAM Angebot 34 GB/s Bandbreite.[16] Anweisungen übertragen Daten in oder vom Host, führen Sie Matrixmultiplikationen durch oder durch Konvolutionen, und bewerben Sie sich Aktivierungsfunktionen.[15]

TPU der zweiten Generation

Die TPU der zweiten Generation wurde im Mai 2017 bekannt gegeben.[17] Google gab an, dass das TPU-Design der ersten Generation durch begrenzt wurde durch Speicherbandbreite und mit 16 Gb von Hohe Bandbreitengedächtnis Im Design der zweiten Generation erhöhte sich die Bandbreite auf 600 GB/s und die Leistung auf 45 TeraFlops.[16] Die TPUs werden dann in Vier-Chip-Module mit einer Leistung von 180 Teraflops angeordnet.[17] Dann werden 64 dieser Module in 256-Chip-Pods mit 11,5 Petaflops der Leistung zusammengesetzt.[17] Insbesondere, während die TPUs der ersten Generation auf Ganzzahlen beschränkt waren, kann auch die TPUs der zweiten Generation auch in berechnet werden schwimmender Punkt. Dies macht die TPUs der zweiten Generation sowohl für das Training als auch für die Schlussfolgerung maschineller Lernmodelle nützlich. Google hat angegeben, dass diese TPUs der zweiten Generation auf der verfügbar sein werden Google Compute Engine Zur Verwendung in Tensorflow -Anwendungen.[18]

TPU der dritten Generation

Die TPU der dritten Generation wurde am 8. Mai 2018 bekannt gegeben.[19] Google kündigte an, dass die Prozessoren selbst doppelt so leistungsfähig sind wie die TPUs der zweiten Generation und würden in Pods mit viermal so vielen Chips wie der vorhergehenden Generation eingesetzt.[20][21] Dies führt zu einem 8-fachen Leistungsanstieg pro POD (mit bis zu 1.024 Chips pro POD) im Vergleich zur TPU-Bereitstellung der zweiten Generation.

TPU der vierten Generation

Am 18. Mai 2021 sprach Google CEO Sundar Pichai während seiner Keynote auf der Google I/O -Virtual Conference über TPU V4 -Tensor -Verarbeitungseinheiten. TPU V4 verbesserte die Leistung um mehr als 2x gegenüber TPU V3 -Chips. Pichai sagte: "Ein einzelner V4 -Pod enthält 4.096 V4 -Chips, und jeder Pod hat 10 -fache die Verbindungsbandbreite pro Chip im Maßstab im Maßstab zu jeder anderen Netzwerktechnologie."[22]

Edge TPU

Im Juli 2018 kündigte Google die Edge TPU an. Die Edge TPU ist Googles speziell gebaut Asic Chip für das Ausführen von Modellen für maschinelles Lernen (ML) für die Ausführung Edge Computing, was bedeutet, dass es viel kleiner ist und weit weniger Leistung im Vergleich zu den in Google Datacenters gehosteten TPUs verbraucht (auch als Cloud -TPUs bezeichnet[23]). Im Januar 2019 stellte Google die Edge TPU für Entwickler mit einer Produktlinie unter der Korallenmarke zur Verfügung. Die Kanten -TPU ist mit 4 Billionen Operationen pro Sekunde mit 2 W elektrischen Strom.[24]

Die Produktangebote umfassen a Single-Board-Computer (SBC), a System auf Modul (Som), a USB Zubehör, ein Mini PCI-e Karte und eine M.2 Karte. Das SBC Coral Dev Board und Coral SOM beide Run Mendel Linux OS - ein Derivat von Debian.[25][26] Die Produkte von USB, PCI-E und M.2 fungieren als Add-Ons zu vorhandenen Computersystemen und unterstützen Debian-basierte Linux-Systeme auf X86-64 und ARM64-Hosts (einschließlich Raspberry Pi).

Die zur Ausführung von Modellen auf der Edge TPU verwendete maschinelle Lernlaufzeit basiert auf Tensorflow Lite.[27] Die Edge TPU ist nur in der Lage, Vorwärtspassoperationen zu beschleunigen, was bedeutet, dass sie in erster Linie für die Durchführung von Schlussfolgerungen nützlich ist (obwohl es möglich ist, leichtes Transferlernen auf der Kante-TPU durchzuführen[28]). Die Edge TPU unterstützt auch nur 8-Bit-Mathematik, was bedeutet, dass ein Netzwerk mit der Edge-TPU kompatibel ist, es entweder mit der Tensorflow Quantisierungs-Trainingstechnik trainiert werden muss, oder seit Ende 2019 ist es auch möglich, Post zu verwenden. Trainingsquantisierung.

Am 12. November 2019, Asus kündigte ein Paar von Single-Board-Computer (SBCS) mit der Edge TPU. Das Asus Tinker Edge T und Tinker Edge R -Board designed für IoT und Kante Ai. Die SBCs unterstützen offiziell Android und Debian Betriebssysteme.[29][30] ASUS hat auch einen Mini -PC namens ASUS PN60T mit der Edge TPU gezeigt.[31]

Am 2. Januar 2020 kündigte Google das Coral Accelerator Modul und das Coral Dev Board Mini an, um demonstrieren zu werden CES 2020 später im selben Monat. Das Korallenbeschleunigermodul ist a Multi-Chip-Modul Mit den Edge TPU-, PCIe- und USB -Schnittstellen für die einfachere Integration. Das Coral Dev Board Mini ist kleiner SBC mit dem Korallenbeschleunigermodul und MediaTek 8167S Soc.[32][33]

Pixel Neural Core

Am 15. Oktober 2019 kündigte Google die an Pixel 4 Smartphone, das eine Kanten -TPU enthält, die das namens die namens Pixel Neural Core.[34]

Siehe auch

Verweise

  1. ^ "Cloud Tensor Processing Units (TPUs)". Google Cloud. Abgerufen 20. Juli 2020.
  2. ^ a b c "Die Tensor -Verarbeitungseinheit von Google erklärte: So sieht die Zukunft des Computers aus". TechRadar. Abgerufen 2017-01-19.
  3. ^ a b c Jouppi, Norm (18. Mai 2016). "Google Superces maschinelles Lernaufgaben mit TPU -benutzerdefinierter Chip". Google Cloud Platform Blog. Abgerufen 2017-01-22.
  4. ^ "TensorFlow: Open Source Machine Learning" "Es ist eine Software für maschinelles Lernen, die für verschiedene Arten von Wahrnehmungs- und Sprachverständnisaufgaben verwendet wird" - Jeffrey Dean, Minute 0:47 / 2:17 von YouTube Clip
  5. ^ "Google stellt seine speziellen A.I. -Chips anderen zur Verfügung.". Die New York Times. Abgerufen 2018-02-12.
  6. ^ McGourty, Colin (6. Dezember 2017). "Deepminds Alphazero zerquetscht Schach". CHESS24.com.
  7. ^ "Die Tensor -Verarbeitungseinheit von Google könnte das Gesetz von Moore 7 Jahre in die Zukunft vorantreiben". PC Welt. Abgerufen 2017-01-19.
  8. ^ Armasu, Lucian (2016-05-19). "Google's Big Chip enthüllt für maschinelles Lernen: Tensor -Verarbeitungseinheit mit 10 -facher Effizienz (aktualisiert)". Toms Hardware. Abgerufen 2016-06-26.
  9. ^ Wang, Yu Emma; Wei, Gu-yeon; Brooks, David (2019-07-01). "Benchmarking TPU-, GPU- und CPU -Plattformen für Deep Learning". Arxiv:1907.10701 [cs.lg].
  10. ^ "Häufig gestellte Fragen | Cloud TPU". Google Cloud. Abgerufen 2021-01-14.
  11. ^ "Google Colaboratory". colab.research.google.com. Abgerufen 2021-05-15.
  12. ^ "Verwenden Sie TPUS | TensorFlow Core". Tensorflow. Abgerufen 2021-05-15.
  13. ^ https://conferences.computer.org/iscapub/pdfs/isca2021-4ghucdbncwyb7es2pe4ydt/333300A001/333300a001.pdf[Bare URL PDF]
  14. ^ Bleiben Sie dran, weitere Informationen zu TPU V4 finden bald statt, abgerufen 2020-08-06.
  15. ^ a b Jouppi, Norman P.; Jung, Klippe; Patil, Nishant; Patterson, David; Agrawal, Gaurav; Bajwa, Raminder; Bates, Sarah; Bhatia, Suresh; Boden, Nan; Borchers, AL; Boyle, Rick; Cantin, Pierre-Luc; Chao, Clifford; Clark, Chris; Coriell, Jeremy; Daley, Mike; Dau, Matt; Dean, Jeffrey; Gelb, Ben; Ghaemmaghami, Tara Vazir; Gottipati, Rajendra; Gulland, William; Hagmann, Robert; Ho, C. Richard; Hogberg, Doug; Hu, John; Hundt, Robert; Verletzt, Dan; Ibarz, Julian; Jaffey, Aaron; Jaworski, Alek; Kaplan, Alexander; Khaitan, Harshit; Koch, Andy; Kumar, Naveen; Lacy, Steve; Laudon, James; Gesetz, James; Le, Diemthu; Leary, Chris; Liu, Zhuyuan; Lucke, Kyle; Lundin, Alan; Mackean, Gordon; Maggiore, Adriana; Mahony, Maire; Miller, Kieran; Nagarajan, Rahul; Narayanaswami, Ravi; Ni, Ray; Nix, Kathy; Norrie, Thomas; Omernick, Mark; Penukonda, Narayana; Phelps, Andy; Ross, Jonathan; Ross, Matt; Salek, Amir; Samadiani, Emad; Severn, Chris; Sizikov, Gregory; Snelham, Matthew; Souter, Jed; Steinberg, Dan; Swing, Andy; Tan, Mercedes; Thorson, Gregory; Tian, ​​Bo; Toma, Horia; Tuttle, Erick; Vasudevan, Vijay; Walter, Richard; Wang, Walter; Wilcox, Eric; Yoon, Doe Hyun (26. Juni 2017). In-Datacenter-Leistungsanalyse einer Tensor Processing Unit ™. Toronto Kanada. Arxiv:1704.04760.
  16. ^ a b Kennedy, Patrick (22. August 2017). "Fallstudie zur Google TPU und GDDR5 von Hot Chips 29". Servieren Sie das Haus. Abgerufen 23. August 2017.
  17. ^ a b c Bright, Peter (17. Mai 2017). "Google bringt 45 Teraflops -Tensor -Flussprozessoren in seine Berechnung von Cloud mit.". ARS Technica. Abgerufen 30. Mai 2017.
  18. ^ Kennedy, Patrick (17. Mai 2017). "Google Cloud TPU -Details enthüllt". Servieren Sie das Haus. Abgerufen 30. Mai 2017.
  19. ^ Frumusanu, Andre (8. Mai 2018). "Google I/O Eröffnung Keynote Live-Blog". Abgerufen 9. Mai 2018.
  20. ^ Feldman, Michael (11. Mai 2018). "Google bietet einen Einblick in den TPU-Prozessor der dritten Generation". Top 500. Abgerufen 14. Mai 2018.
  21. ^ Teich, Paul (10. Mai 2018). "Zerreißen von Google TPU 3.0 AI Coprozessor". Die nächste Plattform. Abgerufen 14. Mai 2018.
  22. ^ "Google startet TPU V4 AI Chips". www.hpcwire.com. 20. Mai 2021. Abgerufen 7. Juni, 2021.
  23. ^ "Cloud TPU". Google Cloud. Abgerufen 2021-05-21.
  24. ^ "Edge TPU Performance Benchmarks". Koralle. Abgerufen 2020-01-04.
  25. ^ "Dev Board". Koralle. Abgerufen 2021-05-21.
  26. ^ "System-on-Module (SOM)". Koralle. Abgerufen 2021-05-21.
  27. ^ "Intelligenz mit Cloud IoT an den Rand bringen". Google Blog. 2018-07-25. Abgerufen 2018-07-25.
  28. ^ "Ein Bildklassifizierungsmodell on Device abrufen". Koralle. Abgerufen 2019-05-03.
  29. ^ "組込み 総合 技術展 & ioT 総合「 et & ioT Technology 2019 」に する こと を 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表 発表. Asus.com (auf Japanisch). Abgerufen 2019-11-13.
  30. ^ Shilov, Anton. "ASUS & Google Team up für 'Tinker Board' von AI-fokussierte Computer-Kartengröße" Computer ". Anandtech.com. Abgerufen 2019-11-13.
  31. ^ Aufranc, Jean-Luc (2019-05-29). "Asus Tinker Edge T & CR1S-CM-A SBC mit Google Coral Edge TPU und NXP I.MX 8M-Prozessor". CNX -Software - Embedded Systems News. Abgerufen 2019-11-14.
  32. ^ "Neue Korallenprodukte für 2020". Google Developers Blog. Abgerufen 2020-01-04.
  33. ^ "Beschleunigermodul". Koralle. Abgerufen 2020-01-04.
  34. ^ "Einführung der nächsten Generation von Sehmodellen für das Gerät: Mobilenetv3 und Mobilenetedgetpu". Google AI Blog. Abgerufen 2020-04-16.

Externe Links