NetBurst

Die NetBurst Mikroarchitektur ist der Nachfolger des P6-Architektur in der x86-Familie von CPUs von Intel. Der erste Kern, um auf dieser Architektur der Pentium 4 Willamette, Ende 2000 veröffentlicht basieren war Es war der erste in der Reihe der Pentium 4, und seitdem alle Pentium 4-Prozessoren haben nur die NetBurst-Architektur verwendet.

Mitte 2001 stellte Intel den Core Foster, noch einmal auf NetBurst basiert, Xeon-CPUs auch durch das Bestehen der neuen Architektur. Sogar einige Celeron verwendet NetBurst. Manchmal bezeichnen wir als die Intel NetBurst P7 oder Intel 80786, aber diese sind nicht die offiziellen Namen.

Das Rennen um GHz

Die NetBurst-Architektur wurde entwickelt, als der beste Weg, um die Leistung zu erhöhen schien Erhöhung der Betriebsfrequenz. Es war in der Tat eine Architektur geboren, um den Prozessor bis zu Frequenzen von 10 GHz für diesen Zweck zu drücken und, mit sehr langen Pipeline, die in ihrer letzten Ausführung, haben bis zu 31 Stufen angekommen ausgestattet. Pipeline so lange leiden extrem hohe Strafen bei Sprünge korrekt oder nicht im Falle von Anweisungen, um das Fehlen von einigen Ressourcen Stall haben vorhergesagt. Um das Problem zu minimieren NetBurst Implementiert nahezu alle verfügbaren Techniken zur Stallbedingungen der Rohrleitung zu reduzieren und ergänzt weitere Pipelines, um die Parallelität des Codes zu nutzen.

Technische Merkmale

NetBurst-Architektur Cardini

Die NetBurst-Architektur in der Praxis bezieht sich auf eine Reihe von Merkmalen, von denen die wichtigsten sind die "Hyper Pipelined Technology", die "Schnelle Execution Engine" und "Execution Trace Cache".

Hyper Pipelined Technologie

Dies ist der Name, der Intel entschied sich für die Pipeline zu zwanzig Stadien von der NetBurst-Architektur der ersten Generation vorgesehen. Dies ist eine deutliche Steigerung, verglichen mit nur 10 Pipeline-Stufen des Pentium III. Eine Rohrleitung so lang ist, jedoch die Nachteile, insbesondere eine reduzierte IPC durch die Möglichkeit, die Taktgeschwindigkeit zu erhöhen gemildert. Ein weiterer Nachteil ist, dass eine große Anzahl von Stufen, die in dem Fall, wo die Verzweigungsvorhersagealgorithmus einen Fehler zu machen, zurückverfolgt werden müssen. Um den Schaden von jenen unvermeidlichen Probleme zu begrenzen, führte Intel die Technologie "Rapid-Execution Engine" und "Execution Trace Cache" und hat den Algorithmus der Verzweigung, die Trefferquote erheblich verbessert verfeinert.

Schnelle Execution Engine

Intel hat zwei Einheiten für Operationen mit ganzen Zahlen in der ALU als P6-Architektur aufgenommen. Die Zugänge sind ein Addierer für Integer und eine Berechnungseinheit für die Adressen. Aber die wichtigste Veränderung dieser Technologie eingeführt wird, die Taktrate der ALU, die mit der zweifachen Taktgeschwindigkeit der Kern arbeitet. Dies bedeutet, dass eine CPU 3 GHz ALU arbeitet mit 6 GHz. Diese Verbesserungen werden im Kampf gegen die Abnahme der IPC und erheblich verbessern die Leistung der CPU in Berechnungen auf Zahlen. Der Nachteil ist, daß einige Befehle langsamer sind, wie die Verschiebung, aufgrund des Fehlens eines Barrel-Shifter, der in jeder CPU dall'80386 eingebettet war.

Execution Trace Cache

Im Inneren des L2-Cache-CPU Intel hat eine Execution Trace Cache integriert. Dieser Cache speichert die Mikrooperation nach der Decodierstufe, so dass, wenn er auf einen neuen Betrieb, anstatt das Abrufen und Decodieren von Bildung erneut zu verschieben, die CPU direkt auf die Mikrooperationen von Trace-Cache zugreifen und sparen eine erhebliche Menge an Zeit. Weiterhin sind die Mikrooperationen in den Cachespeicher entsprechend der Reihenfolge der Ausführung gehalten vorhergesagten algorithmisch, was bedeutet, dass, wenn die CPU ruft Befehle aus dem Cache, bereits in der richtigen Reihenfolge vorliegen sie.

Funktionsprinzipien

Der Betrieb der Pentium 4 kann in wenigen grundlegenden Schritte zusammengefasst werden:

  • Lädt der Prozessor was bis zu einem Maximum von 32 Bits durchgeführt werden
  • Die Operationen x86 variabler Länge werden in microperazioni RISC-Typ mit fester Länge von 118 Bits umgerechnet. Der Betrieb x86 kann in vier Mikrooperationen im Falle von komplexeren Befehle übersetzt werden.
  • Der Prozessor führt die Mikrooperationen in der Pipeline, während offline Um die maximale Parallelität der internen Operationen zu erhalten.
  • Die Ergebnisse werden gesammelt und in das entsprechende Register in der von dem ursprünglichen Programm festgelegten Reihenfolge übergeben.

Wie wir gesagt haben das Ziel war NetBurst-Architektur Betriebsfrequenz sehr hoch zu bekommen und alles wurde nach diesem Ziel entwickelt. Der Prozessor zunächst lädt die Daten, wandelt sie in Mikrooperationen und legt sie in einem Puffer genannt Befehlsfenster zusätzlich zur Signalisierung der decodierten Mikrooperationen in einem Puffer chiamamto Trace-Puffer, die intern Prozessor zur Verzweigungsvorhersage, Ausnahmebehandlung und verwendet wird, Daten neu ordnen korrekt, nachdem die Operationen wurden durchgeführt. Die Mikrooperationen sind Operationen konzeptionell RISC aber sehr lang sind 118-Bit, um die für viele Arten der Adressierungsoperationen x86 richtig verarbeiten. Der Prozessor fährt fort, Daten zu laden, bis das Instruktionsfenster nicht voll ist. Die Einheit der Verzweigungsvorhersage, die auf einem Tisch aus 512 Elementen, die den Überblick über die letzten Sprünge hält und analysiert die Ergebnisse ihrer Mikrooperationen und entscheidet über etwaige Sprünge basiert. Im Falle des Springens des Prozessors, um die Tabelle zu überprüfen und, wenn feststellt, daß der Verzweigungsbefehl hat bereits in der Vergangenheit verhält es sich damit einverstanden, den Inhalt der Tabelle durchgeführt. Im Falle des Fehlens von Daten wird der Prozessor auf einer statischen Tabelle. Eine einzige falsche Vorhersage kann die Prozessorleistung um 20% -30% auf die sehr lange Rohrleitung zu reduzieren. Der Prozessor führt die Umbenennung der Register ist, um eine maximale Parallelität out of order Ausführung der Befehle erlaubt zu erreichen, ist, die Grenzen der x86-Architektur, die auf das Vorhandensein von nur acht Universalregister bietet entgegenzuwirken. Der Prozessor 128 verborgene Register, dynamisch vergibt an die verschiedenen Anweisungen, die Umbenennung der Register, um Konflikte zu verringern. Die Operationen werden in zwei Warteschlangen unterteilt, A Warteschlange speichert die Operationen im Speicher und die andere für alle anderen Arten von Transaktionen. Jede Warteschlange ist im FIFO-Modus, aber es gibt keine Art der gegenseitigen Beziehung zwischen der Reihenfolge der zwei Schwänze Nur eine Funktionseinheit mit einer Ausbildung konfliktfrei kompatibel verfügbar wird die Scheduler-Schlange zog in funktionale Bildung. Der Scheduler ist in der Lage, bis zu sechs elementaren Operationen pro Taktzyklus zuzuweisen up. In der Tat, die ALU für einfache Operationen, arbeiten Taktfrequenz an der Doppel somit für jeden Taktzyklus in der Lage, vier Befehle zu verarbeiten, können die beiden anderen Funktionseinheiten eine Operation zum Kopf durchzuführen und somit theoretisch bis zu sechs Operationen auszuführen pro Zyklus, obwohl dies in der Praxis nur sehr selten auftritt. Der Prozessor, um den Zeitpunkt des Speicherzugriffs, die mit einem Betriebsfrequenzprognosen bis 4 Gigahertz sind extrem wichtig implementiert einen Mechanismus zum Vorausdaten entgegenzuwirken. Dies wird durch vier SSE-Befehle sowohl für den Code korrekt in und durch eine im Prozessor, um vorherzusagen, versucht im Voraus, was Code geladen werden implementiert dynamische Vorhersagemechanismus gefüllt verwaltet. Nachdem die Operationen wurden durchgeführt, die letzte Einheit werden die Datensätze in der Reihenfolge des Originalprogramms zu aktualisieren, sei darauf hingewiesen, dass Ausnahmen von den Anweisungen geworfen werden von diesem Gerät behandelt, in der Tat Ausnahmen sollten angehoben werden, werden, wenn die logische Reihenfolge Programm das vorsieht, und sofort, wenn Sie es sonst zu unvorhersehbarem Verhalten Programme.

Leistung

Die Leistung des Pentium 4 rapportate zur Betriebsfrequenz nicht besonders hoch sind. Die wie zu Beginn erwähnt Pentium 4 ist geboren, um bei sehr hohen Betriebsfrequenzen arbeiten. In der Tat, bei konstanter Taktfrequenz bietet etwas niedriger Leistung zum vorherigen Pentium III. Das Ziel der hohen Frequenzen dann war es nur teilweise wegen der technologischen Grenzen nicht vorgesehen ist zunächst verhindert das Projekt ursprünglich geplant, bei den Frequenzen von 10 GHz kommen erzielt. In der Tat wurden die folgenden Intel-Prozessoren wie der Pentium M, um eine höhere Leistung basierten Architekturen gleich häufig auf höhere Leistung und weniger Verbrauch zu erzielen.

Prozessoren auf Basis der NetBurst-Architektur

  • Willamette
  • Northwood
  • Prescott
  • Tejas
  • Cedar Mill
  • Smithfield
  • Presler

Der Nachfolger

Die NetBurst-Architektur hat nachgegeben, Mitte 2006, die neue Intel Core Mikroarchitektur, die in der Entwicklung der Design-Projekt Banias Pentium M, Core Duo Yonah verwurzelt ist.

Die ersten Mitglieder der neuen Architektur waren der Kern Merom, Conroe und Woodcrest, die jeweils für die Bereiche: Mobile, Desktop und Server. Im Jahr 2006 jedoch Intel hat angekündigt, eine neue Architektur alle zwei Jahre und in der Tat im November 2008 stellt Nehalem, an der Basis der Core i7 einzuführen angekündigt, und der Beginn des Jahres 2011 wird voraussichtlich basierten Prozessoren kommen Sandy Bridge. NetBurst so sollte es das letzte x86-Architektur so langlebig sein.

Roadmap

  0   0
Nächster Artikel Luca Paolini

In Verbindung Stehende Artikel

Kommentare - 0

Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha