Zahlen, Fakten & Statistik
 Numbers, facts & statistics

Sven Negrassus  

Statistik ist ein interessantes aber äusserst heikles Gebiet. Mit der "richtigen" falschen Statistik kann man beinahe jede Aussage belegen. Viele Statistikfehler werden unabsichtlich gemacht, andere aber bewusst zum Verkauf von Produkten eingesetzt.
Dieser Artikel fokussiert primär die einfache Datenvisualisierung und den Zahlenvergleich, es werden keine tiefgründigen Analysen oder komplexen Berechnungen aufgezeigt. Es geht mir darum zu zeigen, wie man beispielsweise Computer A mit Computer B vergleicht, und wie man schlechtere Testergebnisse des einen Computers abschwächt oder diejenigen der schnelleren Maschine hervorhebt. Mit dem hier aufgezeigten Wissen sollte es möglich sein, die bösen Tricks der Werbemannen zu durchschauen und Produktezahlen wirklich zu verstehen.

Statistics are interesting but they are also dangerous. Using the "right" fake statistic you can prove almost everything. Some faults are made by mistake, but many are absolutely intended for marketing reasons.
This article focusses on simple data visualisation and on the comparison of numbers, there is no complex analysis done here. I want to show you how to compare, say computer system A with computer system B, and how to push up the inferior scores of the slower system or how to overstate the advantage of the faster one. If you read this text you'll get an idea how advertisement people are pushing their products, and you'll get a better understanding of test scores.

 

Balkengrafik

Bar charts

Die Leistung von Computersystemen wird oft als Balkengrafik dargestellt, weil sich so optisch ein klarer, leicht zu erfassender Vergleich ergibt. Advanced Micro Devices (AMD) hat dies kürzlich mit der Vorstellung ihres neuen K7-Prozessors "Athlon" gegen Intels Pentium III gemacht - und dabei eine sehr unschöne Darstellungsart angewandt: Die Grafik verzerrt die tatsächlichen Fakten zu gunsten des K7 (dabei wäre das aufgrund der Leistungsdaten nicht einmal nötig gewesen):

The performance of computer systems is often visualised using bar charts which is a clear and easy way to compare different scores. Advanced Micro Devices (AMD) did this recently comparing their K7 "Athlon" processor to Intels Pentium III, but they used a bad visualisation method: Their charts visually exaggerate the advantage of K7 (the K7 really seems to be more powerful than the PIII, so this would not have been necessary):

Was AMD uns gezeigt hat * What AMD showed us:
CPU Type: SPECint95 scaled 90..120% SPECfp95 scaled 80..160%
Intel Pentium III/550 100% (90+10%) 100% (80+20%)
AMD K7/550 109% (90+19%) 146% (80+66%)
AMD K7/600 118% (90+28%) 153% (80+73%)
 
Wie die Sache tatsächlich aussieht * The real facts:
CPU Type: SPECint95 scaled 0..120% SPECfp95 scaled 0..160%
Intel Pentium III/550 100% 100%
AMD K7/550 109% 146%
AMD K7/600 118% 153%
 
AMD K7 Benchmark Page , SPECint95 Chart (macinfo copy) , SPECfp95 Chart (macinfo copy)
 
Anmerkung: Ich habe hier absichtlich eine Darstellung ohne Skalenbeschriftung gewählt, damit der Effekt deutlicher wird.
Note: I did use a table without scale values below the bars on purpose, this is to outline the effect.

Dieses Beispiel zeigt sehr beeindruckend, wie man Leistungsunterschiede visuell übertreiben kann, man setzt den Startpunkt einfach nicht auf 0% sondern auf eine beliebige höhere Marke (die natürlich unterhalb des kleinsten Wertes liegen sollte...).
An dieser Stelle soll aber ausdrücklich erwähnt werden, dass AMD mit diesem Marketing keinesweg ein Sonderfall ist, sondern nur ein aktuelles Beispiel. Auch einige Hersteller von Prozessorupgrades für PowerMacs haben sich dieser Strategie schon bemächtigt, genauso wie unzählige andere Firmen aus komplett verschiedenen Marktsegmenten. Prinzipiell kann man auch niemandem einen Vorwurf machen, der solche Balkengrafiken veröffentlicht - solange die Skala der Achse deutlich beschriftet ist (bei AMD der Fall). Man sollte beim Betrachten derartiger Grafiken aber stets auf das tatsächlich abgebildete Intervall achten.

This example shows how easy it is to visually exaggerate differences, simply start your chart at a value higher than 0% (but below the lowest score...).
I want to make clear that AMD is by far not the only company using this kind of marketing gag, it's just an example. Some manufacturers of PowerPC upgrades for Macs did the same, as well as many other companies selling completely different kinds of products. In principle you can't blame someone posting this kind of charts - as long as the scale showes clearly (by numbers) at which point it starts and ends (AMD did this right). But be aware how easy it is to fake some facts in charts.

 

Auswahl des Benchmarks

Selection of benchmarks

Es spielt sehr wohl eine Rolle, welchen Benchmark man zum Vergleich von Computersystemen heranzieht. Jeder Benchmark misst nur gewisse Operationen und gibt daher auch nur Auskunft über die Leistung des Systems in genau dieser Aufgabe. Dies lässt sich mit den Intelligenztests für Menschen vergleichen: Es gibt nicht den Intelligenztest, jeder der unzähligen IQ-Tests misst nur gerade das was er eben misst - eines der grossen Probleme der Psychologie ist die Definition des Begriffs "Intelligenz" (welche Aspekte umfasst dieser Begriff überhaupt).

The selection of benchmarks is important when comparing different computer systems. Each benchmark only tests some parts of a computer, and always in different ways. A benchmark only tells you how fast a computer is performing a specific task. This is equal to intelligence tests: There's no such thing like "the" intelligence test, there are a lot of them available, and each of them only measures what it measures - one of the big problems in Psychology is the definition of "intelligence" (what does it include).

Zurück zu den Computern, und zurück zu AMDs veröffentlichten SPECmarks, denn hier zeigt sich ein sehr interessanter Effekt: Das Ergebnis des SPECfp95 misst nicht etwa nur die Leistung der Floating Point Unit (FPU), sondern hängt vielmehr von der Busgeschwindigkeit des Rechners ab. Da AMDs K7-Prozessor einen sehr schnellen Bus besitzt (183 MHz, sollte ich AMDs Beschreibung richtig verstanden haben, und kompatibel zum Alpha EV6, einem der stärksten Prozessoren überhaupt), zeigt er hier einen deutlichen Vorsprung gegenüber Intels Pentium III (100 MHz Bustakt - siehe Tabellen zur Balkengrafik oben). Da es problematisch ist, einen unzureichenden Benchmark nur anhand unterschiedlicher Rechnerarchitekturen zu "entdecken", soll hier ein Beispiel anhand des PowerPC 750 (G3) aufgezeigt werden (Rechner- bzw. Prozessorarchitektur konstant):

Back to computers, and back to AMD and their published SPECmarks. Here we have an interesting effect showing up: The SPECfp95 does not only measure the performance of the floating point unit (FPU), but it is strongly dependent on the bus clock speed. The AMD K7 processor has a really fast bus (183 MHz if I got AMDs description right, and it's Alpha EV6 compatible, Alpha is one of the strongest processors that do exist). Intels Pentium III has only 100 MHz bus speed, and a definitively lower SPECfp95 score (see tables in the topic "bar charts" above). It's not easy to find a problematic benchmark by comparing results of different hardware architectures. The following example uses a PowerPC 750 (G3) processor, this means equal processor architecture:

MHz: CPU/Cache/Bus SPECint95 SPECfp95
G3/450/225/100 21.4 13.8
G3/466/233/83 21.8 12.6
More SPECmarks (Table & Charts)

Erwartungsgemäss liegt die Integer-Performance (SPECint95) des schneller getakteten Prozessors höher, und zwar um 1.9% (die Taktraten unterscheiden sich um 3.6%). Bei der Leistung der FPU (SPECfp95) führt aber interessanterweise der langsamere Prozessor um satte 9.5%, und das nur aufgrund des schnelleren Busses. Derartige Ergebnisse wird man aber auch mit den kompliziertesten RayTracing-Programmen nicht feststellen, der SPECfp95 ist hier einfach kein angemessenes Werkzeug. Genau dieser Umstand hat übrigens auch dazu geführt, dass Ziff-Davis keine Macbench 4.0 FPU-Werte mehr veröffentlichte. Mit einem geschickt gewählten Benchmark kann man die Leistung eines Systems deutlich übertrieben darstellen, AMDs K7 zeigt beim SPECfp95 einen rund 46% höheren Wert als der Pentium III bei gleicher Taktrate.

As expected the faster processor gets the higher (+1.9%) integer score (SPECint95). The CPUs have a clock speed difference of 3.6%. But the FPU performance (SPECfp95) shows the opposite: The lower clocked processor gets a 9.5% higher score, just because of its faster bus speed. In real world applications you would not get such an effect, not even in complex ray tracing tasks. This is also a reason why Ziff-Davis stopped publishing Macbench 4.0 FPU scores some years ago. Using the right benchmark you can "proove" an immense performance advantage over other products, AMDs K7 shows a 46% higher SPECfp95 score than Intels Pentium III at the same clock speed.

Auch die Aussagekraft des BYTEmarks, den Apple gerne zur Demonstration der Überlegenheit der PPC-Architektur gegenüber Intels Pentium-Rechnern heranzieht, ist mehr als zweifelhaft. Zu diesem Benchmark haben wir einen eigenen Artikel.

The results of the BYTEmark, still used by Apple to show the PPC advantage over Intels Pentiums, are more than dubious. We've a separate article on this benchmark.

Bei Interesse am Effekt von CPU-Taktung, Busgeschwindigkeit, Cachegrösse und Cachetaktung ist unser Artikel zu diesem Thema zu empfehlen.

If you're interested in the effect of CPU speed, bus speed, cache size and cache speed, check out our review on this topic.

 

Fortsetzung folgt.

To be continued.