Anleitung zum Excel-Addin ESCMA.xla

Abdelkarim Habib
Martin Wilke
Marcel Neitsch
Iván Santibáñez Koref*

28. März 2006

*Fehlermeldungen und Kommentare an:

Version 1.0 , March 2006
Copyright © 2006 Habib, Neitsch, Santibáñez Koref, Wilke (HNSW)

Fachgebiet Bionik und Evoutionstechnik
Technische Universität Berlin
Sekr. ACK1
Ackerstrasse 71-76
13355 Berlin

Fax.: (+49 30) 314 72 019
Tel.: (+49 30) 314 72 655
Email: isk@bionik.TU-Berlin.DE


1 The GNU General Public License
2 Einleitung
3 Theorie der Evolutionsstrategie
 3.1 Die (m,c)-Evolutionsstrategie
 3.2 Die (m/m,c)-Evolutionsstrategie
 3.3 Die Kovarianz - Matrix - Adaption(CMA) [2]
4 Ausführliche Anleitung zur Benutzung und Funktion des Excel-Addins
 4.1 Basiseinstellungen
 4.2 Erweiterte Einstellungen
 4.3 Beschreibung der Schnittstelle zur Implementierung in andere Makros
5 Kurzanleitung


Ablaufdiagramm einer einfachen (1,3) - ES
Kreisförmige und Ellipsoide Mutationsverteilung
Untermenü zur Einstellung der Makrosicherheit in Excel
Eingetragene Messwerte im Excelsheet mit geplotteter Funktion.
Die Modellfunktion wird für den ersten Messwert definiert.
Die fertige Beispieltabelle, mit der die Koeffizienten angepasst werden können.
Basiseinstellungen des ES-Optimizers
Die fertige Beispieltabelle, nach der Anpassung der Koeffizienten.
Erweiterte Einstellungen ,,Stopping Criteria”
10 Erweiterte Einstellungen ,,Generation Properties”
11 Screenshot einer Beispieldatei in Excel zur Verwendung des Addins

2 Einleitung

Als Ingenieur steht man häufig vor dem Problem an einen Satz gemessener Datenpunkte eine Modellfunktion anpassen zu müssen. Solange diese linear ist, führen mathematisch analytische Methoden schnell ans Ziel. Das Prinzip beruht darauf ein Minimalwertproblem zu lösen. Hierzu wird eine Fehlerfunktion (Summe der Fehlerquadrate) definiert, in die die Modellfunktion eingesetzt wird. Bei linearen Funktionen führt diese Vorgehensweise letztendlich dazu ein lineares Gleichungssystem zu lösen. Sind die Daten jedoch nur mit einer nichtlinearen Funktion anzupassen, kann das genannte Minimierungsproblem nur iterativ angenähert werden. Die klassische Mathematik schlägt dafür lokal deterministische Methoden, wie z.B. die Gradientenstrategie vor. Das hier beschriebene Excel-Addin hingegen verwendet zur Lösung dieser Aufgabe die Evolutionsstrategie. Der Vorteil liegt darin, dass der Fortschritt der Evolutionsstrategie bei hoher Anzahl der Problemdimensionen schneller vonstatten geht als bei der Gradientenstrategie. Je komplizierter also die Modellfunktion ist, desto empfehlenswerter ist es die Evolutionsstrategie zu verwenden.

Das vorliegende Excel-Addin ermöglicht es auf einfache Art und Weise eine Modellfunktionen für einen bestimmten Datensatz mit oben beschriebener Methode anzupassen. Mit Hilfe der grafischen Funktionen von Excel kann auf diese Weise schnell überprüft werden, ob der gewählte Ansatz die Daten hinreichend genau annähert. This addin may be distributed under the terms of General Public License (Seite 7: Terms and Conditions For Copying, Distribution and Modification).

Die Vorliegende Anleitung gliedert sich in drei Teile. Im ersten Abschnitt wird auf die Theorie der Evoultionsstrategie(ES) eingegangen. Es wird die allgemeine Vorgehensweise einer einfachen Strategie dargelegt, sowie die grundlegenden Strategieparameter erläutert. Weiterhin wird kurz auf die Funktionsweise, der im Programm verwendeten höheren ES eigegangen. Dieser Abschnitt enthält keine wichtigen Informationen um das Addin in seiner Grundfunktionalität zu bedienen. Wer also nur schnell ein vorliegendes Problem lösen will, kann diese Seiten ruhig überblättern. Sie dienen lediglich dazu dem Leser einen groben Überblick zu verschaffen nach welchen Algorithmen das Programm prinzipiell arbeitet.

Der zweite Abschnitt befasst sich mit der genauen Bedienung des Addins. Anhand eines Beispiels wird ausführlich erläutert wie das Addin zu verwenden ist um einen gegebenen Datensatz zu ,,fitten”. Weiterhin werden alle möglichen Einstelloptionen erklärt. Dieses Kapitel ist an diejenigen gerichtet, die praktisch schnell ein Problem lösen wollen aber nicht viel Erfahrung im Umgang mit Excel Makrofunktionen und/oder der Evolutionsstrategie haben.

Für alle, die es besonders eilig haben, gibt der letzte Teil nochmal eine Anleitung zur Bedienung in absoluter Kurzform. Wer sich mit Excel und der Evolutionsstrategie auskennt, wird hier am schnellsten zum Ziel gelangen.

3 Theorie der Evolutionsstrategie

Die Evolutionsstrategie ist eine numerische Optimierungsmethode die nach dem Vorbild der biologischen Evolution aufgebaut ist. Diese arbeitet allgemein nach dem Darwinschen Prinzip, nach dem nur die Besten überleben: Das bedeutet genauer gesagt, dass nur diejenigen Individuen einer Population überleben, die sich in der vorliegenden natürlichen Umgebung am besten behaupten können. Nur diese Individuen übertragen ihr Erbmaterial auf die Folgegeneration, womit über den Lauf der Jahre gute Erbeigenschaften akkumuliert werden, während schlechte sozusagen ,,aussterben”. Dieser sehr einfache Grundalgorithmus der Evolution lässt sich recht einfach auf die Technik übertragen. Wichtig ist dabei zunächst eine Qualitätsfunktion zu definieren, die es erlaubt die Individuen untereinander zu vergleichen, um letztendlich eine Aussage darüber machen zu können welches sich in der vorgegebenen Umgebung am besten behauptet. Diese Qualitätsfunktion hängt natürlich davon ab, welches Ziel man mit der Optimierung erreichen will. Die einzelnen Individuen besitzen, genau wie in der Natur, gewisse Erbmerkmale, in diesem Fall durch Variablen dargestellt, die unterschiedlich ausgeprägt sein können. Diese Ausprägung ist durch den konkreten Wert der jeweiligen Variable gegeben. Ein Individuum wird mathematisch also durch einen Vektor dargestellt. Je mehr Eigenschaften es besitzt, desto höher ist die Dimension des Vektors.

Die einfachste denkbare Strategie ist eine so genannte (1,c)-ES. Bei dieser Vorgehensweise wird zunächst ein Elter erzeugt. Das bedeutet, dass jedes Merkmal für den Anfang zufällig bestimmt wird. Dieser Elter setzt c Kinder in die Welt. Mathematisch bedeutet dies, dass jedes Kind wie folgt aus dem Eltervektor berechnet wird:

-X-----> =  --X- --->  + -Z----->  .d
  Kind    Elter   gauss

Zgauss  ist ein Vektor, dessen Einträge (0,1)-Normalverteilte Zufallszahlen sind. Diese Wahrscheinlichkeitsverteilung beschreibt die natürliche Mutation am Besten: geringe Abweichungen treten grundsätzlich häufiger auf als starke. d ist ein Skalar und stellt die Schrittweite dar. Sie konditioniert im Prinzip die Mutation auf das vorliegende Problem, gibt also an wie stark die Merkmale der Kinder im Mittel von denen des Elters abweichen. Sind alle c Nachkommen erzeugt worden, wird mit Hilfe der Qualitätsfunktion der beste Nachkomme bestimmt. Diese Bestimmung kann im Computer durch direkte Auswertung einer Funktion erfolgen. Sie kann aber auch dadurch gemacht werden, dass jedes Individuum technisch in irgendeiner Art realisiert wird, einem Experiment unterzogen und der Ausgang dieses Experiments wiederum in eine Qualitätsfunktion eingerechnet wird. Die Definition der Qualität ist letztendlich ausschlaggebend. Ist der beste Nachkomme der ersten Generation bestimmt worden, wird er als Elter der nächsten Generation gesetzt. Die Schritte wiederholen sich dann solange bis kein Fortschritt mehr stattfindet und der Lauf abgebrochen wird.


Abbildung 1: Ablaufdiagramm einer einfachen (1,3) - ES

Es sei hier erwähnt, dass dies nur die absoluten Grundzüge der Theorie sind. Für das sichere Funktionieren der Strategie ist noch mindestens eine Steuerung der Schrittweite (z.B. durch ,,mutative Schrittweitenregelung”) notwendig, auf die hier nicht weiter eingegangen wird. Interessierten Lesern wird weiterführende Literatur [1] empfohlen.

3.1 Die (m,c)-Evolutionsstrategie

Die (m,c)-ES unterscheidet sich nicht sehr stark von der (1,c)-ES. Wie zu erwarten ist, arbeitet erstere Strategie nicht mit einem, sondern mit m Eltern. Um einen Nachkommen zu bestimmen, wird zufällig (gleichwahrscheinlich) einer der m Eltern ausgewählt und wie im vorigen Abschnitt beschrieben mutiert. Nachdem alle c Kinder erzeugt wurden, werden die besten m Kinder zu den Eltern der nächsten Generation.

Vorteile hat die (m,c)-ES gegenüber der (1,c)-ES hauptsächlich in sogenannten ,,verrauschten Qualitätsgebirgen”, in denen die Bewertung der Qualität eines Individuums einer gewissen Streuung unterworfen ist (siehe [1] S.190-191). Solche Vorraussetzungen sind jedoch bei reinen Computerexperimenten, wie sie das vorliegende Programm durchführt, gewöhnlicher Weise nicht gegeben.

3.2 Die (m/m,c)-Evolutionsstrategie

Eine (m/m,c)-ES bezieht die Wirkung der sexuellen Fortpflanzung auf die Evolution in ihren Algorithmus mit ein. Wie bei der vorher erklärten Strategie erzeugen m Eltern c Kinder. Die Mechanismen, die hierbei angewendet werden unterscheiden sich jedoch grundsätzlich voneinander. Anstatt einen Elter zufällig zur Mutation auszuwählen, werden die einzelnen Erbmerkmale aller Eltern arithmetisch gemittelt. Es entsteht damit ein sogenannter Elternschwerpunkt, der nun wiederum wie bereits bekannt c mal mutiert wird um die einzelnen unterschiedliche Kinder zu erhalten.

Die Bezeichnung des beschriebenen Vorgangs wird in der Evolutionsstrategie ,,Kontinuums - Rekombination” genannt (siehe [1] S.139-140). Andere Merkmalsvermischungen wie die diskrete Rekombination, werden hier nicht weiter betrachtet. Die Vorteile von rekombinativen Strategien kommen ebenfalls besonders deutlich in verrauschten Qualitätsgebirgen zu tragen. Sie haben noch zusätzlich den Vorteil bei großer Variablenzahl wesentlich höhere Fortschrittsgeschwindigkeiten als eine (m/m,c)-ES zu besitzen.

3.3 Die Kovarianz - Matrix - Adaption(CMA) [2]

Der Algorithmus, der in dem vorliegenden Programm implementiert ist, wird als Kovarianz - Matrix - Adaption bezeichnet verhält sich aber im Prinzip wie eine (m/m,c)-ES. Das Wirken einer CMA-ES bezieht sich nämlich prinzipiell nur auf die Mutationsverteilung der Nachkommen. Die Mutation eines Elternvektors wird in einer gewöhnlichen ES mathematisch laut Formel 1 beschrieben. Eine derartige Erzeugung der Nachkommenvektoren im hochdimensionalen Raum führt dazu, dass diese im Mittel auf der Schale einer Hyperkugel, deren Mittelpunkt der Elter bildet, angeordnet werden. Die Schrittweite d beschreibt dabei den Radius dieser Hyperkugel.
Betrachtet man Abbildung 2, wird klar dass es durchaus sinnvoll sein kann die Mutationsverteilung entsprechend der Qualitätslandschaft anzupassen.


Abbildung 2: Kreisförmige und Ellipsoide Mutationsverteilung

Die Infomrationen, die hierfür benötigt werden zieht die CMA-ES aus den selektierten Nachkommen der letzten Generationen. Gestartet wird beispielsweise von einer kreisrunden Mutationsverteilung. Ist der Elternschwerpunkt der laufenden Generation bestimmt, wird die Verteilung in seine Richtung etwas gestreckt. Da weiter zurückliegende Generationen vernünftiger Weise einen geringeren Beitrag zur aktuellen Mutationsverteilung haben sollten, werden die Schwerpunkte je länger sie von der aktuellen Generation zurückliegen abgeschwächt gewichtet. Auf diese Weise passt sich die Verteilung der Nachkommen immer der lokalen Form des Qualitätsgebirges an.
Die beschriebene Vorgehensweise erklärt zwar den Mechanismus der Anpassung sehr gut, ist aber nicht ratsam genau so zu implementieren. Jeder während der Evolution erzeugte Elternschwerpunkt müsste gespeichert werden, wodurch der Speicherplatzbedarf exponentiell mit der Anzahl der Generationen g ansteigen würde. Stattdessen wird die Mutationsverteilung durch Anpassung ihrer Kovarianzmatrix mit Hilfe sogenannter Evolutionspfade angepasst. Der Speicherplatzbedarf des Algorithmus beschränkt sich somit auf O(n2).

4 Ausführliche Anleitung zur Benutzung und Funktion des Excel-Addins

Dieser Abschnitt teilt sich in drei Unterabschnitte auf. Als erstes sollen die Basiseinstellungen beschrieben werden die für die Durchführung einer jeden Berechnung zwingend notwendig sind. Anschliessend werden die erweiterten Einstellungen vorgestellt die es einem ermöglichen die Parameter der verwendeten ES selber einzustellen. Zu guter Letzt erfolgt eine Vorstellung der Schnittstelle des Addins um eine Implementierung in eigenen Quellcode zu vereinfachen.

4.1 Basiseinstellungen

Die Einstellung die auf jeden Fall erfolgen muss um das Addin benutzen zu können ist die Anpassung der Sicherheitseinstellungen von Excel. Hierzu muss das Untermenü Extras '--> Makro '--> Sicherheit aufgerufen werden (Abb. 3).


Abbildung 3: Untermenü zur Einstellung der Makrosicherheit in Excel

Es erscheint dann ein Fenster in dem die Einstellungsstufe auf Mittel gestellt werden muss. Ist die Stufe „Mittel“ gewählt, muss man nach dem Öffnen des Makros einmal bestätigen, dass man das Makro wirklich ausführen will. Bei der Einstellung „Niedrig“ entfällt diese Abfrage. Excel führt dann allerdings auch ungefragt JEDES Makro aus. Es ist ausserdem möglich den ES-Optimizer Standardmässig beim Start von Excel mitzuladen. Dazu muss man im Untermenü Extras '--> Add-Ins den escma.xla Makro eintragen.

Sind diese Voreinstellungen erfolgt, kann man den Sheet mit den Messdaten öffnen. In dieser Anleitung soll die Erklärung des Makros anhand eines Beispiels durchgeführt werden. Man öffnet also seine Messdaten in Excel oder gibt sie in einen leeren Sheet ein. Anschließend erstellt man ein Diagramm aus den Daten um einen optischen Eindruck des Funktionsverlaufes zu bekommen. Abbildung 4 zeigt eine Beispieltabelle, in der diese Arbeitsschritte bereits durchgeführt wurden.


Abbildung 4: Eingetragene Messwerte im Excelsheet mit geplotteter Funktion.

Der Funktionsgraph erinnert an die Gaußsche Fehlerfunktion, weshalb diese im weiteren Verlauf als Modellfunktion verwendet werden soll. Die Gaußsche Fehlerfunktion ist definiert als:

f(x) =  V~ -1--.e---2s2-
Sie hat die zwei Koeffizienten s und m, die jetzt dahingehend angepasst werden sollen, dass die Funktion bei den gegebenen X-Werten möglichst die gleichen Y-Werte produziert, wie sie durch die Messwerte gegeben sind. In der Wahrscheinlichkeitstheorie wird m der Erwartungswert genannt, während s die Streuung angibt. Theoretisch könnte jede beliebige Modellfunktion an die Messwerte angepasst werden. Welche Funktion sinnvoller Weise gewählt werden sollte, liegt im Ermessen des Benutzers.
Um s und m mit Hilfe des Makros anzupassen, muss jetzt die Funktion auf die durch die Messdaten vorliegenden X-Werte angewendet werden. Dazu definiert man zunächst zwei Zellen, die für die beiden Koeffizienten stehen und trägt zwei beliebige Startwerte ein. Anschließend trägt man in die Zelle neben dem ersten Messwert die Gaussfunktion ein, wobei die Parameter s und m als feste Zellbezüge angegeben werden, während der entsprechende X-Wert als relativer Zellbezug angegeben wird. In Zelle C2 steht also letztendlich:

Die bis dahin erstellte Tabelle ist in Abbildung 5 zu sehen.


Abbildung 5: Die Modellfunktion wird für den ersten Messwert definiert.

Die Zelle C2 kann nun kopiert werden, so dass neben jedem Y1-Messwert ein mit Hilfe der Modellfunktion berechneter Y2-Wert steht. In die Grafik wird eine weitere Datenreihe (X,Y2) hinzugefügt. Es muss nun noch eine Qualitätsfunktion erstellt werden damit die Evolutionsstrategie funktionieren kann. Dazu wird für jedes Messwert/Näherungswert - Paar das Quadrat der Abweichung berechnet. Anders ausgedrückt wird für jeden Messwert der vorzeichenfreie Fehler err = (Y 1 - Y 2)2 gebildet. Abschließend werden alle diese Fehler zu einem Gesamtfehler aufsummiert. Die fertige Tabelle ist in Abbildung 6 zu sehen.


Abbildung 6: Die fertige Beispieltabelle, mit der die Koeffizienten angepasst werden können.

Man hat nun alle notwendigen Vorbereitungen getroffen damit die Anpassung der Koeffizienten durch die Evolutionsstrategie mit Hilfe des Makros erfolgen kann. Dazu wählt man im Menü den Punkt Extras '--> ES-Optimizer worauf sich ein Dialogfenster öffnet (siehe Abb. 7) in dem man die Basiseinstellungen vornehmen muss.


Abbildung 7: Basiseinstellungen des ES-Optimizers

Wie man an der Abbildung schon erkennen kann, ist der ES-Optimizer aktuell nur für Minimierungsprobleme ausgelegt. Die erforderlichen Einträge für die zwei vorhandenen Eingabefelder werden im Folgenden erklärt.

Sind diese Einstellungen erfolgt, wird die Berechnung durch Anklicken des Start-Buttons gestartet. Nach erfogreicher Berechnung wird die Anzahl der Iterationen oder in evolutionsstrategischer Sprache die Anzahl der Generationen angezeigt und die neuen angepassten Koeffizienten eingetragen. Durch die grafische Darstellung lässt sich jetzt schnell erkennen ob die Messwerte von der neuen errechneten Kurve gut nachgebildet werden oder nicht. Im vorliegenden Beispiel (Abb.8) sind die Messwerte und die Aproximierungskurve fast Deckungsgleich.


Abbildung 8: Die fertige Beispieltabelle, nach der Anpassung der Koeffizienten.

4.2 Erweiterte Einstellungen

Klickt man auf das Bedienfeld ,,Options” so erhält man die Möglichkeit erweiterte Einstellungen vorzunehmen die hier im Detail erklärt werden sollen.
Es werden 2 Registerkarten (,,Stopping Criteria” und ,,Generation Properties”) angezeigt die die erweiterten Einstellung beinhalten.

4.3 Beschreibung der Schnittstelle zur Implementierung in andere Makros

Das Add-In escma.xla besitzt ein Modul, welches dem Benutzer ermöglicht den Algorithmus bequem direkt von anderen Makros aufzurufen. Das Modul hat den Namen „SubroutineWithoutDialog“ und stellt zwei Subroutinen zur Verfügung. Beide sollten zweckmäßiger Weise mit benannten Parametern aufgerufen werden, die selbsterklärend sind wenn man mit der Bedienung des Makros vertraut ist. Es folgen die Namen der Makros, mit den Namen der jeweiligen Parameter. Die Klammern hinter den Paramternamen geben an, ob das Argument optional ist. Wird ein optionales Argument nicht explizit angegeben, verwendet das Add-in den entsprechenden Standardwert:

Um auf die Subroutinen von einem anderen Projekt aus Zugriff zu haben, muss man zunächst einen Verweis auf das Addin machen (Extras '--> Verweise).

5 Kurzanleitung

Aufgabe ist es an gegebene Messwerte ein Modellfunktion anzupassen. Die Beispielmesswerte in dieser Kurzanleitung sind dieselben wie aus Abbildung 4. Die Kurve ähnelt der Gaussfunktion, weshalb diese als Modellfunktion gewählt wird. Nachdem alle Arbeitsschritte, die zur Verwendung des Makros notwendig sind durchgeführt wurden, sieht die Exceltabelle wie in Abbildung 11 aus. Die Kurzanleitung referenziert im folgenden die eingezeichneten Punkte aus dieser Abbildung. Es wird davon ausgegangen, dass die Messwerte noch nicht eingegeben sind und das Makro nicht fest als Addin installiert ist.


Abbildung 11: Screenshot einer Beispieldatei in Excel zur Verwendung des Addins

  1. Neues Excelsheet öffnen.
  2. Macro Sicherheitseinstellungen anpassen (mittlere Sicherheitsstufe)
  3. escma.xla laden
  4. Eintragen der X- (Punkt 1 in der Abbildung) und Y1- (Punkt 2 in der Abbildung) Werte der Messdaten in jeweils eine Spalte.
  5. Eintragen der Parameter der zu approximierenden Funktion (Bsp. ax2 + bx + c) (Punkt 5 in Abbildung 11) und auf einen Startwert setzen (z.B. 0 oder 1)
  6. In einer neuen Spalte die Y2-Werte der zu approximierenden Funktion berechnen lassen. Die Y2-Werte an den Stellen auswerten, die auch durch die Messdaten vorliegen, also dieselben X-Werte für die zu fittende Funktion verwenden.(Punkt 3 in Abbildung 11)
  7. Differenz zwischen errechneten (Punkt 3) und eingetragenen(Punkt 2) bilden und quadrieren (Punkt 4 in Abbildung 11)
  8. Summe der Quadrierten Differenzen bilden (Punkt 6 in Abbildung 11)
  9. Aus den Einträgen 1 und 2 eine Graphen zeichnen sowie aus 1 und 3 (beide in ein Diagramm).
  10. Menü Extras '--> ES-Optimizer anwählen
  11. Parameters to fit: Die Koeffizienten der Approximationsfunktion wählen (Punkt 5 in Abbildung 11)
  12. Function to optimize: Die Summe der Fehlerquadrate auswählen (Punkt 6 in Abbildung 11)
  13. Start drücken


[1]   Rechenberg, Ingo: Evolutionsstrategie ’94, Stuttgart, Frommann-Holzboog, 1994

[2]   Hansen, Nikolaus: Verallgemeinerte individuelle Schrittweitenregelung in der Evolutionsstrategie : eine Untersuchung zur entstochastisierten, koordinatensystemunabhängigen Adaptation der Mutationsverteilung, Mensch & Buch Verlag 1998