Ruferin_Musik

die Ruferin

Die Musik


KI-Synergie am Limes: Wenn Algorithmen dichten und singen

Das Projekt „Die Ruferin“ ist ein Experiment in vollautomatisierter Kreativität. Die über 240 Werke, die am Zaun des Limes zu hören sind, entstanden nicht durch menschliche Feder, sondern durch den direkten Dialog zweier hochspezialisierter KI-Systeme.


Der digitale Entstehungsprozess

Die Musik und die Texte sind das Ergebnis einer nahtlosen digitalen Kette, bei der die menschliche Komponente lediglich den Anstoß gibt:

  • Die Lyrik (Gemini):
    Sämtliche Liedtexte wurden von der KI Gemini entworfen. Basierend auf dem historischen und philosophischen Kontext des Limes-Projekts generierte das System die Verse direkt in digitaler Form.
  • Die Komposition (Suno):
    Diese KI-generierten Texte wurden ohne manuelle Umformung in das System Suno übertragen. Dort erfolgte die vollständige musikalische Interpretation – von der Melodieführung über die Instrumentierung bis hin zum Gesang.
  • Die Auswahl (…ein bisschen Mensch muß sein):
    Da die KI oft verschiedene Varianten eines Titels vorschlägt, wurde lediglich der passende Durchgang ausgewählt und für die Website finalisiert.

Kulturelle Authentizität durch „Style Prompting“

Ein zentraler Aspekt der musikalischen Identität der Ruferin ist die Berücksichtigung der kulturellen Eigenheiten jeder der über 40 verwendeten Sprachen. Damit die KI nicht nur einen beliebigen Popsong generiert, kam ein System von spezialisierten englischsprachigen Stil-Prompts zum Einsatz. Diese Anweisungen steuern die KI gezielt in die jeweilige musikalische Tradition der Sprachregion:

  • Phonetische Präzision:
    Um die Aussprache in Sprachen wie Quechua, Tibetisch oder Arabisch zu sichern, wurden die Prompts mit technischen Begriffen wie clear articulation oder native inflection ergänzt.
  • Instrumentale Kontextualisierung:
    Die Musikstile wurden nicht zufällig gewählt. Für spanische Texte wurden beispielsweise Prompts wie Spanish Polyphonic Acapella, rhythmic clapping (Palmas) genutzt, während für arabische Stücke Anweisungen wie Maqam-based Acapella, rich female ornamentation die Grundlage bildeten.
  • Raum und Atmosphäre:
    Durch Begriffe wie cathedral reverb oder mountain valley echo wurde ein akustischer Raum geschaffen, der die geographische Herkunft der jeweiligen Sprache widerspiegelt.

Reinheit der Maschine

Dieser Ansatz sorgt für eine ästhetische Konsequenz: Sowohl das Wort als auch der Ton entspringen derselben technologischen Ära. Durch die gezielte Steuerung der Stilmittel wird sichergestellt, dass die Ruferin trotz ihrer digitalen Herkunft die kulturelle Tiefe der Sprachen respektiert, die sie in die Welt hinausträgt.


Achtung: Ab hier beginnt die NERD-Sektion


System-Architektur & Technical Stack: „Die Ruferin“

Das Projekt „Die Ruferin“ ist weit mehr als eine Skulptur – es ist ein Cyber-Physical System, das die Grenze zwischen generativer digitaler Kunst und physischer Präsenz verwischt. Diese Dokumentation beschreibt den vollständigen Datenfluss vom ersten Token im neuronalen Netz bis zum letzten Millivolt am Lautsprecherausgang.


I. Die kreative Schöpfungskette (Cloud Layer)

In der ersten Phase werden die Inhalte in einer rein digitalen Umgebung synthetisiert. Hier interagieren zwei spezialisierte KIs in einer geschlossenen Kette.

  • NLP & Lyrics-Synthese (Google Gemini):
    Gemini fungiert als „Poet-in-Residence“. Durch gezieltes Context Injection (Einspeisung historischer Fakten zum Limes, der Ruferin-Skulptur und philosophischen Überlegungen zur babylonischen Sprachverwirrung) wurden 246 individuelle Drei-Zeiler generiert. Das System musste dabei kulturelle Nuancen in über 42 Sprachen wahren, während es eine strikte strukturelle Vorgabe für die spätere Vertonung einhielt.
  • Audio-Synthese & Prompt Engineering (Suno AI):
    Die Texte werden im Custom Mode verarbeitet. Hier kommt das von uns entwickelte „Style Prompting“ zum Einsatz. Da Suno dazu neigt, Texte „westlich“ zu harmonisieren, nutzen wir komplexe englischsprachige Anweisungen, um ethnologische Authentizität zu erzwingen:
    • Struktur-Tags:
      [Verse], [Pause], [End] steuern das Timing.
    • Musikologische Parameter:
      Anweisungen wie Dorian mode, pentatonic scales oder spezifische Instrumente wie Kora, Oud oder Nyckelharpa definieren den regionalen Klangcharakter.

II. Web-Infrastruktur & User Interface (Logic Layer)

Sobald die Daten (Texte und Audio-Links) vorliegen, werden sie in das CMS integriert, das als Schnittstelle für die Besucher am Zaun dient.

  • Daten-Ingest & Datenbank-Mapping:
    Mittels WP All Import werden die TSV-Rohdaten in einen Custom Post Type (songs) überführt. Dabei wird jedem Lied eine eindeutige vierstellige ID zugewiesen.
  • O(1)-Redirect-Logik (PHP):
    Um die Nutzererfahrung so schnell wie möglich zu gestalten, nutzt die Suche kein schwerfälliges Volltext-Indexing. Ein maßgeschneidertes PHP-Skript fängt die Suchanfrage ab, führt ein String-Padding durch (z. B. wird aus „20“ die „0020“) und nutzt get_page_by_title. Dies resultiert in einer extrem geringen Latenz beim Aufruf der Lieder.
  • CSS-Minimalismus:
    Durch radikales Meta-Stripping via CSS werden alle WordPress-eigenen Header, Footer und Meta-Daten unterdrückt. Was bleibt, ist ein puristisches Interface, das durch white-space: pre-wrap die exakte Lyrik-Struktur der KI-Generierung beibehält.

III. Hardware-Bridging & Media-Deployment

Dieser Bereich beschreibt den physischen Transfer der Daten von der Web-Oberfläche in die Skulptur.

  • Audio-Extraction:
    Die finalen MP3-Dateien werden von Suno exportiert. Da Hardware-MP3-Player (wie der DFPlayer Mini) oft eine spezifische Indizierung benötigen, werden die Dateinamen automatisiert an das System angepasst (z. B. 0001.mp3, 0002.mp3).
  • Flash-Speicher-Management:
    Die MP3s werden auf eine industrietaugliche Micro-SD-Karte (FAT32) übertragen. Hier ist die physische Reihenfolge beim Kopieren entscheidend, da einfache MP3-Module oft nicht nach Dateiname, sondern nach der Position im File Allocation Table (FAT) indizieren.

IV. Embedded Software & Synchronisation (Control Layer)

Das „Gehirn“ der Skulptur – ein Arduino-basiertes System – übernimmt die finale Regie.

  • Metadaten-Extraktion:
    Bevor der Code auf den Arduino geladen wird, erfolgt eine Extraktion der Metadaten aus der MP3-Sammlung. Hierbei werden die Sprache und die exakte Spieldauer jedes Tracks in Millisekunden gemessen.
  • Software-Integration (C++):
    Diese extrahierten Listen werden als Arrays in den Arduino-Sketch integriert.C++unsigned long trackDurations[] = {60200, 58450, 61100, ...};
  • Hardware-Steuerung (UART):
    Der Arduino kommuniziert über die Serielle Schnittstelle (UART) mit dem MP3-Modul. Er sendet Befehle zur Trackwahl und nutzt die hinterlegten Zeitdaten, um Lichteffekte oder die Stromzufuhr exakt mit dem Ende des Audiosignals zu synchronisieren. Sobald der Song endet, versetzt der Mikrocontroller das System wieder in den Standby-Modus, um auf den nächsten Ruf zu warten.

V. Visuelles Feedback & User Interface (Hardware Layer)

Zur Überwachung des Systemstatus und zur Information der Besucher vor Ort verfügt die Steuerungseinheit über ein integriertes Textdisplay, das eine unmittelbare Rückmeldung zum aktuell aktiven Prozess gibt.

  • I2C-Bus-Kommunikation:
    Die Ansteuerung des Displays erfolgt über den I2C-Bus (Inter-Integrated Circuit). Dabei fungiert der Arduino als Master und adressiert das Display als Slave über die SDA- (Serial Data) und SCL-Leitungen (Serial Clock). Diese serielle Kommunikation reduziert den Verkabelungsaufwand auf nur zwei Datenleitungen und ermöglicht eine saubere Trennung der Signalwege innerhalb der Skulptur.
  • Dynamische Statusanzeige:
    Sobald ein Track durch den Mikrocontroller adressiert wird, liest die Software die entsprechenden Informationen aus den internen Daten-Arrays aus. Das Display gibt daraufhin in Echtzeit zwei entscheidende Parameter aus:
    1. Tracknummer:
      Die vierstellige Kennung des Liedes (0001–0246).
    2. Sprachbezeichnung:
      Die im Metadaten-Mapping hinterlegte Sprache des jeweiligen Werks.
  • Benutzerführung:
    Diese Anzeige dient nicht nur der technischen Diagnose während der Wartung, sondern validiert für den Betrachter die akustische Erfahrung. Es stellt die Brücke zwischen der physischen Eingabe (z. B. über das Web-Interface oder die Steuerung) und der auditiven Wiedergabe dar, indem es die Identität des „Rufs“ visuell bestätigt.