Baustellenprotokolle per Sprachmemo: Lokaler KI-Workflow fĂŒr Bauleiter:innen

Wer regelmĂ€ĂŸig Baustellenbegehungen protokolliert, kennt das Problem: Vor Ort schnell ein paar Notizen festhalten, zurĂŒck im BĂŒro die eigene Handschrift entziffern und dann alles in ein ordentliches Dokument ĂŒbertragen – das dauert und ist fehleranfĂ€llig.

Sprachaufnahmen wĂ€ren praktischer, doch die anschließende Verschriftlichung bleibt zeitraubend.

Mit drei Werkzeugen lĂ€sst sich dieser Ablauf heute weitgehend automatisieren und deutlich beschleunigen. Transkription und Textstrukturierung laufen lokal auf dem eigenen Rechner. FĂŒr die Software im Kern-Workflow fallen dabei keine laufenden Lizenzkosten an.

Ein Workflow fĂŒr die Bauleitung: Per KI vom Sprachmemo zum strukturierten Protokollentwurf (Collage: Internet fĂŒr Architekten)

Ein Workflow fĂŒr die Bauleitung: Per KI vom Sprachmemo zum strukturierten Protokollentwurf (Collage: Internet fĂŒr Architekten)

Die Idee: Vom Diktat zum strukturierten Protokoll

Der hier vorgestellte Workflow besteht aus drei bis vier Schritten:

  1. ZunÀchst nehmen Sie Ihre Beobachtungen wÀhrend des Baustellenrundgangs als Audiodatei auf.
  2. Diese wird anschließend lokal transkribiert – ohne Cloud-Dienst und ohne Übertragung der Audiodatei an externe Server.
  3. Im dritten Schritt erzeugt eine KI aus dem unstrukturierten Fließtext einen gegliederten Protokollentwurf mit den im Diktat enthaltenen Angaben zu Datum, Wetter, Anwesenden, Feststellungen und MĂ€ngeln.
  4. Danach ĂŒbernehmen Sie den Text in Ihre gewohnte Textverarbeitung, prĂŒfen bzw. ĂŒberarbeiten ihn und bereiten das Dokument dort fĂŒr den Versand vor.

Die drei Tools im Überblick

FĂŒr den Workflow benötigen Sie (neben Ihrem Smartphone) drei Programme. Zwei davon sind kostenlos und quelloffen. FĂŒr die Textverarbeitung können Sie vorhandene Software oder eine freie Alternative wie LibreOffice Writer nutzen.

a) KI-Spracherkennung: Audio lokal transkribieren

Vibe ist eine benutzerfreundliche Desktop-Anwendung fĂŒr Windows und Mac, die auf dem kostenlos nutzbaren Spracherkennungsmodell Whisper von OpenAI basiert. Die Software lĂ€uft vollstĂ€ndig lokal – Ihre Audiodateien verlassen also nicht den Rechner.

Die OberflĂ€che von Vibe ist schlicht gehalten: Audiodatei per Drag-and-drop hineinziehen, warten, Transkript ĂŒbernehmen.

Mit dem Open Source-Tool Vibe und dem Spracherkennungsmodell Whisper von OpenAI wird das Sprachmemo transkribiert (Screenshot: Internet fĂŒr Architekten)

Mit dem Open Source-Tool Vibe und dem Spracherkennungsmodell Whisper von OpenAI wird das Sprachmemo transkribiert (Screenshot: Internet fĂŒr Architekten)

Als Alternativen zu Vibe eignen sich Buzz (ebenfalls kostenlos und quelloffen, mit Ă€hnlicher OberflĂ€che) oder noScribe (speziell fĂŒr lĂ€ngere Aufnahmen und Interviews optimiert, mit deutschsprachiger BenutzeroberflĂ€che). Alle drei Programme sind fĂŒr die lokale Audiotranskription ohne Cloud-Dienst ausgelegt.

b) Lokale KI-Umgebung: Protokollentwurf erzeugen

Ollama ist eine lokale KI-Umgebung, mit der Sie große Sprachmodelle (LLMs) auf Ihrem eigenen Computer ausfĂŒhren können. Nach der Installation und dem Download des Modells ist dafĂŒr im laufenden Einsatz keine Internetverbindung nötig. Ollama selbst ist dabei nur die Laufzeitumgebung; zusĂ€tzlich benötigen Sie ein Sprachmodell.

FĂŒr diesen Zweck eignet sich zum Beispiel Gemma, ein von Google entwickeltes Open-Weights-Modell, das ebenfalls kostenlos verfĂŒgbar ist und fĂŒr deutschsprachige Texte gut funktionieren kann. Alternativen sind Llama (von Meta) oder Mistral – alle lassen sich mit einem einfachen Befehl in Ollama installieren.

Tipp fĂŒr Fortgeschrittene: Über sogenannte Modelfiles lassen sich spezialisierte Anweisungen (als System-Prompt) in Ollama hinterlegen, die festlegen, wie die KI den Text verarbeiten soll. FĂŒr Baustellenprotokolle können Sie so ein eigenes, auf diesen Anwendungsfall zugeschnittenes Modellverhalten hinterlegen. Siehe ErlĂ€uterung unten.

In der Ollama App wird aus dem Transkript der Entwurf fĂŒr ein strukturiertes Baustellen-Protokoll erzeugt (Screenshot: Internet fĂŒr Architekten)

In der Ollama App wird aus dem Transkript der Entwurf fĂŒr ein strukturiertes Baustellen-Protokoll erzeugt (Screenshot: Internet fĂŒr Architekten)

c) Textverarbeitung: prĂŒfen, ergĂ€nzen, formatieren

Der KI-generierte Text wird in einer Textverarbeitungs-Software Ihrer Wahl geprĂŒft, ergĂ€nzt, formatiert und gespeichert. Wer Vorlagen nutzt, kann das strukturierte KI-Ergebnis direkt in das gewohnte BĂŒroformat ĂŒbertragen.

Tipp: Viele BĂŒros arbeiten bereits mit einer Textverarbeitung wie Microsoft Word oder Apple Pages; alternativ eignet sich auch LibreOffice Writer.

Schritt fĂŒr Schritt: So funktioniert der Workflow

Schritt 1: Audio aufnehmen

WÀhrend des Baustellenrundgangs sprechen Sie Ihre Beobachtungen einfach in ein Smartphone oder DiktiergerÀt. BewÀhrt hat sich folgende Struktur: Beginnen Sie mit Datum, Uhrzeit und Wetterlage. Nennen Sie die anwesenden Personen und deren Firma.

Gehen Sie dann Gewerk fĂŒr Gewerk durch und unterscheiden Sie zwischen Feststellungen („Der Estrich ist verlegt“) und MĂ€ngeln oder Anweisungen („Die DĂ€mmung an der Nordseite weist Feuchtigkeitsflecken auf – Ursache klĂ€ren“).

Tipp: Sprechen Sie Fachbegriffe bewusst deutlich aus – das verbessert die TranskriptionsqualitĂ€t erheblich.

Schritt 2: Transkription per KI

ZurĂŒck im BĂŒro öffnen Sie Vibe und ziehen die Audiodatei in das Programmfenster. Je nach LĂ€nge der Aufnahme und Rechenleistung Ihres Computers dauert die Transkription zwischen wenigen Sekunden und einigen Minuten.

Das Ergebnis ist ein zunĂ€chst unstrukturierter Fließtext, der als Grundlage fĂŒr den nĂ€chsten Schritt dient.

Das in Vibe entstandene Transkript enthĂ€lt noch viele sprachliche Ungenauigkeiten (Screenshot: Internet fĂŒr Architekten)

Das in Vibe entstandene Transkript enthĂ€lt noch viele sprachliche Ungenauigkeiten (Screenshot: Internet fĂŒr Architekten)

Schritt 3: Strukturierung per KI

Das Transkript aus Vibe ist zunĂ€chst nur ein Fließtext – alle Beobachtungen hintereinander weg, ohne Struktur. Jetzt kommt Ollama ins Spiel: eine lokale KI-Umgebung, die ebenfalls kostenlos und offline funktioniert.

Ollama selbst ist dabei nur die Laufzeitumgebung; zusĂ€tzlich benötigen Sie ein Sprachmodell wie Gemma, ein von Google entwickeltes Modell mit offenen Gewichtungen („Open Weights“), das kostenlos verfĂŒgbar ist und deutschsprachige Texte gut verarbeitet. Alternativen sind Llama (von Meta) oder Mistral.

Starten Sie Ollama und geben Sie im Chatfenster zunĂ€chst das Transkript ein. Anschließend formulieren Sie einen Prompt – also eine Anweisung an die KI, was sie mit dem Text tun soll.

Per Copy-and-Paste wird das Transkript in die lokale KI-OberflĂ€che – hier: Ollama – ĂŒbernommen (Screenshot: Internet fĂŒr Architekten)

Per Copy-and-Paste wird das Transkript in die lokale KI-OberflĂ€che – hier: Ollama – ĂŒbernommen (Screenshot: Internet fĂŒr Architekten)

Ein Beispiel:

Erstelle aus dem obigen Text ein strukturiertes Baustellenprotokoll. Gliedere es in: Kopfdaten (Projekt, Datum, Uhrzeit, Wetter, Anwesende), Feststellungen je Gewerk, MĂ€ngelliste mit Verantwortlichkeiten, Vereinbarungen und Termine. Korrigiere typische Transkriptionsfehler bei Baufachbegriffen wie „Bewaehrung“ zu „Bewehrung“. Formuliere sachlich und prĂ€zise.

(„Diskutieren“ Sie den optimalen Prompt auch bitte mit Ihrem gewohnten Chatbot. So können Sie die optimale Anleitung fĂŒr „Ihr“ Protokoll herausarbeiten.)

Was dann passiert: Die KI ordnet die Inhalte den gewĂŒnschten Abschnitten zu und gibt einen gegliederten Protokollentwurf aus. Dieses können Sie direkt kopieren und in Ihrer Textverarbeitung weiterbearbeiten.

Die KI kann viele Passagen den Bereichen Kopfdaten, Feststellungen oder MĂ€ngel zuordnen.

Sie kann typische Transkriptionsfehler bei Fachbegriffen korrigieren und den Text in eine Protokollstruktur ĂŒberfĂŒhren. Beides sollte vor der Weiterverwendung geprĂŒft werden.

In der Ollama App wird aus dem Transkript der Entwurf fĂŒr ein strukturiertes Baustellen-Protokoll erzeugt (Screenshot: Internet fĂŒr Architekten)

In der Ollama App wird aus dem Transkript der Entwurf fĂŒr ein strukturiertes Baustellen-Protokoll erzeugt (Screenshot: Internet fĂŒr Architekten)

Schritt 4: Finalisierung in der Textverarbeitung

Den erzeugten Protokolltext kopieren Sie in Word oder LibreOffice, passen das Layout an Ihre BĂŒrovorlage an und ergĂ€nzen bei Bedarf Fotos oder Skizzen. Nach inhaltlicher PrĂŒfung, Layout-Anpassung und ErgĂ€nzungen liegt ein versandfĂ€higes Protokoll vor.

Wichtig: Namen, Fristen, Verantwortlichkeiten, Mengenangaben und MĂ€ngelbeschreibungen sollten vor Versand immer fachlich geprĂŒft werden.

Den Protokollentwurf können Sie aus Ollama in eine Textverarbeitung ĂŒbernehmen und dort weiter bearbeiten (Screenshot: Internet fĂŒr Architekten)

Den Protokollentwurf können Sie aus Ollama in eine Textverarbeitung ĂŒbernehmen und dort weiter bearbeiten (Screenshot: Internet fĂŒr Architekten)

Vorteile dieses Workflows: Lokal, datenschutz­freundlich und kostengĂŒnstig

Dieser Workflow bringt gleich mehrere Vorteile:

  • Datenschutz: Die Verarbeitung erfolgt lokal auf dem eigenen Rechner. Audiodateien und Transkripte mĂŒssen dabei nicht an externe Server ĂŒbertragen werden – ein wichtiger Aspekt, wenn in Protokollen Namen, Adressen oder vertrauliche Projektdetails vorkommen.
  • Keine laufenden Kosten: FĂŒr Transkription und lokale KI fallen keine laufenden Kosten an; fĂŒr die Textverarbeitung können vorhandene oder freie Programme genutzt werden.
  • Zeitersparnis: Je nach LĂ€nge der Aufnahme, Rechnerleistung und Nachbearbeitung kann in wenigen Minuten ein strukturierter Erstentwurf entstehen.
  • FlexibilitĂ€t: Der Ansatz lĂ€sst sich auch auf andere Protokollarten ĂŒbertragen, etwa auf Begehungsprotokolle, Abstimmungen oder interne Besprechungen.

Was Sie an Technik brauchen

Sprachmemo erstellen: Ein Smartphone oder ein digitales DiktiergerĂ€t benötigen Sie fĂŒr die Aufnahme.

Transkription und Protokollentwurf: FĂŒr kleinere KI-Modelle genĂŒgen meist ĂŒbliche BĂŒrorechner; bei lĂ€ngeren Aufnahmen und grĂ¶ĂŸeren Modellen steigt der Bedarf an Rechenleistung und Arbeitsspeicher.

Die Installation der Software erfordert etwas technisches VerstĂ€ndnis, ist aber deutlich einfacher als eine direkte Whisper-Installation ĂŒber die Kommandozeile. Anleitungen finden Sie auf den jeweiligen Projektseiten der oben genannten Tools.

Ausblick und weitere Einsatzmöglichkeiten

Die Kombination aus lokaler Spracherkennung und KI-gestĂŒtzter Textverarbeitung eröffnet Architekt:innen und Bauleitenden neue Möglichkeiten, zeitraubende Dokumentationsaufgaben zu automatisieren.

Der vorgestellte Workflow ist nur ein Beispiel – die gleichen Werkzeuge lassen sich fĂŒr GesprĂ€chsprotokolle, Gutachten-Notizen oder die Aufbereitung von Vor-Ort-Terminen nutzen.

Wer einmal erlebt hat, wie aus einer fĂŒnfminĂŒtigen Sprachaufnahme in kurzer Zeit ein strukturiertes Protokoll entsteht, wird kaum noch zu Stift und Block zurĂŒckkehren wollen.


Optional fĂŒr Fortgeschrittene: Mit einem Modelfile wiederkehrende Vorgaben dauerhaft hinterlegen

Wer regelmĂ€ĂŸig Baustellenprotokolle erstellt, kann sich die wiederholte Eingabe des Prompts sparen. Ollama bietet die Möglichkeit, ein sogenanntes Modelfile anzulegen – eine kleine Konfigurationsdatei, die den Prompt dauerhaft mit dem Sprachmodell verknĂŒpft.

So entsteht vereinfacht gesagt ein vorkonfigurierter Assistent fĂŒr diesen Anwendungsfall; der ausfĂŒhrliche Prompt muss dann nicht jedes Mal neu eingegeben werden. Dieser Ansatz ist funktional grob vergleichbar mit einem Custom GPT in ChatGPT oder einem Projekt in Claude.

Ein solches Modelfile (siehe Screenshot unten) kann man sich von einem KI-Chatbot vorschlagen lassen und anschließend an die eigenen Anforderungen anpassen.

Wichtig: Die Einrichtung erfolgt im Terminal und erfordert Sorgfalt bei den eingegebenen Befehlen. Das Terminal ist ein mÀchtiges Werkzeug, mit dem man bei falschen Befehlen auch Schaden anrichten kann.

FĂŒhren Sie daher nur Befehle aus, die Sie verstehen und nachvollziehen können. Wer damit nicht vertraut ist, sollte die Einrichtung mit einer fachlich versierten Person oder anhand einer nachvollziehbaren Schritt-fĂŒr-Schritt-Anleitung durchfĂŒhren.

Das Modelfile „bauleiter“ erklĂ€rt

Ein Modelfile ist eine Textdatei, die Ollama mitteilt, wie es sich verhalten soll. Es basiert auf einem Grundmodell – in unserem Fall Gemma – und ergĂ€nzt dieses um spezifische Anweisungen.

Die erste Zeile des Modelfiles legt fest, welches Modell verwendet wird (zum Beispiel FROM gemma3), danach folgen die Verhaltensanweisungen.

Das Modelfile hinterlegt die gewĂŒnschte Protokollstruktur in das KI-Tool (hier: die Ollama App; Screenshot: Internet fĂŒr Architekten)

Das Modelfile hinterlegt die gewĂŒnschte Protokollstruktur in das KI-Tool (hier: die Ollama App; Screenshot: Internet fĂŒr Architekten)

FĂŒr Baustellenprotokolle könnte ein solches Modelfile folgende Anweisungen enthalten:

  • Erstelle aus dem Transkript ein strukturiertes Baustellenprotokoll nach der im BĂŒro verwendeten Gliederung
  • Gliedere in: Kopfdaten (Projekt, Datum, Wetter, Anwesende), Feststellungen je Gewerk, MĂ€ngelliste mit Verantwortlichkeiten, Vereinbarungen und Termine
  • Korrigiere typische Transkriptionsfehler bei Baufachbegriffen
  • Unterscheide zwischen Sachverhalts-Feststellungen und handlungsbezogenen Anweisungen
  • Formuliere sachlich und prĂ€zise

Die genaue Konfiguration lĂ€sst sich an bĂŒrospezifische Anforderungen anpassen, etwa an die eigene Protokollgliederung oder an projektbezogene Checklisten.

« ZurĂŒck zum Webinar-Kalender

Wichtige Hinweise: Die VollstĂ€ndigkeit und Richtigkeit der hier aufgefĂŒhrten Daten können wir leider nicht garantieren. Bitte ĂŒberprĂŒfen Sie alle Angaben immer auf den Seiten der jeweiligen Anbieter. Und: „Internet fĂŒr Architekten“ ist NICHT der Veranstalter der hier genannten Webinare. Wir weisen hier lediglich auf diese Veranstaltungen hin.

Zur Startseite »

Was ist Ihre Meinung dazu?

Pflichtfelder sind mit * markiert.