Wer regelmäßig Baustellenbegehungen protokolliert, kennt das Problem: Vor Ort schnell ein paar Notizen festhalten, zurück im Büro die eigene Handschrift entziffern und dann alles in ein ordentliches Dokument übertragen – das dauert und ist fehleranfällig.

Sprachaufnahmen wären praktischer, doch die anschließende Verschriftlichung bleibt zeitraubend.

Mit drei Werkzeugen lässt sich dieser Ablauf heute weitgehend automatisieren und deutlich beschleunigen. Transkription und Textstrukturierung laufen lokal auf dem eigenen Rechner. Für die Software im Kern-Workflow fallen dabei keine laufenden Lizenzkosten an.

Die Idee: Vom Diktat zum strukturierten Protokoll

Der hier vorgestellte Workflow besteht aus drei bis vier Schritten:

Zunächst nehmen Sie Ihre Beobachtungen während des Baustellenrundgangs als Audiodatei auf. Diese wird anschließend lokal transkribiert – ohne Cloud-Dienst und ohne Übertragung der Audiodatei an externe Server. Im dritten Schritt erzeugt eine KI aus dem unstrukturierten Fließtext einen gegliederten Protokollentwurf mit den im Diktat enthaltenen Angaben zu Datum, Wetter, Anwesenden, Feststellungen und Mängeln. Danach übernehmen Sie den Text in Ihre gewohnte Textverarbeitung, prüfen bzw. überarbeiten ihn und bereiten das Dokument dort für den Versand vor.

Die drei Tools im Überblick

Für den Workflow benötigen Sie (neben Ihrem Smartphone) drei Programme. Zwei davon sind kostenlos und quelloffen. Für die Textverarbeitung können Sie vorhandene Software oder eine freie Alternative wie LibreOffice Writer nutzen.

a) KI-Spracherkennung: Audio lokal transkribieren

Vibe ist eine benutzerfreundliche Desktop-Anwendung für Windows und Mac, die auf dem kostenlos nutzbaren Spracherkennungsmodell Whisper von OpenAI basiert. Die Software läuft vollständig lokal – Ihre Audiodateien verlassen also nicht den Rechner.

Die Oberfläche von Vibe ist schlicht gehalten: Audiodatei per Drag-and-drop hineinziehen, warten, Transkript übernehmen.

Als Alternativen zu Vibe eignen sich Buzz (ebenfalls kostenlos und quelloffen, mit ähnlicher Oberfläche) oder noScribe (speziell für längere Aufnahmen und Interviews optimiert, mit deutschsprachiger Benutzeroberfläche). Alle drei Programme sind für die lokale Audiotranskription ohne Cloud-Dienst ausgelegt.

b) Lokale KI-Umgebung: Protokollentwurf erzeugen

Ollama ist eine lokale KI-Umgebung, mit der Sie große Sprachmodelle (LLMs) auf Ihrem eigenen Computer ausführen können. Nach der Installation und dem Download des Modells ist dafür im laufenden Einsatz keine Internetverbindung nötig. Ollama selbst ist dabei nur die Laufzeitumgebung; zusätzlich benötigen Sie ein Sprachmodell.

Für diesen Zweck eignet sich zum Beispiel Gemma, ein von Google entwickeltes Open-Weights-Modell, das ebenfalls kostenlos verfügbar ist und für deutschsprachige Texte gut funktionieren kann. Alternativen sind Llama (von Meta) oder Mistral – alle lassen sich mit einem einfachen Befehl in Ollama installieren.

Tipp für Fortgeschrittene: Über sogenannte Modelfiles lassen sich spezialisierte Anweisungen (als System-Prompt) in Ollama hinterlegen, die festlegen, wie die KI den Text verarbeiten soll. Für Baustellenprotokolle können Sie so ein eigenes, auf diesen Anwendungsfall zugeschnittenes Modellverhalten hinterlegen. Siehe Erläuterung unten.

c) Textverarbeitung: prüfen, ergänzen, formatieren

Der KI-generierte Text wird in einer Textverarbeitungs-Software Ihrer Wahl geprüft, ergänzt, formatiert und gespeichert. Wer Vorlagen nutzt, kann das strukturierte KI-Ergebnis direkt in das gewohnte Büroformat übertragen.

Tipp: Viele Büros arbeiten bereits mit einer Textverarbeitung wie Microsoft Word oder Apple Pages; alternativ eignet sich auch LibreOffice Writer.

Schritt für Schritt: So funktioniert der Workflow

Schritt 1: Audio aufnehmen

Während des Baustellenrundgangs sprechen Sie Ihre Beobachtungen einfach in ein Smartphone oder Diktiergerät. Bewährt hat sich folgende Struktur: Beginnen Sie mit Datum, Uhrzeit und Wetterlage. Nennen Sie die anwesenden Personen und deren Firma.

Gehen Sie dann Gewerk für Gewerk durch und unterscheiden Sie zwischen Feststellungen („Der Estrich ist verlegt“) und Mängeln oder Anweisungen („Die Dämmung an der Nordseite weist Feuchtigkeitsflecken auf – Ursache klären“).

Tipp: Sprechen Sie Fachbegriffe bewusst deutlich aus – das verbessert die Transkriptionsqualität erheblich.

Schritt 2: Transkription per KI

Zurück im Büro öffnen Sie Vibe und ziehen die Audiodatei in das Programmfenster. Je nach Länge der Aufnahme und Rechenleistung Ihres Computers dauert die Transkription zwischen wenigen Sekunden und einigen Minuten.

Das Ergebnis ist ein zunächst unstrukturierter Fließtext, der als Grundlage für den nächsten Schritt dient.

Schritt 3: Strukturierung per KI

Das Transkript aus Vibe ist zunächst nur ein Fließtext – alle Beobachtungen hintereinander weg, ohne Struktur. Jetzt kommt Ollama ins Spiel: eine lokale KI-Umgebung, die ebenfalls kostenlos und offline funktioniert.

Ollama selbst ist dabei nur die Laufzeitumgebung; zusätzlich benötigen Sie ein Sprachmodell wie Gemma, ein von Google entwickeltes Modell mit offenen Gewichtungen („Open Weights“), das kostenlos verfügbar ist und deutschsprachige Texte gut verarbeitet. Alternativen sind Llama (von Meta) oder Mistral.

Starten Sie Ollama und geben Sie im Chatfenster zunächst das Transkript ein. Anschließend formulieren Sie einen Prompt – also eine Anweisung an die KI, was sie mit dem Text tun soll.

Ein Beispiel:

Erstelle aus dem obigen Text ein strukturiertes Baustellenprotokoll. Gliedere es in: Kopfdaten (Projekt, Datum, Uhrzeit, Wetter, Anwesende), Feststellungen je Gewerk, Mängelliste mit Verantwortlichkeiten, Vereinbarungen und Termine. Korrigiere typische Transkriptionsfehler bei Baufachbegriffen wie „Bewaehrung“ zu „Bewehrung“. Formuliere sachlich und präzise.

(„Diskutieren“ Sie den optimalen Prompt auch bitte mit Ihrem gewohnten Chatbot. So können Sie die optimale Anleitung für „Ihr“ Protokoll herausarbeiten.)

Was dann passiert: Die KI ordnet die Inhalte den gewünschten Abschnitten zu und gibt einen gegliederten Protokollentwurf aus. Dieses können Sie direkt kopieren und in Ihrer Textverarbeitung weiterbearbeiten.

Die KI kann viele Passagen den Bereichen Kopfdaten, Feststellungen oder Mängel zuordnen.

Sie kann typische Transkriptionsfehler bei Fachbegriffen korrigieren und den Text in eine Protokollstruktur überführen. Beides sollte vor der Weiterverwendung geprüft werden.

Schritt 4: Finalisierung in der Textverarbeitung

Den erzeugten Protokolltext kopieren Sie in Word oder LibreOffice, passen das Layout an Ihre Bürovorlage an und ergänzen bei Bedarf Fotos oder Skizzen. Nach inhaltlicher Prüfung, Layout-Anpassung und Ergänzungen liegt ein versandfähiges Protokoll vor.

Wichtig: Namen, Fristen, Verantwortlichkeiten, Mengenangaben und Mängelbeschreibungen sollten vor Versand immer fachlich geprüft werden.

Vorteile dieses Workflows: Lokal, datenschutz­freundlich und kostengünstig

Dieser Workflow bringt gleich mehrere Vorteile:

Datenschutz: Die Verarbeitung erfolgt lokal auf dem eigenen Rechner. Audiodateien und Transkripte müssen dabei nicht an externe Server übertragen werden – ein wichtiger Aspekt, wenn in Protokollen Namen, Adressen oder vertrauliche Projektdetails vorkommen.

Die Verarbeitung erfolgt lokal auf dem eigenen Rechner. Audiodateien und Transkripte müssen dabei nicht an externe Server übertragen werden – ein wichtiger Aspekt, wenn in Protokollen Namen, Adressen oder vertrauliche Projektdetails vorkommen. Keine laufenden Kosten: Für Transkription und lokale KI fallen keine laufenden Kosten an; für die Textverarbeitung können vorhandene oder freie Programme genutzt werden.

Für Transkription und lokale KI fallen keine laufenden Kosten an; für die Textverarbeitung können vorhandene oder freie Programme genutzt werden. Zeitersparnis: Je nach Länge der Aufnahme, Rechnerleistung und Nachbearbeitung kann in wenigen Minuten ein strukturierter Erstentwurf entstehen.

Je nach Länge der Aufnahme, Rechnerleistung und Nachbearbeitung kann in wenigen Minuten ein strukturierter Erstentwurf entstehen. Flexibilität: Der Ansatz lässt sich auch auf andere Protokollarten übertragen, etwa auf Begehungsprotokolle, Abstimmungen oder interne Besprechungen.

Was Sie an Technik brauchen

Sprachmemo erstellen: Ein Smartphone oder ein digitales Diktiergerät benötigen Sie für die Aufnahme.

Transkription und Protokollentwurf: Für kleinere KI-Modelle genügen meist übliche Bürorechner; bei längeren Aufnahmen und größeren Modellen steigt der Bedarf an Rechenleistung und Arbeitsspeicher.

Die Installation der Software erfordert etwas technisches Verständnis, ist aber deutlich einfacher als eine direkte Whisper-Installation über die Kommandozeile. Anleitungen finden Sie auf den jeweiligen Projektseiten der oben genannten Tools.

Ausblick und weitere Einsatzmöglichkeiten

Die Kombination aus lokaler Spracherkennung und KI-gestützter Textverarbeitung eröffnet Architekt:innen und Bauleitenden neue Möglichkeiten, zeitraubende Dokumentationsaufgaben zu automatisieren.

Der vorgestellte Workflow ist nur ein Beispiel – die gleichen Werkzeuge lassen sich für Gesprächsprotokolle, Gutachten-Notizen oder die Aufbereitung von Vor-Ort-Terminen nutzen.

Wer einmal erlebt hat, wie aus einer fünfminütigen Sprachaufnahme in kurzer Zeit ein strukturiertes Protokoll entsteht, wird kaum noch zu Stift und Block zurückkehren wollen.

Optional für Fortgeschrittene: Mit einem Modelfile wiederkehrende Vorgaben dauerhaft hinterlegen

Wer regelmäßig Baustellenprotokolle erstellt, kann sich die wiederholte Eingabe des Prompts sparen. Ollama bietet die Möglichkeit, ein sogenanntes Modelfile anzulegen – eine kleine Konfigurationsdatei, die den Prompt dauerhaft mit dem Sprachmodell verknüpft.

So entsteht vereinfacht gesagt ein vorkonfigurierter Assistent für diesen Anwendungsfall; der ausführliche Prompt muss dann nicht jedes Mal neu eingegeben werden. Dieser Ansatz ist funktional grob vergleichbar mit einem Custom GPT in ChatGPT oder einem Projekt in Claude.

Ein solches Modelfile (siehe Screenshot unten) kann man sich von einem KI-Chatbot vorschlagen lassen und anschließend an die eigenen Anforderungen anpassen.

Wichtig: Die Einrichtung erfolgt im Terminal und erfordert Sorgfalt bei den eingegebenen Befehlen. Das Terminal ist ein mächtiges Werkzeug, mit dem man bei falschen Befehlen auch Schaden anrichten kann. Führen Sie daher nur Befehle aus, die Sie verstehen und nachvollziehen können. Wer damit nicht vertraut ist, sollte die Einrichtung mit einer fachlich versierten Person oder anhand einer nachvollziehbaren Schritt-für-Schritt-Anleitung durchführen.

Das Modelfile „bauleiter“ erklärt

Ein Modelfile ist eine Textdatei, die Ollama mitteilt, wie es sich verhalten soll. Es basiert auf einem Grundmodell – in unserem Fall Gemma – und ergänzt dieses um spezifische Anweisungen.

Die erste Zeile des Modelfiles legt fest, welches Modell verwendet wird (zum Beispiel FROM gemma3), danach folgen die Verhaltensanweisungen.

Für Baustellenprotokolle könnte ein solches Modelfile folgende Anweisungen enthalten:

Erstelle aus dem Transkript ein strukturiertes Baustellenprotokoll nach der im Büro verwendeten Gliederung

Gliedere in: Kopfdaten (Projekt, Datum, Wetter, Anwesende), Feststellungen je Gewerk, Mängelliste mit Verantwortlichkeiten, Vereinbarungen und Termine

Korrigiere typische Transkriptionsfehler bei Baufachbegriffen

Unterscheide zwischen Sachverhalts-Feststellungen und handlungsbezogenen Anweisungen

Formuliere sachlich und präzise

Die genaue Konfiguration lässt sich an bürospezifische Anforderungen anpassen, etwa an die eigene Protokollgliederung oder an projektbezogene Checklisten.

