yt2doc – Um Ihre Videos in Markdown-Dokumente zu transkribieren | Open Source

-

Sind Sie es leid, stundenlang Ihre YouTube-Videos von Hand zu transkribieren? Oder suchen Sie nach einer effizienten Möglichkeit, Ihre Podcasts in Blogbeiträge umzuwandeln? Nun, ich habe gute Neuigkeiten für Sie: yt2doc ist hier, um Ihren Arbeitsablauf zu optimieren!

Es handelt sich um ein Tool, das jedes YouTube-Video oder jeden YouTube-Podcast automatisch in ein perfekt strukturiertes Markdown-Dokument mit KI-generierten Absätzen, Kapiteln und sogar Titeln umwandeln kann.

Dieses vom talentierten Shun Liang entwickelte Open-Source-Tool ist ein echter virtueller Assistent für alle Content-Ersteller, Journalisten, Studenten oder einfach nur Neugierige, die das Beste aus den online verfügbaren Audio- und Videoressourcen herausholen möchten. Darüber hinaus, yt2doc ist so konzipiert, dass es vollständig lokal funktioniert, ohne auf externe APIs angewiesen zu sein, wodurch die Vertraulichkeit Ihrer Daten gewährleistet ist.

yt2doc verlässt sich auf die Kraft von Flüsterndas von OpenAI entwickelte Spracherkennungsmodell. Dank dessen ist das Tool in der Lage, den Audioinhalt Ihrer Videos oder Podcasts mit bemerkenswerter Präzision zu transkribieren. Aber wo yt2doc Was wirklich heraussticht, ist die Nachbearbeitung dieser Rohtranskription.

Tatsächlich sind die meisten vorhandenen Transkriptionstools in erster Linie auf die Generierung von Untertiteln ausgerichtet und liefern oft einen fortlaufenden Textblock ohne Zeilenumbrüche oder Segmentierung, was das Lesen erschwert. Whisper beispielsweise erzeugt in seinen Transkriptionen keine Zeilenumbrüche. Ohne Nachbearbeitung entsteht am Ende ein riesiger Block unverdaulichen Textes.

yt2docseinerseits priorisiert die Lesbarkeit. Darüber hinaus werden Inhalte intelligent strukturiert, um ein leicht lesbares Dokument zu erstellen. Dazu verwendet er Beliebigen Text segmentieren (SaT)eine auf Textsegmentierung spezialisierte Bibliothek. Dadurch wird Ihre Transkription automatisch in logische Sätze und Absätze unterteilt, was das Lesen viel angenehmer und natürlicher macht. Darüber hinaus haben Sie die Möglichkeit, die verwendete SaT-Vorlage nach Ihren Wünschen anzupassen.

Und wenn Ihr Video noch nicht in Kapitel unterteilt ist (was beispielsweise bei Podcasts häufig der Fall ist), yt2doc kann ein Sprachmodell (LLM) nutzen, um relevante Kapitelüberschriften automatisch zu generieren. Es ist, als hätte man einen integrierten Editor-Assistenten! Zu den leichten Modellen, die gut funktionieren, gehören: gemma2:9b, Lama3.1:8b et qwen 2,5:7b.

Du wirst es verstanden haben, yt2doc ist kein einfaches Transkriptionstool, sondern eine echte Komplettlösung zur Umwandlung Ihrer Audio- und Videoinhalte in strukturierte und nutzbare Dokumente.

Stellen Sie vor der Installation sicher, dass Sie dies getan haben ffmpeg auf Ihrem System installiert. Dies ist eine wesentliche Voraussetzung dafür yt2doc richtig funktionieren kann. ffmpeg wird zur Verarbeitung von Audio- und Videostreams verwendet. Falls Sie dies noch nicht getan haben, finden Sie hier die Befehle zur Installation:

Auf macOS:

brew install ffmpeg

Über Debian/Ubuntu:

sudo apt install ffmpeg

Dann können Sie installieren yt2doc. Die empfohlene Methode ist die Verwendung pipxein praktisches Tool zum Installieren von Python-Anwendungen in isolierten Umgebungen:

pipx install yt2doc

Wenn Sie lieber verwenden möchten UVeinem superschnellen Python-Paketmanager, ist es auch möglich:

uv tool install yt2doc

Um Hilfe bei der Verwendung des Tools zu erhalten, können Sie den folgenden Befehl verwenden:

yt2doc --help

Nun das yt2doc installiert ist, sehen wir uns an, wie man es verwendet. Der grundlegende Befehl zum Transkribieren eines YouTube-Videos lautet:

yt2doc --video

Wenn Sie beispielsweise einen TED-Vortrag transkribieren möchten, können Sie Folgendes verwenden:

yt2doc --video

Standardmäßig ist yt2doc zeigt das Transkript direkt in Ihrem Terminal an. Sie können das Ergebnis aber natürlich zur späteren Einsichtnahme in einer Markdown-Datei speichern:

yt2doc --video -o ma_transcription.md

Was ist, wenn Sie eine gesamte YouTube-Playlist transkribieren möchten? Kein Problem :

yt2doc --playlist -o dossier_de_sortie

Wie ich in meinem Intro sagte, eine der interessantesten Funktionen von yt2doc ist seine Fähigkeit, Videos, die noch nicht in Kapitel unterteilt sind, automatisch zu segmentieren und zu kapitulieren. Dafür benötigen SieZu seinein Tool, mit dem Sie Sprachmodelle lokal ausführen können. Einmal Zu sein installiert und konfiguriert ist, können Sie den folgenden Befehl verwenden:

yt2doc --video --segment-unchaptered --llm-model

Zum Beispiel mit dem Modell gemma2:9b :

yt2doc --video --segment-unchaptered --llm-model gemma2:9b

Dieser Befehl transkribiert das Video nicht nur, sondern schneidet es auch in logische Kapitel mit KI-generierten Titeln. Dies ist besonders nützlich für lange Videos oder Podcasts, die keine vordefinierten Kapitel haben.

yt2doc ist nicht auf YouTube beschränkt. Sie können damit auch Podcast-Episoden auf Apple Podcast transkribieren:

yt2doc --audio --segment-unchaptered --llm-model

Ein weiterer interessanter Aspekt von yt2doc ist seine Flexibilität in der Konfiguration. Standardmäßig verwendet es schneller-flüstern als Transkriptions-Backend, Sie können jedoch je nach Hardware verschiedene Einstellungen anpassen, um die Leistung zu optimieren:

bashyt2doc --video --whisper-model --whisper-device --whisper-compute-type

Die Optionen für --whisper-model, --whisper-device et --whisper-compute-type werden in der Dokumentation zu Faster-Whisper ausführlich beschrieben.

Wenn Sie einen Mac mit einem Apple Silicon Chip verwenden, können Sie davon profitieren whisper.cpp für noch bessere Leistung, da es die integrierte GPU von Apple nutzt. Die Unterstützung von whisper.cpp wurde umgesetzt yt2doc :

yt2doc --video --whisper-backend whisper_cpp --whisper-cpp-executable --whisper-cpp-model

Wie bereits erwähnt, yt2doc nutzen Beliebigen Text segmentieren (SaT) um die Transkription in Sätze und Absätze zu unterteilen. Sie können auch das verwendete SaT-Modell anpassen:

yt2doc --video --sat-model

Die Liste der verfügbaren SaT-Modelle finden Sie hier.

Du wirst es verstanden haben, yt2doc ist ein äußerst leistungsstarkes und flexibles Tool, das sich an eine Vielzahl von Anwendungsfällen anpassen lässt. Aber wie jedes KI-basierte Tool auch yt2doc ist nicht perfekt. Die Qualität der Transkription hängt immer von der Audioqualität der Quelle ab, und automatisch generierte Titel können manchmal einige manuelle Anpassungen erfordern. Nun, im Vergleich zu der Zeitersparnis sind diese kleinen Unannehmlichkeiten sehr vernachlässigbar!

Vielen Dank an NiKo für die Info! Sie können ihm auf Twitter folgen @N1K0 für weitere spannende technische Entdeckungen.

Quelle

-

PREV Künstliche Intelligenz spielt Super Mario 64 besser als wir, bis hin zur Etablierung neuer Strategien!
NEXT Nintendo: Während alle auf die Ankündigung von Switch 2 warten, singen Marios Väter ein anderes Lied. Diese neue Anwendung ist verfügbar!