이 글은 Whisper + ChatGPT로 유튜브 영상 요약하기: 전문가처럼 활용하는 방법입니다. (by Chat GPT + 편집자 보완)
요즘 정보는 유튜브에 다 있죠. 하지만 영상 전체를 보기엔 시간도 부족하고, 핵심만 알고 싶을 때가 많습니다. 그럴 땐 OpenAI의 Whisper 음성 인식과 ChatGPT 캔버스를 연동해 영상 내용을 자동으로 텍스트로 변환하고 요약할 수 있습니다. 이 방법은 특히 강의, 인터뷰, 다큐멘터리처럼 긴 영상에 매우 효과적입니다.
아래는 초보자도 따라할 수 있는 단계별 가이드입니다.
1단계. 유튜브 영상 다운로드 (mp3 또는 mp4 형식 음성 변환)
먼저 유튜브 영상을 다운로드해야 합니다. 이후에 Whisper는 로컬 파일(mp3, mp4 등)을 텍스트로 전사(轉寫)합니다.
🔧 영상 음성 mp3 파일 변환 툴
- 4K YouTube to MP3 (4KDownloader 자매 프로그램)
- MP4 대신 MP3 전용 변환기
- 드래그 & 드롭으로 쉽게 변환
- 단점: 무료 버전은 변환 수 제한
- 🔗 https://www.4kdownload.com
2. YT-DLP (최고의 오픈소스 도구)
✅ 무료, 광고 없음, 매우 안정적
명령어 기반이지만 자동화/고음질 가능
① yt-dlp.exe 다운로드
- 웹브라우저로 아래 주소 접속:
https://github.com/yt-dlp/yt-dlp/releases - 스크롤하여 최신 버전의
yt-dlp.exe
파일을 찾고 클릭하여 다운로드
→ 예:yt-dlp.exe
클릭 → 저장 - 다운로드한
yt-dlp.exe
파일을 예를 들어C:\yt-dlp
폴더에 저장
(폴더가 없으면 만들고 넣어주세요)
② 시스템 PATH에 추가 (선택사항)
이 작업을 하면 어떤 폴더에서든 yt-dlp
명령을 실행할 수 있습니다.
- 윈도우 검색창에서 “환경 변수” 입력 후
→ “시스템 환경 변수 편집” 클릭 - 하단의 [환경 변수(N)] 버튼 클릭
- 시스템 변수 또는 사용자 변수 중
Path
항목 선택
→ [편집] 클릭 - [새로 만들기] 클릭 후
C:\yt-dlp
입력 → 확인 → 확인


✅ 팁
- 자막이 없는 영상도 괜찮습니다.
- mp3로 저장하면 용량도 적고 Whisper에 빠르게 입력할 수 있습니다.
2단계. Whisper로 mp3 음성 → 텍스트 변환
Whisper는 OpenAI에서 만든 음성 인식 엔진으로, 한글 인식 정확도도 매우 높습니다.
📌 전체 설치 방법 (초보용)
- Python과 ffmpeg 설치 (Mac은 Homebrew, Windows는 Chocolatey 추천)
- 터미널 또는 명령 프롬프트에서 Whisper 설치:
pip install git+https://github.com/openai/whisper.git
- mp3 파일이 있는 디렉토리에서 다음 명령 실행:
whisper yourfile.mp3 --language Korean --task transcribe
- 결과 파일:
yourfile.txt
(전체 자막이 들어 있음)
📌 음성 → 텍스트 변환, 어떤 방법을 선택할까?
목적 | 추천 방법 / 속도 |
---|---|
코딩 가능, 자동화 원함, GPU 성능 사양(예: RTX 2060 이상) | Whisper CLI 설치 (pip 설치 방식) / 빠름 |
코딩 모름, 간편한 사용 원함 | Whisper Web UI 사용 (브라우저만 있으면 됨) / 느림~보통 |
🧭 Python과 ffmpeg , Whisper CLI 로컬 설치 및 사용 (터미널 방식: 단계별 설명)
🛠️ 1단계: Python과 ffmpeg 설치
▶ Windows 사용자의 경우:
- Python 설치
- 공식 사이트에서 설치: https://www.python.org/downloads/
- 설치 중 “Add Python to PATH” 체크 필수!
- FFmpeg 설치 (영상/음성 처리 도구)
choco install ffmpeg
- 위 명령을 사용하려면 먼저 Chocolatey 설치 필요:
https://chocolatey.org/install 참고 - 관리자 권한으로 PowerShell 실행
– 시작 메뉴 → PowerShell 입력
PowerShell 아이콘을 마우스 오른쪽 클릭 → “관리자 권한으로 실행” 선택
반드시 관리자 권한으로 실행해야 설치가 정상적으로 작동합니다. - PowerShell에서 실행 정책 설정
Chocolatey 설치 전, 스크립트 실행이 차단되어 있으면 오류가 발생할 수 있으므로 다음 명령어를 먼저 실행합니다:Set-ExecutionPolicy Bypass -Scope Process -Force
이 명령은 현재 PowerShell 세션에서만 스크립트 실행을 허용합니다. - Chocolatey 설치 명령 실행
아래 명령 전체를 복사해서 붙여넣기하고 Enter 키를 누릅니다:iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
- 설치가 완료되면
choco
명령을 사용할 수 있게 됩니다.
설치 확인 방법:choco -v
버전이 출력되면 정상 설치된 것입니다. - FFmpeg 설치
이제 FFmpeg를 설치할 수 있습니다. PowerShell(또는 명령 프롬프트)에서 다음 명령을 실행하세요:choco install ffmpeg -y-y
- 옵션은 모든 확인 메시지를 자동으로 ‘Yes’ 처리하여 설치 과정을 간소화합니다.
설치 완료 후 확인:ffmpeg -version
버전 정보가 출력되면 FFmpeg가 시스템에 정상 등록된 것입니다. - 부록: 설치된 ffmpeg의 경로 확인
where ffmpeg
FFmpeg의 실행 파일 경로를 보여줍니다. 일반적으로C:\ProgramData\chocolatey\bin\ffmpeg.exe
또는 그 링크가 출력됩니다.
Python과 ffmpeg 설치를 마쳤다면 이제 다음 단계를 순서대로 진행하시면 됩니다. 아래는 Whisper + GPU 환경 구축을 위한 완전한 설치 가이드입니다.
🛠️ 2단계. Whisper 로컬 설치 – Python 설치 완료 후 다음 단계
✅ pip
최신화
터미널(또는 CMD) 열고 아래 명령어 입력: window + R, cmd 입력 엔터
python -m pip install --upgrade pip
✅ PyTorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
✅ 설치 후 확인 (Python에서 실행):
import torch
print(torch.cuda.is_available()) # → True면 GPU 사용 가능
✅ Whisper 설치
pip install git+https://github.com/openai/whisper.git
또는 안정 버전:
pip install openai-whisper
✅ 설치 확인 체크리스트
항목 | 확인 명령어 | 결과 |
---|---|---|
Python | python --version | 3.10+ |
pip | pip --version | 정상 출력 |
PyTorch GPU | torch.cuda.is_available() | True |
ffmpeg | ffmpeg -version | 버전 정보 출력 |
Whisper | whisper --help | 옵션 설명 출력 |
이제 준비 완료입니다!
전사할 mp3
파일만 있으면 Whisper 로컬에서 GPU로 빠르게 텍스트로 전사 처리할 수 있어요.
위 방법으로 유튜브 방송 내용 추출하고 요약한 글 포스팅 보기
▶ Mac 사용자의 경우:
- Homebrew 설치 (Mac용 패키지 관리자)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Python과 ffmpeg 설치
brew install python ffmpeg
🎧 3단계: 음성 파일을 텍스트로 변환, Whisper 실행 (예시)
: Win+R 키 → cmd
입력 → [확인]
또는 작업 표시줄에서 PowerShell
검색 → 실행
유튜브에서 추출한 mp4, mp3
파일을 CPU 터미널에서 해당 파일이 있는 폴더로 이동한 후 아래 명령 실행(파일이름 전후에 반드시 “파일이름.mp3” 쌍따움표 붙여야 인식함)
whisper "파일이름.mp3" --language Korean --task transcribe --model medium
📂 생성되는 파일:
yourfile.srt
(자막 파일, 필요 시 --output_format srt
추가) / (영상 편집에 사용 가능)
cmd 화면 : whisper “파일이름.mp4” –language Korean –task transcribe –model medium –output_format srt
자동 저장된 파일 확인 : yourfile.txt
(텍스트 전사) – 복사 후, 챗GPT, gemini 등에서 내용 요약 등 작업)
🔍 옵션 설명:
--language Korean
: 음성의 언어를 한국어로 지정--task transcribe
: 자막처럼 전체 음성을 텍스트로 전사
💻 코딩 없이 GUI로 Whisper UI 사용 (간편한 방법 ; mp3 변환 시간 지연 단점)
▶ Whisper Web UI (초보자 추천)
이 버전은 음성 분리 및 화자 분리 기능도 포함되어 있습니다.→ 코딩 없이 업로드하고 다운로드 가능
Whisper UI 사용 방법:

1️⃣ 웹사이트 접속
- 다음 링크를 클릭하여 Faster Whisper WebUI에 접속합니다: 링크: Faster Whisper WebUI (aadnk)
2️⃣ MP3 파일 업로드
- 페이지에서 “Upload File” 또는 “Browse…” 버튼을 클릭합니다.
- 변환하려는 MP3 파일을 선택하여 업로드합니다.
3️⃣ 언어 설정
- “Language” 옵션에서 음성의 언어를 선택합니다.
- 예: 한국어 음성의 경우 “Korean” 선택
4️⃣ 작업 유형 선택
- “Task” 옵션에서 원하는 작업을 선택합니다:
- “Transcribe”: 음성을 동일한 언어의 텍스트로 변환
- “Translate”: 음성을 영어 텍스트로 번역
🛠️ Whisper Web UI 고급 설정 설명
설정 항목 | 설명 | 추천 값 (한국어, 10분 이상 영상 기준) |
---|---|---|
Model | 사용할 Whisper 모델. medium 은 base , small , large 보다 중간급 | medium 이상 (정확도↑) |
Language | 인식할 언어 | Korean (자동 감지도 가능하지만, 명시 추천) |
Task | transcribe 는 그대로 한국어 전사, translate 는 영어 번역 | transcribe (한글 유지) |
VAD (Voice Activity Detection) | 음성 감지 기능. Silero는 비영어 긴 파일에 추천 | silero-vad |
VAD – Merge Window (s) | 감지된 음성 간의 병합 기준 (단위: 초) | 5 초 (기본값 유지) |
VAD – Max Merge Size (s) | 병합된 단위의 최대 길이 | 30 초 (기본값 유지) |
Word Timestamps | 단어별 타임스탬프 포함 | ON (자막 제작 시 유용) |
Word Highlighting | 인식된 단어 강조 | ON (시각적 확인 편리) |
Diarization | 화자 분리 (Speaker 1, 2 등) | ON (인터뷰, 뉴스 등) |
Diarization – Speakers | 예상 화자 수 지정 | 2 (예: 대담 형식 뉴스) |
5️⃣ 변환 시작
- “Transcribe” 또는 “Submit” 버튼을 클릭하여 변환을 시작합니다.
- 처리 시간은 파일의 길이와 서버 상태에 따라 다를 수 있습니다.(다소 긴 편)
6️⃣ 결과 확인 및 다운로드
- 변환이 완료되면 텍스트 결과가 화면에 표시됩니다.
- “.txt”, “.srt”, “.vtt” 형식으로 결과를 다운로드할 수 있습니다.
- 텍스트를 복사하거나 다운로드하여 메모장(.txt)으로 저장합니다.
✅ 장점
- 설치 필요 없음
- 자막 없이도 한글 정확도 높음
- 긴 영상도 문제 없이 처리 가능
📝 추가 팁
파일 크기 제한: 업로드 가능한 파일의 크기에는 제한이 있을 수 있으므로, 너무 큰 파일은 분할하여 업로드하는 것이 좋습니다.(전체 내용은 시간이 많이 소요됨 – 해결책으론, 파이선 설치 및 whisper 로컬 설치 시 처리 mp3 – 텍스트 전사 빠름)
YouTube 링크 사용: 일부 버전에서는 YouTube 링크를 입력하여 해당 영상의 음성을 텍스트로 변환할 수 있습니다.
브라우저 호환성: 최신 버전의 Chrome 또는 Firefox 브라우저 사용을 권장합니다.
ChatGPT 캔버스에서 요약 작업하기
- ChatGPT 웹 버전 접속 (https://chat.openai.com)
- GPT-4o 또는 o1 선택 후 Canvas 기능 활성화
- Whisper로 얻은 텍스트(문자 파일; txt)를 그대로 붙여넣기
- 다음과 같이 요약 요청:“이 텍스트는 유튜브 강연 전체입니다. 핵심 주제, 주요 내용, 요점 5가지로 요약해줘.”
✨ 확장 활용 예시
- 요점 정리 + 질문 목록 생성
- 블로그용 요약 포스트 작성
- 발표용 슬라이드 초안 만들기 등
💡 마무리 팁(유튜브 내용 요약 결과)
- Whisper는 자막이 없어도 음성을 정확히 인식합니다.
- 기술 영상이나 뉴스도 잘 인식되며, 긴 영상일수록 효과가 큽니다.
- ChatGPT의 캔버스 기능은 요약을 정리된 문서로 남길 수 있어 블로그 콘텐츠 제작 등 문서 작업에 적합합니다.
Whisper + ChatGPT 조합은 시간 절약은 물론, 정보 습득의 효율을 극대화할 수 있는 효율적인 툴입니다. 🙂
다음 포스팅은 이 방법을 통해 유튜브(약 56분 영상) 내용 요약, 정리했습니다.