유튜브 동영상 요약, 키워드 추출
1. 기획 의도
온라인 동영상 플랫폼 이용이 확대 되고 정보도 이 경로를 통해 정보를 많이 얻고 있다. 사용자들의 인식도 변화되어 언론으로 인식하는 비율이 확대되고 있다. 유튜브를 통한 정보 검색 서비스를 많이 사용하지만 동영상을 처음부터 봐야하고, 원하는 정보를 한번에 얻기에는 조금 어려움이 있다.
그래서 영상을 다 보지않고 원하는 유튜브 동영상을 요약하고, 키워드 추출을 통해 간단하게 정보 제공을 하고 QA(Question Answering)을 통해 정보 검색과 간단한 퀴즈를 제공하면 어떨까?
2. 유튜브 텍스트 추출(자막이 있는 경우)
pytube
유튜브 URL 입력 -> 언어 코드 선택('ko.7XP2tGORuV4') -> 전처리(불용어) -> 텍스트 추출
from pytube import YouTube
video_url = 'https://youtu.be/1LoJx9KqSEU'
yt = YouTube(video_url)
# 영상 자막 가져오기
yt.captions.all()
caption = yt.captions.get_by_language_code('ko.ko.7XP2tGORuV4')
# 언어로 자막 선택하기
## 한글 자막 1순위로 선택하기. 만약 한글 자막이 없다면 자막 리스트 중 첫 번째 자막 선택하기
caption = yt.captions.get_by_language_code('ko.7XP2tGORuV4')
if caption == None:
caption = yt.captions.all()[0]
# 자막 살펴보기(xml 포맷)
caption.xml_captions
# 자막 살펴보기(srt 포맷)
print(caption.generate_srt_captions())
# 텍스트 전처리
text = caption.xml_captions
import re
불용어 = ['<[^가-힣]+>', '&[^가-힣]+;', '(박수 소리)', '\n', '-( )', '-(특파원)', ':' , '(앵커)', '(기자)']
for i in 불용어:
text = re.sub(i,' ', text)
text
# 저장
import sys
f = open('text.txt', 'w')
f.write(text)
f.close()
'프로그래밍💻 > 팀 프로젝트' 카테고리의 다른 글
피그마를 이용한 어플 시각화 (0) | 2022.10.17 |
---|---|
[KB 증권 디지털 Idea Market 공모전] m-able mini review 크롤링 (0) | 2022.10.13 |
댓글