YouTubeからスクリプトを入手する
- YouTubeの動画の概要覧を開く
- [文字起こしを表示]をクリック
- 取得したい言語をプルダウンで選択
- すべてのスクリプトをマウスドラッグで選択
- メモ帳やWordなどに貼り付けて保存
Python でテキストデータをきれいにする
※ PC に Python がインストールされている場合。
import os
import tempfile
input_file = r"【処理したいテキストフォルダの絶対パス】"
# 一時ファイルを同じフォルダに作成
dir_name = os.path.dirname(input_file)
fd, temp_path = tempfile.mkstemp(dir=dir_name)
os.close(fd)
# 偶数行だけを取得して、改行をスペースに置換
with open(input_file, encoding="utf-8") as f_in:
lines = [line.strip() for i, line in enumerate(f_in) if i % 2 == 1]
# 2 == 0 ☞ 奇数行抽出, 2 == 1 ☞ 偶数行抽出 ※iは0スタート
text = " ".join(lines) # 半角スペースで結合
# 一時ファイルに書き出して上書き
with open(temp_path, "w", encoding="utf-8") as f_out:
f_out.write(text)
# 元ファイルを上書き
os.replace(temp_path, input_file)
PowerShell でテキストデータをきれいにする
※ Windows のみ
# 入出力ファイルのパス
$file = "【処理したいテキストフォルダの絶対パス】"
# 一時ファイルのパスを作成
$temp = [System.IO.Path]::GetTempFileName()
# 偶数行を抽出してスペース区切りで1行にまとめる
$content = Get-Content $file |
ForEach-Object -Begin { $i = 0 } -Process {
if ($i % 2 -eq 1) { $_.Trim() } # -eq 1 ☞ 偶数行抽出, -eq 0 ☞ 奇数行抽出
$i++
} |
ForEach-Object { $_ } |
Out-String
# 改行を半角スペースに変換して整形
$content = ($content -split "\r?\n") -join " "
# 一時ファイルに書き出して上書き
Set-Content -Path $temp -Value $content -Encoding UTF8
Move-Item -Path $temp -Destination $file -Force
Microsoft Word でテキストデータをきれいにする
タイムスタンプの行を削除
- テキストをWordに貼り付け
- Ctrl + H(置換)
- [オプション]をクリック
- [ワイルドカードを使用する]を選択
- [検索する文字列]:<[0-9]{1,2}:[0-9]{2}>^13
[置換後の文字列]:(※空欄) - [すべて置換]をクリック
改行をすべて削除
- [ワイルドカードを使用する]の選択を解除
- [検索する文字列]:^p
[置換後の文字列]: (※半角スペース) - この2の工程で改行位置に半角スペースが2つ入ってしまう場合がある。その場合、
[検索する文字列]: (※半角スペース2つ)
[置換後の文字列]: (※半角スペース1つ)
にして[すべて置換]するか、もしくは、Ctrl + Z で一つ前の状態に戻り、[置換後の文字列]を空欄にしてやり直す。
VSCode でテキストデータをきれいにする
タイムスタンプの行を削除
- Ctrl + H(置換)
- [検索]:^\d{1,2}:\d{2}.*\r?\n
[置換]:(空欄) - [正規表現を使用する]を選択
- [すべて置換]をクリック
改行をすべて削除
- [検索]:^\d{1,2}:\d{2}.*\r?\n
[置換]:(空欄) - [正規表現を使用する]を選択
- [すべて置換]をクリック
- [検索]:\r?\n
[置換]: (半角スペース) - [正規表現を使用する]を選択
- [すべて置換]をクリック
生成AI でテキストデータをきれいにする
テキストをペースト(あるいはテキストファイルを添付)して以下のように指示。
この文章からタイムスタンプを削除して。また、改行を削除して半角スペースで繋げて。