メインコンテンツまでスキップ

業務連絡:過去記事の 修正/校正 方針を変更

· 約5分

要旨

本 Blog の本拠地を GitHub に移転したことに伴い、従来の Blog 方針の一部を以下のように変更する1

新方針

記事の 修正/変更 を必要に応じて随時行う。変更箇所は記事の中の履歴欄に記載。ただし、誤記/てにをは の訂正、簡単な補足程度のものは記載しない2

  • 従来方針:過去記事は改変しない。必要なら修正版を新たな記事として up する。どうしても訂正が必要な場合でも、過去記事では訂正版のリンクを追記する程度に抑える。

方針変更の理由

FC2Blog が本 BLog の本拠地だった頃は、記事の密かな改変の疑惑を回避するために、過去記事は修正しない方針を堅持していた。このため、記事の修正が必要になれば、修正版の記事を新たに掲載し、過去記事はそのまま残していた。

この方針では、訂正が必要な長文の記事がそのまま Web に残ってしまい、結果的に Web をゴミ捨て場のように扱うことになるのでよろしくない。

幸い、GitHub の記事はすべて Git 管理されているので、FC2Blog とは異なり、誰もが自由に履歴を追跡できる。そこで GitHub を本拠地とする記事では過去記事の 修正/変更 を必要に応じて随時行うこととする。

これにより、

  • 記事の資料性が高まり、ゴミ記事の放置も回避できる。

  • 今後も AI による 文字起こし や 和訳 の性能の向上が期待できるが、その性能向上を過去記事に随意に反映できる。

といった利点が生まれる。

方針変更のきっかけ

先月末(2024-08-24)に、動画の文字起こしを従来の Whisper から Faster Whisper に切り替えたが、これが方針変更のきっかけとなった。

Faster Whisper が出力した英字幕ファイル(srt ファイル)から人間が読み易い文章の塊に分けた英文を自作のスクリプトで生成し、これを Blog 記事の中で使用している。

この Faster Whisper が出力した英字幕ファイルには、従来の Whisper とは微妙に異なる癖3があり、これが従来の自作スクリプトではバグ4を引き起こしていた。

このため、2024-08-24 からバグが発覚した 09-02 あたりまでの記事の文字起こしは差し替えが必要となる。

(2024-09-07)


Footnotes

  1. 本来、誰も興味を持たない事柄だが、妙な誤解を招かないための予防策として方針変更を明確にしておく。

  2. 全記事を Git で管理しているゆえ、これらの簡単な 訂正/補足 の履歴も Git コマンドで追うことが(その気になれば)誰でも可能。

  3. 人間の目視では気付かないレベルの差異がある。その一例として特定の条件で各行末に空白が追加される、など。

  4. 具体的には、特定条件で文末の単語と次行の先頭の単語が連続してしまう。
    このバグ fix のついでに、srt ファイルで "Mr." や "Mrs.", "Mt.", "Feb." などが文末になっている場合に、特定条件でそこを行末と見なす手抜き処理を今回の bug-fix のついでに改善した。