端の知識の備忘録

技術メモになりきれない、なにものか達の供養先

2024-01-01から1年間の記事一覧

句読点のない日本語の文章に句読点を挿入するBERTモデルを作る

概要 Whisperなどで日本語の文字起こしをした後の文章にほとんど句読点が入っておらず、そのまま文字起こし文章を結合すると利用しにくいことがありました。 そこで何らかの手法で句読点を挿入したいと思ったのですが意外と手軽な古典的な手法が見つかりませ…

【ベンチマーク編】 Radeon Instinct MI50を買って機械学習用に使ってみる【ROCm】

まえがき ROCmを試すためにRadeon Instinct MI50を買ってみて、PyTorchで使えるようにセットアップをしたのが前回。 hashicco.hatenablog.com 今回は取ったベンチマークの結果をご紹介! まとめ ROCmは本当にほぼコード変更無しでCUDA用のTensorFlow、PyTorc…

【セットアップ編】Radeon Instinct MI50を買って機械学習用に使ってみる【ROCm】

まえがき しばらく大きな買い物をしていなかったが、仕事からの現実逃避をしているとふと思う。「ROCm、試してみたいなー」 ということで、ebayを開きめぼしいGPUを探してみたところ、$200以下のお手頃価格で一応ギリギリ最新のROCm 6.0.2にもメンテナンスサ…

PyTorch/TensorFlowのトレーニング時にWSL2がハングする現象

結論 今回は結論のみ。 WSL2上でPyTorch/TensorFlowで画像モデルのトレーニングを行う際に、データローダーをマルチスレッドで動かすと、トレーニングがハングする現象が発生しました。 ある程度のイテレーションは学習が進むのですが、途中で突然プログレス…

【PyTorch小ネタ】 複数モデルを組み合わせたモデルにおいて別々のPretrained Weightを読み込む方法

まえがき 時の流れは早いもので、もう2024年になってしまったようです。 最近はKaggleやら実践的な個人活動は一先ずお休みし、社会人5年目になる前に一旦基礎固めし直そうと線形代数/解析学/統計の勉強をしたり新しく出たBishop本を読んだりしており、あまり…