画像処理
お疲れ様です。 前回の記事でTrOCRの調査内容をまとめたので、今回は実装のお話。 fallpoke-tech.hatenadiary.jp ソースコード コード内容補足 モデル データセット 前処理 実行結果 学習 推論 ソースコード ソースコードはこちらのGithubリポジトリにまとめ…
お疲れ様です。 今月の半ばくらいまで会社の勉強会の関係でAI OCRの手法の1つのTrOCRの調査と実装をしていました。 今回はそちらの内容をまとめて備忘録を書いておきます。 論文 arxiv.org 要約(from ChatGPT) TrOCR:Transformerベースの革新的なOCR技術 …
お疲れ様です。 今回はOCR(光学文字認識)のお話。 OCR(Optical Character Recognition:光学的文字認識)は画像に含まれる文字をコンピュータで認識できるテキストの形で読み取る技術のこと。 最近だとOSSでYomiTokuが日本語特化OCRとしてはとても優秀で…
お疲れ様です。 前回の記事でDeiTについて調べたので実際にコード実装し動作できるようにしました。 前回の記事 fallpoke-tech.hatenadiary.jp ソースコード 実装したコードはこちらに置いています。 過去に作成したコードを改良したものになります モデルア…
お疲れ様です。 画像分類モデルのDeiTについて、使う機会があり内容を調べてみたのでメモ的にまとめておきます。 論文 arxiv.org 要約(from ChatGPT) 背景 Vision Transformer (ViT) は自然言語処理のTransformerを画像分類に応用したモデルだが、従来は数…
お疲れ様です。 表題のコードが仕事上で必要になったので作成してみました。 過去に作成したコードがあったのでそれを利用しつつ、扱いやすいように作成しなおした感じです。 fallpoke-tech.hatenadiary.jp 作成したコードは単体のリポジトリとしてこちらに…
お疲れ様です。 商用利用可能で性能のよいセグメンテーションモデルが必要になったので調査した内容をメモに残しておきます。 リンク 概要 実装 リンク 論文 arxiv.org 論文解説 speakerdeck.com 公式実装 github.com 概要 以下は生成AI(Gemini)に聞いた内…
お疲れ様です。 今回は機械学習の界隈で話題のRAdamScheduleFreeという新しいoptimizerを試したいと思います。 なんでもAdamWと同等かそれ以上の性能だとか…! 詳しい内容は作成者さんのZennをご確認ください。今回私がやるのはとりあえずの実装のみ…。 zenn…
お疲れ様です。 以前の記事でHuggingFace(transformersライブラリ)から利用できるDETRという物体検出モデルを実装しました。 今回はDETR以外の物体検出モデルを使ってみようと思います。 前回 ソースコード 使用するデータセット PCのスペック HuggingFace…
お疲れ様です。 HuggingFace(transformersライブラリ)から利用できる物体検出のDeepLearningモデルを試してみたのでその紹介です。 物体検出についてはざっくりというと画像内の物体を矩形(Bounding Box)で囲って検出するものになります。 下図の例では…
お疲れ様です。 前々から試してみたかったAlbumentationsの物体検出用の処理を今回実際にやってみました。 Albumentationsとは何ぞや?という方は以下のサイトを参照ください。 albumentations.ai また、具体的にできることは以下をみると大体わかるかと思い…
お疲れ様です。 PythonでOpenCVを使った画像処理のプログラムを書くことが多いのですが、日本語が絡んでくるとうまく動作しないことがよくあります。 その対処法をメモ的に残しておきます。 画像読み込み・保存(imread, imwrite) 文字列書き込み(puttext…