8月 | 2023 | selatan

ときには片面のカードが 10 枚も遭ったりすると、qsl 枚数は熟しているのにファイル数は 1 しか増えない。
baobab はフォルダ数もカウントするから、500 アイテムあってもそこからサブフォルダ数を引いたのがファイルっ数になる。でもカードは 700 を超えているハズと思う。
そこで pdf のページ数を調べなくってはならない。単体なら pdfinfo でわかる。

LibreOffice でもマクロでできるらしいが、フォルダのファイル群から取得するというのは見当たらなかった。
そこで ChatGPT に相談した。こちらは特定フォルダから、ファイラーを開かずにサブフォルダ名を入力して、ページ数を得たかった。

import os
import PyPDF2

def count_pages(pdf_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfFileReader(pdf_file)
        return pdf_reader.numPages

def process_subfolders(root_folder):
    for subdir, _, files in os.walk(root_folder):
        for filename in files:
            if filename.endswith('.pdf'):
                pdf_path = os.path.join(subdir, filename)
                page_count = count_pages(pdf_path)
                print(f'ファイルパス: {pdf_path}, ページ数: {page_count}')

if __name__ == "__main__":
    relative_folder = input("基準フォルダの相対パスを入力してください: ")
    base_folder = os.path.join("/home/NAME/Documents/XYZ", relative_folder)
    
    if os.path.exists(base_folder):
        process_subfolders(base_folder)
    else:
        print("指定されたフォルダは存在しません。")

で ChatGPT は python count_pages.py と走らせればよいと言った。
が、python3 がインストールしてあるので、python3 count_pages.py とした。
しかし、出力はタイムスタンプのようで、参照するには使いにくい。

$ python3 count_pages.py | sed -e "s/基準フォルダの相対パス を入力してください: //" | sort -k 2 -t ' '

とすれば、ファイル名ソートされて出てくる。

どうせならソートまで python で完結させたいともう一度 ChatGPT に相談。

import os
import PyPDF2

def count_pages(pdf_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfFileReader(pdf_file)
        return pdf_reader.numPages

def process_subfolder(base_folder, subfolder_name):
    subfolder_path = os.path.join(base_folder, subfolder_name)
    pdf_files = []  # ファイル情報を保存するリスト
    for filename in os.listdir(subfolder_path):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(subfolder_path, filename)
            page_count = count_pages(pdf_path)
            pdf_files.append((pdf_path, page_count))  # ファイル情報をリストに追加

    # ファイル名でソート
    pdf_files.sort(key=lambda x: x[0])

    for pdf_info in pdf_files:
        pdf_path, page_count = pdf_info
        print(f'ファイルパス: {pdf_path}, ページ数: {page_count}')

if __name__ == "__main__":
    base_folder = "/home/NAME/Documents/XYZ"  # 基準フォルダのパス
    subfolder_name = input("サブフォルダ名を入力してください: ")
    process_subfolder(base_folder, subfolder_name)

と結果を得た。

これで枚数を引数としたファイル名にリネームすれば、カード枚数もカウントできるだろう。

今までも DX の分はスキャンしていた。
重い腰を上げ、国内分も考えた。

DX QSL にはレポート面タテ型は殆どないが、国内 QSL では圧倒的。
なのでタテ型・ヨコ型、そして片面・両面とミックスに仕分け。更にDX サイズも。

スキャンするにタテ型・片面から始めるが、困るのがタテ型・両面で天地が逆になってるのがそこそこある。恐らく長編の中央から回せばということなんだろうが、オノウエ・ナカニシ・新栄高速のタテ型・両面は覿面だ。まれにオノウエに正常なのがある。
ミックスもお構いなしにスキャンするが、回転加工まではしない。まとまった量を一気にやろうということを優先するから。

selatan

月別アーカイブ: 2023年8月

枚数抜きで pdf ファイルを作ってしまった

QSL カードをスキャン

HamRadio Ubuntu WordPress