MicroQA/diagnostics.py

import json
from argparse import ArgumentParser
from time import time

import numpy as np

from microqa.items import cache_item, fetch_item
from microqa.engine import analyze_doc


def main():
    parser = ArgumentParser()
    parser.add_argument("--item-id")
    parser.add_argument(
        "--ocr-backend",
        help="which local OCR backend to use when available text in archived PDF files is insufficient; one of 'tesseract' or 'paddleocr'",
        default="tesseract",
    )
    parser.add_argument("--verbose", action="store_true")
    args = parser.parse_args()

    # Import OCR engine modules only as needed, to avoid unnecessary slow
    # startups and/or missing dependency errors.
    if args.ocr_backend == "tesseract":
        from microqa.ocr.tesseract import TesseractOcrEngine

        ocr_engine = TesseractOcrEngine(languages=["eng", "fra"])
    elif args.ocr_backend == "paddleocr":
        from microqa.ocr.paddleocr import PaddleOcrEngine

        ocr_engine = PaddleOcrEngine(languages=["eng", "fra"])

    cache_item(
        args.item_id,
        # Will not refetch if value is already cached.
        overwrite=False,
    )
    item = fetch_item(args.item_id, use_cache=True)

    t_start = time()

    minimal_docs = (
        [doc for doc in item.docs if doc.name != doc.identifier]
        if len(item.docs) > 1
        else item.docs
    )
    analyses = [
        analyze_doc(
            doc=doc, ocr_engine=ocr_engine, use_cache=True, verbose=args.verbose
        )
        for doc in minimal_docs
    ]

    t_end = time()

    print(
        json.dumps(
            {
                "analyses": analyses,
                "duration_secs": t_end - t_start,
                "disoriented_pages": [
                    [
                        i
                        for i, page in enumerate(doc["pages"])
                        if 30 < page["page_angle"] < 330
                    ]
                    for doc in analyses
                ],
                "sharpness_max": max(
                    [
                        page["sharpness"]
                        for doc in analyses
                        for page in doc["pages"]
                        if page["sharpness"] is not None
                    ]
                ),
                "sharpness_median": np.median(
                    [
                        page["sharpness"]
                        for doc in analyses
                        for page in doc["pages"]
                        if page["sharpness"] is not None
                    ]
                ).tolist(),
                "sharpness_min": min(
                    [
                        page["sharpness"]
                        for doc in analyses
                        for page in doc["pages"]
                        if page["sharpness"] is not None
                    ]
                ),
            }
        )
    )


if __name__ == "__main__":
    main()
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`import json`
			`from argparse import ArgumentParser`
			`from time import time`

			`import numpy as np`

add interchangeable ocr engines 2025-11-07 05:41:18 +00:00			`from microqa.items import cache_item, fetch_item`
			`from microqa.engine import analyze_doc`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00

			`def main():`
			`parser = ArgumentParser()`
			`parser.add_argument("--item-id")`
reuse pdf ocr when available 2025-12-20 02:16:41 +00:00			`parser.add_argument(`
			`"--ocr-backend",`
			`help="which local OCR backend to use when available text in archived PDF files is insufficient; one of 'tesseract' or 'paddleocr'",`
			`default="tesseract",`
			`)`
			`parser.add_argument("--verbose", action="store_true")`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`args = parser.parse_args()`

reuse pdf ocr when available 2025-12-20 02:16:41 +00:00			`# Import OCR engine modules only as needed, to avoid unnecessary slow`
			`# startups and/or missing dependency errors.`
			`if args.ocr_backend == "tesseract":`
			`from microqa.ocr.tesseract import TesseractOcrEngine`

			`ocr_engine = TesseractOcrEngine(languages=["eng", "fra"])`
			`elif args.ocr_backend == "paddleocr":`
			`from microqa.ocr.paddleocr import PaddleOcrEngine`

			`ocr_engine = PaddleOcrEngine(languages=["eng", "fra"])`

rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`cache_item(`
			`args.item_id,`
			`# Will not refetch if value is already cached.`
			`overwrite=False,`
			`)`
			`item = fetch_item(args.item_id, use_cache=True)`

			`t_start = time()`

			`minimal_docs = (`
improve contrast norm and sharpness measurement 2025-12-20 08:58:49 +00:00			`[doc for doc in item.docs if doc.name != doc.identifier]`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`if len(item.docs) > 1`
			`else item.docs`
			`)`
			`analyses = [`
reuse pdf ocr when available 2025-12-20 02:16:41 +00:00			`analyze_doc(`
			`doc=doc, ocr_engine=ocr_engine, use_cache=True, verbose=args.verbose`
			`)`
			`for doc in minimal_docs`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`]`

			`t_end = time()`

			`print(`
			`json.dumps(`
			`{`
			`"analyses": analyses,`
			`"duration_secs": t_end - t_start,`
			`"disoriented_pages": [`
			`[`
			`i`
			`for i, page in enumerate(doc["pages"])`
re-run ocr as needed to screen false positives 2026-01-15 21:33:57 +00:00			`if 30 < page["page_angle"] < 330`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`]`
			`for doc in analyses`
			`],`
			`"sharpness_max": max(`
re-run ocr as needed to screen false positives 2026-01-15 21:33:57 +00:00			`[`
			`page["sharpness"]`
			`for doc in analyses`
			`for page in doc["pages"]`
			`if page["sharpness"] is not None`
			`]`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`),`
			`"sharpness_median": np.median(`
re-run ocr as needed to screen false positives 2026-01-15 21:33:57 +00:00			`[`
			`page["sharpness"]`
			`for doc in analyses`
			`for page in doc["pages"]`
			`if page["sharpness"] is not None`
			`]`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`).tolist(),`
			`"sharpness_min": min(`
re-run ocr as needed to screen false positives 2026-01-15 21:33:57 +00:00			`[`
			`page["sharpness"]`
			`for doc in analyses`
			`for page in doc["pages"]`
			`if page["sharpness"] is not None`
			`]`
rewrite data fetching into archive_item.py 2025-10-04 18:03:03 -07:00			`),`
			`}`
			`)`
			`)`


			`if __name__ == "__main__":`
			`main()`