MacのiPhoneミラーリング機能でiPhoneアプリを自動操作するプログラムのサンプル【python】

 ChatGPT コンピュータ  108

 この記事では、Python と主要ライブラリ(OpenCV、pyautogui、NumPy)を利用し、指定画像を検索してタイムアウト付きで動作を実行する仕組みを紹介します。MacOSにiPhoneミラーリング機能が実装されたことにより、iPhoneアプリの自動操作が簡単にできるようになりました。
 例えば、ゲームアプリの日課をこなしたり、リセマラを自動化できたりと、何かとめんどくさい作業を自動化できます。

 


1. 必要なライブラリ

  • OpenCV (cv2)
    画像処理ライブラリ。テンプレートマッチングを使って、画面キャプチャ内から指定画像を検索します。
pip install opencv-python
  • NumPy
    数値計算ライブラリ。画像データを扱う際に必要です。
pip install numpy
  • pyautogui
    画面キャプチャ、マウス操作(クリック、ドラッグなど)を自動化するためのライブラリです。
pip install pyautogui
  • time, os
    Python 標準ライブラリ。タイミング制御やシステムコマンド実行に使用します。

2. サンプルコードの概要

このサンプルプログラムは、以下のような流れで動作します。

  1. アプリのアクティベート
    Mac 上で AppleScript を利用して、指定したアプリ(iPhone ミラーリング)をアクティブにします。
  2. 画面キャプチャ
    pyautogui を使い、現在の画面をキャプチャし、画像ファイルとして保存します。
  3. 画像検索
    OpenCV のテンプレートマッチングを利用して、キャプチャ画像内から指定のテンプレート画像を探します。
  4. アクション実行
    検出した座標に対して、pyautogui によるタップ(クリック)やスワイプ(ドラッグ)操作を行います。
    また、Retina ディスプレイなどでキャプチャ画像と実際の座標系のスケールが異なる場合に備え、スケーリング調整を行っています。
  5. タイムアウト付き画像検索
    指定画像の検索は、一定時間内(例:10秒)に見つからなければ False を返し、タイムアウト時の分岐処理が可能です。

3. サンプルコード

以下のコードは、上記の内容を実装したサンプルです。
※ IMG_DIR 内には検索したい画像を用意してください。

import numpy as np
import pyautogui
import time
import os

# 設定パラメータ
IMG_DIR = "./img"              # テンプレート画像のディレクトリ
MATCH_THRESHOLD = 0.8          # 画像一致の閾値
CAPTURE_IMAGE = "current_screen.png"  # キャプチャ画像保存先
SCALING = 2                    # キャプチャ画像と実際の座標のスケール比(Retinaディスプレイの場合は2)

def capture_screen(save_path):
    """
    現在の画面をキャプチャして、指定パスに保存後、OpenCV形式の画像を返す
    """
    screenshot = pyautogui.screenshot()
    screenshot.save(save_path)
    img = cv2.imread(save_path)
    return img

def find_image(template_path, screen_img, threshold=MATCH_THRESHOLD):
    """
    screen_img内から template_path の画像を探し、一致した部分の中心座標を返す。
    一致が見つからない場合は None を返す。
    """
    template = cv2.imread(template_path)
    if template is None:
        print("テンプレート画像が見つかりません:", template_path)
        return None
    res = cv2.matchTemplate(screen_img, template, cv2.TM_CCOEFF_NORMED)
    loc = np.where(res >= threshold)
    try:
        y = loc[0][0]
        x = loc[1][0]
        h, w = template.shape[:2]
        center = (x + w // 2, y + h // 2)
        return center
    except IndexError:
        return None

def find_image_ignore_color(template_path, screen_img, threshold=MATCH_THRESHOLD, use_edges=False):
    """
    screen_img内から、テンプレート画像(template_path)の形状を探し、中心座標を返す。
    色の影響を排除するため、グレースケールに変換してマッチングを行う。
    use_edges が True の場合、Canny エッジ検出を適用して形状情報を強調する。
    """
    template = cv2.imread(template_path)
    if template is None:
        print("テンプレート画像が見つかりません:", template_path)
        return None

    # グレースケールに変換
    template_gray = cv2.cvtColor(template, cv2.COLOR_BGR2GRAY)
    screen_gray = cv2.cvtColor(screen_img, cv2.COLOR_BGR2GRAY)
    
    # エッジ検出を適用する場合
    if use_edges:
        template_gray = cv2.Canny(template_gray, 50, 150)
        screen_gray = cv2.Canny(screen_gray, 50, 150)
    
    # テンプレートマッチング
    res = cv2.matchTemplate(screen_gray, template_gray, cv2.TM_CCOEFF_NORMED)
    loc = np.where(res >= threshold)
    
    try:
        y = loc[0][0]
        x = loc[1][0]
        h, w = template_gray.shape[:2]
        center = (x + w // 2, y + h // 2)
        return center
    except IndexError:
        return None

def tap(position, scaling=SCALING):
    """
    指定位置へタップ(クリック)操作を実行する関数
    scaling: キャプチャ画像と実際の座標系の比率
    """
    if position:
        adjusted_pos = (int(position[0] / scaling), int(position[1] / scaling))
        pyautogui.moveTo(adjusted_pos[0], adjusted_pos[1])
        pyautogui.click()
        print(f"タップ: {adjusted_pos} (元: {position}, scaling: {scaling})")
        time.sleep(0.5)
    else:
        print("タップ対象の位置が取得できませんでした。")

def swipe(start, end, duration=0.5, scaling=SCALING):
    """
    指定開始位置から終了位置へスワイプ(ドラッグ)操作を実行する関数
    scaling: キャプチャ画像と実際の座標系の比率
    """
    adjusted_start = (int(start[0] / scaling), int(start[1] / scaling))
    adjusted_end = (int(end[0] / scaling), int(end[1] / scaling))
    pyautogui.moveTo(adjusted_start[0], adjusted_start[1])
    pyautogui.dragTo(adjusted_end[0], adjusted_end[1], duration=duration, button='left')
    print(f"スワイプ: {adjusted_start} から {adjusted_end} へ (scaling: {scaling})")
    time.sleep(0.5)

def activate_app(app_name):
    """
    指定したアプリケーションをアクティブにする(Macの場合、AppleScriptを利用)
    """
    os.system(f"osascript -e 'tell application \"{app_name}\" to activate'")
    time.sleep(0.5)

def search_for_image(template_path, threshold=MATCH_THRESHOLD, timeout=10, use_edges=False):
    """
    指定したテンプレート画像を画面上で探索する関数
      - timeout秒以内に画像が見つかれば中心座標を返す
      - タイムアウトした場合は False を返す
    """
    # IMG_DIR内のテンプレート画像のフルパスを組み立てる
    template_path = os.path.join(IMG_DIR, template_path)
    start_time = time.time()
    while time.time() - start_time < timeout:
        screen_img = capture_screen(CAPTURE_IMAGE)
        pos = find_image_ignore_color(template_path, screen_img, threshold, use_edges)
        if pos:
            return pos
        time.sleep(0.5)
    return False

def main():
    # iPhone Mirroringアプリをアクティブにする
    activate_app("iPhone Mirroring")
    print("BOT動作開始")
    
    while True:
        # 画像検索例 上方向スワイプ
        pos = search_for_image("SWIPE.png", threshold=MATCH_THRESHOLD, timeout=10, use_edges=False)
        if pos:
            print("テンプレート画像が見つかりました:", pos)
            swipe(pos, (pos[0], pos[1] - 100), scaling=SCALING)
        else:
            print("タイムアウト:テンプレート画像が見つかりませんでした。")
            break
        time.sleep(1)
        
        # 画像検索例 タップ
        pos = search_for_image("TAP.png", threshold=MATCH_THRESHOLD, timeout=10, use_edges=False)
        if pos:
            print("テンプレート画像が見つかりました:", pos)
            tap(pos)
        else:
            print("タイムアウト:テンプレート画像が見つかりませんでした。")
            break
        time.sleep(1)
        
        # 画像検索例:タップ・背景色の変化がある場合、エッジ検出を適用
        pos = search_for_image("TAP2.png", threshold=MATCH_THRESHOLD, timeout=10, use_edges=True)
        if pos:
            print("テンプレート画像が見つかりました:", pos)
            tap(pos)
        else:
            print("タイムアウト:テンプレート画像が見つかりませんでした。")
            break
        time.sleep(1)

if __name__ == '__main__':
    main()

4. プログラムのポイント

  • 画像認識の精度向上
    テンプレートマッチングは、背景色の変動に左右されやすいですが、グレースケール変換やエッジ検出を利用することで、形状のみで認識する方法を採用しています。
    find_image_ignore_color 関数内で、use_edges フラグを調整することで試行錯誤が可能です。
  • タイムアウト付き検索
    search_for_image 関数では、指定秒数内に画像が見つからなかった場合、False を返すため、その後の処理を分岐させることが可能です。
    これにより、想定外の画面状態になった場合でも、柔軟なエラーハンドリングが可能です。
  • 座標のスケーリング
    Retinaディスプレイではキャプチャ画像の解像度と実際の座標が異なるため、SCALING パラメータで調整を行っています。
    タップやスワイプの際は、この調整値を利用して正確な位置で操作を実施します。
  • 動作環境
    このサンプルコードは、Mac M1 (macOS 15.0)iPhone 14 Pro (iOS 18.3.1) での動作確認を行っています。

5. まとめ

 本記事では、Python を用いて、シンプルな画像認識によるアプリ操作 BOT のサンプルコードと、その解説を紹介しました。
 必要なライブラリの導入方法から、画像キャプチャ、テンプレートマッチング、タイムアウト付き検索、そしてタップ・スワイプなどの操作を実装する方法まで、汎用性のあるコードを提示しています。
 環境に合わせたスケーリング調整や、エッジ検出による色の影響を排除した画像認識を工夫することで、様々なシーンで応用可能な BOT を実現できます。

 このコードをベースに、自身の用途に合わせた拡張や改良を行ってみてください。



関連記事