REALSENCE D435のカメラ映像でPyTorchとYOLOv5を使ってリアルタイムに物体検出する方法

2022年10月22日2023年9月18日

URLをコピーしました！

今回はIntel社のREALSENCE D435で撮影した映像でリアルタイムに物体検出する方法をまとめたいと思います。

使用するカメラ Intel REALSENCE D435

今回、物体検出の対象となる映像を撮影するためのカメラデバイスはIntel REALSENCE D435を使用します。

D435で映像を取り込む方法については以下の記事で解説していますので、あわせてご覧ください。

機械学習ライブラリと学習済みモデル

今回は物体検出のための推論を行う機械学習ライブラリはPyTorch、学習済みモデルはYOLOv5という組み合わせで実装しました。PyTorchとYOLOv5を使った推論の実行方法は以下の記事で解説しています。

実装方法

今回は「Intel RealSense SDKを使ってPythonからD435にアクセスする方法」で公開しているプログラムに、PyTorchで推論するための関数を追加する形で実装しました。

以下が推論を実行するための関数です。

#Yoloを使った物体検出
def predict(img):
    #推論を実行
    result = model(img)
    result.render()

    #戻り値
    return result.ims[0]

intel RealSense™ Depth Camera D435

インテル(Intel)

¥51,800 （2024/07/11 11:52時点 | Amazon調べ）

口コミを見る

Amazon

＼ポイント最大11倍！／

楽天市場

Yahooショッピング

メルカリ

ポチップ

作成したソースコード

今回作成したソースコードは以下の通りです。

import pyrealsense2 as rs
import numpy as np
import cv2
import cv2
import torch

# Configure depth and color streams
pipeline = rs.pipeline()
config = rs.config()
config.enable_stream(rs.stream.depth, 640, 480, rs.format.z16, 30)
config.enable_stream(rs.stream.color, 640, 480, rs.format.bgr8, 30)

#YOLOのモデルをロード
model = torch.hub.load('ultralytics/yolov5', 'yolov5s') 

#PyTorchを使った物体検出
def predict(img):
    #推論を実行
    result = model(img)
    result.render()

    #戻り値
    return result.ims[0]

#メイン処理
def main():
    # Start streaming
    pipeline.start(config)

    try:
        while True:

            # Wait for a coherent pair of frames: depth and color
            frames = pipeline.wait_for_frames()
            depth_frame = frames.get_depth_frame()
            color_frame = frames.get_color_frame()
            if not depth_frame or not color_frame:
                continue

            # Convert images to numpy arrays
            depth_image = np.asanyarray(depth_frame.get_data())
            color_image = np.asanyarray(color_frame.get_data())

            #推論実行
            color_image = predict(color_image)

            # Apply colormap on depth image (image must be converted to 8-bit per pixel first)
            depth_colormap = cv2.applyColorMap(cv2.convertScaleAbs(depth_image, alpha=0.03), cv2.COLORMAP_JET)

            # Stack both images horizontally
            images = np.hstack((color_image, depth_colormap))

            # Show images
            cv2.namedWindow('RealSense', cv2.WINDOW_AUTOSIZE)
            cv2.imshow('RealSense', images)
            cv2.waitKey(1)

    finally:

        # Stop streaming
        pipeline.stop()


if __name__ == '__main__':

    main()

［第3版］Python機械学習プログラミング達人データサイエンティストによる理論と実践 impress top gearシリーズ

著:Sebastian Raschka, 著:Vahid Mirjalili, 著:株式会社クイープ, 著:福島真太朗