画像生成AIが変える画像認識―生成データで見つかる新しい可能性―
はじめに
私たちの社会においてAIが活用される場面が広がりつつあります。その中でも特に注目されているのが画像認識技術です。画像認識技術は、自動運転や商品検索、スマートフォンの写真認識など、日常生活のあらゆる場面に利用されており、私たちの生活を大きく変えています。しかし、こうした画像認識技術の発展を阻む最大の課題が「データの不足」です。必要なデータが不足していることで、AIがその精度を十分に発揮できないケースがあります。この問題に対する新しい解決策として注目されているのが「生成データ」です。例えば、写真撮影が困難な状況下で自動運転車のAIを訓練する場合(下画像を参照)、生成データを活用して仮想的な道路状況や気象条件を再現することで、実用的な訓練データを補完できます。こうした生成データの利用により、現実のデータの不足を補いながら、画像認識技術をさらに発展させることが可能になります。生成データはどのようにして新しい可能性を切り開き、画像認識技術のさらなる発展を支えるのでしょうか?
自動運転AIの訓練には写真撮影が困難な雪道環境下でのデータが不可欠(画像出典:Colin Lloyd from Pexels:)
AIにはなぜ大量のデータが必要なのか
AIや深層学習モデルを効果的に訓練するには、大量かつ多様なデータが必要です。例えば、ある商品画像をもとに「これはパンなのか、それともケーキなのか」を正確に判断させる場合、さまざまな条件下で撮影された画像が必要になります。異なる光の角度、背景の種類、商品が置かれている距離や角度といった条件を網羅するデータセットが必要になるのです。これらのデータが、AIモデルが現実世界の複雑な状況を理解し、適応する能力を形成します。
しかし、こうした多様なデータを収集するのは簡単ではありません。時間とコストがかかり、全てのケースを網羅するデータを用意するのは実際には非常に困難です。
伝統的な画像加工の限界
データ不足を補うため、過去には伝統的な画像加工が利用されてきました。画像を回転させたり、反転させたり、明るさや色合いを調整したりすることで、データセットのバリエーションを増やす試みが行われていました。この方法は確かに有用でしたが、限界もあります。たとえば、これらの加工では現実世界の複雑な条件を再現するのが難しく、AIモデルが求める高度な多様性には対応しきれないことがあります。
最新の画像生成技術を用いた画像加工は従来の画像加工手法(CutMix、RandAug)と比べてより自然で多様な画像の生成が可能(画像出典:Dunlap et al., 2023)
生成モデルがもたらす新たな解決策
こうした課題に対応するために、生成モデルという技術が台頭しました。この技術は単にアニメキャラクターを生成するだけでなく、AIの訓練に必要なデータの生成に積極的に活用されています。生成モデルを用いることで、従来の方法では得られなかったリアルで多様性に富むデータを生成することが可能になるのです。
生成モデルによるデータ生成の方法には、大きく分けて以下の三つがあります。
- テキストから生成される画像: テキストで指定した内容に基づいて画像を生成する方法です。例えば「青空の下の山」という指示ひとつで写真のような画像を生成できます。
- 画像変換技術 (img2img): 既存の画像をもとに新しい画像を生成する技術です。光や表情、背景を変えるなど、元の画像に新たなバリエーションを加えることができます。
- 深度や空間情報を利用した生成: 深度や3Dモデルなど特定の情報をもとに画像を生成する方法です。これにより、現実世界の物理的な条件を反映したデータを得ることができます。
これらの技術を活用することで、AIモデルの訓練に必要な画像データを効率的に補うことができます。
生成モデルによる訓練データ加工のプロセス例
生成データの具体例
生成データは、実際の世界での応用において大きな可能性を秘めています。以下はその具体例です。
- 商品の背景変更: 商品画像の背景を変更することで、さまざまな販売シナリオに対応したプロモーション画像を生成できます。例えば、季節ごとに異なる背景を作成し、広告キャンペーンをより効果的に展開することが可能です。
- 自動運転における天候変化の再現: 自動運転車のAIを訓練する際、雨や雪、霧といったさまざまな気象条件をシミュレーションする必要があります。生成データを活用すれば、現実世界での実験を増やすことなく多様な条件を再現できます。
- 3Dモデルを使ったデータ生成: ゲームエンジンや3Dモデルを利用して、仮想環境での撮影画像を現実世界に近いデータとして使用することも可能です。これにより、コストを抑えながら高品質なデータを得ることができます。
商品(左)と商品の背景変更(右)の例(左の画像出典:Nike)
自動運転シミュレーター画像(左)と雨天に変換した実写画像(右)の例
(左の画像出典:Carlaシミュレーター)
生成データの信頼性
生成データは非常に効果的ですが、全てが実用に適しているわけではありません。生成されたデータが元の目的に合致しているかを確認するプロセスが重要です。この際、元のデータとの類似性を評価し、不適切なデータをフィルタリングする手法が有効です。
具体的には、以下の方法が考えられます。
- 画像エンコーダー (CLIPなど) を活用した類似度評価: 実データと生成画像の類似度を計算し、類似度が閾値に達していない生成画像を除外します。教師なし学習 (K-meansなど) アルゴリズムを用いて、代表的な実データを選択し、これらの代表的なデータと類似度の低い生成画像を除外します。
- 認識モデルによるスコアリング: 実データで訓練した比較的小さな認識モデルで生成画像を評価し、スコアが閾値に達していない画像を除外します。
- LLM/VLM (大規模言語モデル/Vision-Language Model) による評価: LLMやVLMを用いて生成画像を評価し、評価基準を満たした画像のみを選択します。
これらの方法を組み合わせることで、少量のデータからでもAIを活用してデータを増やすことができる可能性があります。今後は、これらの手法をさらに発展させ、より効率的かつ信頼性の高いデータ拡張の方法を確立することが期待されます。
フィルタリングにより不適切な生成データの除外が可能(画像出典:Dunlap et al., 2023)
まとめと将来の展望
今回の記事では、生成データとそのフィルタリングによる画像認識AIの学習に有用なデータ作りとその可能性について説明しました。このような生成モデルを活用したデータ生成は、データ不足という課題を克服するための強力な手法として注目されています。多くの文献や研究がこの技術の有効性を裏付けています。AIの性能向上だけでなく新たな応用分野の開拓も期待されており、画像認識技術と生成データの組み合わせは今後ますます進化し、私たちの生活により深く浸透していくことでしょう。
アラヤでは生成データを用いた画像認識AIのソリューション開発を積極的に行っています。是非、お気軽にお問い合わせください。
先端AI開発支援 : https://www.araya.org/service/aisupport/
画像認識AIソリューション:https://www.araya.org/service/image/
参考論文:
- Azizi, S., Kornblith, S., Saharia, C., Norouzi, M., & Fleet, D. J. (2023). Synthetic Data from Diffusion Models Improves ImageNet Classification (arXiv:2304.08466). arXiv. http://arxiv.org/abs/2304.08466
- Che, Q.-H., Le, D.-T., & Nguyen, V.-T. (2024). Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance (arXiv:2409.06002). arXiv. http://arxiv.org/abs/2409.06002
- Chen, D., Qi, X., Zheng, Y., Lu, Y., & Li, Z. (2022). Deep Data Augmentation for Weed Recognition Enhancement: A Diffusion Probabilistic Model and Transfer Learning Based Approach (arXiv:2210.09509). arXiv. http://arxiv.org/abs/2210.09509
- Dunlap, L., Umino, A., Zhang, H., Yang, J., Gonzalez, J. E., & Darrell, T. (2023). Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation (arXiv:2305.16289). arXiv. http://arxiv.org/abs/2305.16289
- He, R., Sun, S., Yu, X., Xue, C., Zhang, W., Torr, P., Bai, S., & Qi, X. (2023). Is synthetic data from generative models ready for image recognition? (arXiv:2210.07574). arXiv. http://arxiv.org/abs/2210.07574
- Huang, B., Wen, Y., Zhao, Y., Hu, Y., Liu, Y., Jia, F., Mao, W., Wang, T., Zhang, C., Chen, C. W., Chen, Z., & Zhang, X. (2024). SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control (arXiv:2403.19438). arXiv. http://arxiv.org/abs/2403.19438
- Kim, J. M., Bader, J., Alaniz, S., Schmid, C., & Akata, Z. (2024). DataDream: Few-shot Guided Dataset Generation (arXiv:2407.10910). arXiv. http://arxiv.org/abs/2407.10910
- Lei, S., Chen, H., Zhang, S., Zhao, B., & Tao, D. (2023). Image Captions are Natural Prompts for Text-to-Image Models (arXiv:2307.08526). arXiv. http://arxiv.org/abs/2307.08526
- Li, Y., Dong, X., Chen, C., Li, J., Wen, Y., Spranger, M., & Lyu, L. (2024). Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization (arXiv:2403.19866). arXiv. http://arxiv.org/abs/2403.19866
- Lin, S., Wang, K., Zeng, X., & Zhao, R. (2023). Explore the Power of Synthetic Data on Few-shot Object Detection (arXiv:2303.13221). arXiv. http://arxiv.org/abs/2303.13221
- Rahat, F., Hossain, M. S., Ahmed, M. R., Jha, S. K., & Ewetz, R. (2024). Data Augmentation for Image Classification using Generative AI (arXiv:2409.00547). arXiv. http://arxiv.org/abs/2409.00547
- Tian, Y., Fan, L., Chen, K., Katabi, D., Krishnan, D., & Isola, P. (n.d.). Learning Vision from Models Rivals Learning Vision from Data.
- Tian, Y., Fan, L., Isola, P., Chang, H., & Krishnan, D. (2023). StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners (arXiv:2306.00984). arXiv. http://arxiv.org/abs/2306.00984
- Trabucco, B., Doherty, K., Gurinas, M., & Salakhutdinov, R. (2023). Effective Data Augmentation With Diffusion Models (arXiv:2302.07944). arXiv. http://arxiv.org/abs/2302.07944
- Wang, X., Zhu, Z., Huang, G., Chen, X., Zhu, J., & Lu, J. (2023). DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving (arXiv:2309.09777). arXiv. http://arxiv.org/abs/2309.09777