バック
   

デジタル ワーカーの未来:視覚認識

By Colin Redbond、テクノロジー戦略ヘッド 監訳:門脇 豪、シニアコンサルタント

Blue Prismは、過去12年間以上にわたり、デジタルワーカー分野でイノベーションの最先端を歩み続けてきました。当社は、現在の地位を確立できたことを誇りに感じていますが、決してこれに甘んずることなく、今後もこの領域における投資を強化していきます。Blue Prismでは、開発してきた多様なテクノロジーの早期導入によって既に恩恵を受けている企業が、インテリジェントオートメーションスキルである視覚認識によって、さらに価値を得ることができるよう取り組んでいます。

視覚認識とは、周囲の視覚情報を視認し、解釈する(分析し定義付ける)ことを意味します。

効果的なデジタル ワーカーには、人間のオペレーター同様に画面やデータから情報を取得し、それを解釈する能力が求められます。これは言うほど容易なことではありません。「スクリーン スクレイピング」技術が、ほぼその要件を満たすと言われることがあります。しかし、これは視覚認識を伴わない、信頼できない未完成なナビゲーションシステムのようなものでしかなく、またミスが起こりやすく、不安定で脆弱な結果を引き起こす可能性があります。これは「Blue Prismの提供するテクノロジーは、高精度なスクリーン スクレイピング技術である」という認識が根本的に間違っていることを示しています。実際、人がパソコン画面を見て行う作業を考えてみたとき、それらが単純なスクリーン スクレイピング技術で処理できない、とても複雑なプロセスであることは明白です。デジタル ワーカーが、通常、人によって処理されるプロセスで作業する場合、スクリーン スクレイピングとは比較にならないほど高度な能力が必要とされます。以下の項目が、必要最低要件と考えられます。

  • デジタル ワーカーには、画面解像度、ネットワークやアプリケーションの性能、またはアプリケーション内の各エレメントに対する修正など、システム環境の変化を認識し、これに適応して作業することが求められます。これら要因への適応が不十分な場合、自動化システムの障害、最悪の場合、ロボットが自らの業務調整を十分に行えず、ターゲット システム自体を停止させるような、壊滅的な結果を招くことがあります。
  • また、Webアプリケーション、メインフレーム、Java、シン/シッククライアントなど、あらゆる種類のアプリケーション上で作業可能であり、優れた耐障害・回復(レジリエンス)性と性能が求められます。
  • 最後に、デジタル ワーカーは、アプリケーション内のデータを解釈できることが必要です。つまり、自然言語の非構造化データを解釈するには、シンプルもしくはより複雑なルールセットを設定し、さらには、知識や洞察などを提供するデジタル スキルと結合されていることが必要となります。

Blue Prismテクノロジーとスクリーン スクレイピングの相違点

スクリーン スクレイピング技術を基盤とする他社のアプローチとBlue Prismのアプローチには、いくつかの根本的な違いがあります。

  • Blue Prismのプラットフォームは、画面描画レベルよりはるかに深いレイヤーにおいて、あらゆる種類のアプリケーションと統合できるように開発されています。現時点において、アプリケーションとの直接統合とその制御を可能にする10種類以上のテクノロジー インターフェースのメカニズムが用意されており、今後もさらに構築していく予定です。これらすべてのインターフェースは、適応性とスケーラビリティを十分に考慮し、さらに(ビジネスユーザーの利用を想定し)コーディングが不要な設計となっています。この拡張は、数百もの異なるアプリケーションに対し、固有のインターフェースを構築していく(膨大なメンテナンスが必要とされる)という意味ではなく、多様なプレゼンテーション テクノロジーへの対応に重点を置くということです。
  • スクリーン スクレイピングは、不安定なレコーディングアクションを伴う方法であり、Blue Prismが視覚認識テクノロジーに課している基準を満たさない、つまり、システム環境の変化に適応する能力を備えていません。「ハッピー パス」という言葉を耳にしたことがあるかと思いますが、これがまさに自動化における「ハッピー パス」の状況で、デモ環境では思い通りに稼働し、記録された通りに実行されますが、一度パラメーターにズレが生じた場合、自動化も失敗に終わる運命です。個別にレコーディングされたマクロが寄せ集められた状態を作り出すことは、持続性のある自動化への道とは言えません。Blue Prismは優れた設計と再利用性を重視することが、スクリーン スクレイピングのような運試しに近いテクノロジーや、記録ボタンを提供しない理由です。
  • Blue Prismにおいて、画面の視覚レイアウトを利用する必要がある場合には、サーフェス オートメーション(当社が独自に発明し、他社によって模倣された数あるBlue Prism開発技術や言葉の1つ)を利用し、スクリーン スクレイピングの欠点を改善したアプローチを採用できます。当社では、デジタル ワーカーが環境の変化に適応できるよう、テクノロジー上に膨大なインテリジェンスを組み込み、構築してきました。我々はこれだけで立ち止まっていません。サーフェス オートメーションは、Blue Prism v6で大幅に強化された機能で、引き続き開発を進めます。お客様は、アダプティブ ポジショニング技術(変化適応可能な位置特定システム)を利用し、画面上のエレメントを検索する(アプリケーション画面内の固定座標位置または他のエレメントに対する相対位置などから特定する)ことが可能です。またデジタル ワーカーが、移動してしまうエレメント、解像度やRGBカラーの変更に対応できるよう、各種の許容値設定を完全に制御できるようにしています。また、アクションを自動化する為に必要とされる手順の数を大幅に減らすことで、サーフェス オートメーションを利用した、より短期間での堅固な開発を実現します。

視覚認識可能なデジタル ワーカーによるワークフォースの増大

ここに示すケーススタディは、最大規模のロボット導入や最大の投資利益率を達成した事例ではありませんが、本テクノロジーの可能性を適格に実証しています。Lighthouse Worksは、米国視覚障害者委員会(ACB)との提携にもとづき、視覚障害者にキャリア向上の機会を提供するNPO法人です。一般的にアクセシビリティ ソフトウェアは高額であり、また視覚障害を持つ従業員が、特定のタスクを実行するうえで妨げになる場合がありますが、Lighthouse WorksではBlue Prismのプラットフォームをとても革新的な方法で利用しています。スケジュール管理や請求処理や苦情処理など、視覚障害者にとって非常に困難もしくは不可能なエンドツーエンドのプロセスを実行するために、Blue Prismのプラットフォームを使用しています。

まとめ 視覚認識可能なデジタル ワーカーにAIが与える影響

Blue Prismでは、開発してきた多様なテクノロジーの早期導入によって既に恩恵を受けている企業が、インテリジェントオートメーションスキルである視覚認識によって、さらに価値を得ることができるよう取り組んでいます。この分野でも、当社のエコシステムは業界随一のものです。AIクラウド プラットフォームのComputer Vision APIで業界をリードするもののうち3つと接続します。これにより、Blue Prismのデジタル ワーカーは文書や画像を処理/分析し、さらにこれらのデータを分類し、インテリジェントにコンテンツ情報を抽出します。また当社は、OCR/ICRテクノロジーと機械学習の統合に取り組むCaptricityとの強固なパートナーシップを締結しています。Blue Prismのエコシステムでは、AbbyyのクラウドOCRの統合を実現しており、現在、Datacap統合に向けてIBMと協業中です。

このAI・視覚認識テクノロジーのエリアは昨今過密・乱立状態にあり、デジタル ワーカーが最先端のイノベーション技術に素早く適応できるだけの柔軟性が求められます。また、業界の最新動向を正確に把握している、確固たるビジョンと企業理念を持ったRPAプロバイダが必要です。コンピュータ ビジョンは、去年に飛躍的な進化を遂げた分野です。この分野におけるいくつかのMLモデルの精度は、Google AutoMLなどのような最新の技術により、急速に向上しました。実際、こちらの記事で取り上げられているAutoMLによる画像データ分類機能の適用は、従来の画像認識/分類モデルで実装された予測精度を容易に上回るものです。

先日、Googleのビジョナリーと協業する機会があり、AutoMLの仕組みについて(私のような素人でも理解できるように)説明してもらいました。AIがAIを教育するというのは、まさに画期的なコンセプトです(同時に、少し脅威にさえ感じます)。Googleとの強固なパートナーシップにより、早い時期からこれらのケーパビリティにアクセスできたことは、当社にとって大変幸運であり、現在、当社の研究チームはGoogle AutoMLテクノロジーに関してさまざまな実験を行っています。Blue Prismロボットの教育が、ただ人間がロボットに画面を見せるだけの単純な作業になり、ロボット自らが、拡張可能かつ有意義な方法で画面上の全エレメントを自動的に認識、マッピングできるようになったとしたら?これこそデジタル ワーカーの将来像であり、この実現はもしかすると、あなたが考えるより遠い未来ではないのかもしれません。