非構造化データの力を引き出す8つのヒント
企業データを最大限に活用することは、今日のITリーダーの最大の関心事である。組織がよりデータ主導でビジネス上の意思決定を行おうとする中、ITリーダーは、データがどこに、あるいはどのような形で存在しようとも、データから価値を生み出すためのデータ戦略を考案しなければならない。
多くの企業にとって、テキスト、ビデオ、オーディオ、ソーシャルメディア、画像、センサー、その他の形式の非構造化データは、とらえどころがなく、未開拓のままである。Foundry社の調査によると、業界調査では企業データの90%が非構造化データであると推定されているが、ITリーダーの61%は非構造化データの管理が組織の問題であると回答しており、さらに24%は非構造化データをデータおよびアナリティクスのショートリストに含めていないという。
非構造化データ・リソースは、ビジネス上の洞察を得たり、問題を解決したりする上で非常に価値がある。重要なのは、その価値を生み出す方法を見つけ出すことだ。こうした膨大な情報リソースを活用することに長けた組織は、主要なビジネス・プロセスに実用的な洞察を提供する上で大きな優位性を得ることができる。
ここでは、独創的な企業がどのように非構造化データをビジネス価値に変えているのか、また、非構造化データを組織のために活用するためのヒントを紹介する。
クリエイティブなプロセスを強化する
モバイルゲーム開発会社レトロスタイル・ゲームスでは、非構造化データはビジネスの成長とゲームの改善に直接貢献する「金鉱」であることが証明されたと、同社のデータアナリストであるイヴァン・コノヴァルは言う。
レトロスタイル・ゲームズが非構造化データを利用する方法は数多くあるが、最もインパクトがあるのはコンセプトアートの収集とオーディオデータだろう。
「ゲーム開発者のクリエイティブなプロセスは、スケッチやムードボード、コンセプトアートから始まることが多い。これらの作品は、構造化されてはいないものの、ゲームで表現したいことの本質を捉えている。これらの作品が他の作品の中に紛れ込まず、将来ゲームの続編を制作する際に簡単に探し出せるようにするため、私たちは高度な画像認識ツールを使用している」とコノヴァルは言う。
これらのツールは、キャラクターや風景など、アートワークのさまざまな要素を分類し、タグ付けする。「これにより、当社のアーティストや開発者は、関連するアートワークをすぐに見つけることができ、デザインの一貫性を保ち、開発プロセスをスピードアップすることができる」とコノヴァルは言う。「さらに、このシステムによって、会社のアートワークの開発に関する情報を保存することができ、新入社員を教育する際に非常に役立っている」。
音声データについては、プレイヤーがゲームの世界で体験する上で、声優が重要な役割を果たしているとコノヴァルは言う。「ゲーム内のダイアログ、背景音、プレイヤーのボイスチャットから膨大な量のデータを収集している。音声認識とサウンド分析を使って、ムードや感情などのニュアンスを抽出する。」
例えば、あるダイアログの結果、プレイヤーが常に興奮してボイスチャットに入るような場合、開発者はこれに注目する。同様に、環境に合わないバックグラウンドノイズなどの異常も特定され、対処される。
「この音声データから得られた洞察は、ゲームの音声体験の改善に直接貢献し、プレイヤーが常に感情的にゲームプレイに没頭し、環境とインタラクションできるようにしています」とコノヴァルは語る。
ゲームは動的なものであり、それが生成するデータも同様である、とコノヴァルは言う。ゲーム内のチャット感情分析などの機能には、プレイヤーの不適切な行動をフィルタリングするためのリアルタイム処理が必要だった。「Apache Kafkaのようなストリーム処理フレームワークを活用することで、この問題に対処した。これにより、ゲームモデレーターは、新たなパターンや問題にリアルタイムで対応できるようになった。
ゲームのリリースやアップデートが行われるたびに、処理される非構造化データの量は指数関数的に増えていくとコノヴァルは言う。「このデータ量は、ストレージと効率的な処理という点で深刻な問題を引き起こす。」
この問題に対処するため、レトロスタイル・ゲームスはデータレイクに投資した。「これにより、膨大な量の非構造化データを保存できるだけでなく、効率的に照会・分析できるようになり、データサイエンティストや開発者が必要な情報に即座にアクセスできるようになった」とコノヴァルは言う。
ジェネレーティブAIを強化する
従業員認識・体験ソフトウェアのプロバイダーであるWorkhuman社は、クラウドベースのプラットフォームで非構造化データをさまざまな方法で活用している。
「非構造化データは最も一般的なデータ形態でありながら、効果的な活用が最も難しいデータです」とハリオットは言う。
Workhumanのクラウドには、世界中の従業員からの何百万もの承認メッセージが保存されており、一緒に働いている誰かについてポジティブなフィードバックを共有している。
「彼らは自分の言葉でこれを行うので、それぞれの承認の瞬間は完全にユニークなものだ」とハリオットは言う。「私たちはこのデータを使ってAIモデルを構築し、従業員が組織内でどのように協力しているか、メッセージの中でどのようなトピックが最も頻繁に出てくるか、組織全体で表彰の公平性が保たれているかなどを、企業がより明確に定義できるようにしている。」
同社はまた、大規模言語モデル(LLM)を使用して、時系列での表彰傾向を要約し、効果的な表彰メッセージの文言を提案している。
「私が特に誇りに思っているイニシアチブのひとつは、インクルージョン・アドバイザーというツールだ。これは、AIベースのコーチング・ツールで、受賞者に送られる前に、表彰の言葉における無意識のバイアスを特定し、修正を提案する」とハリオットは言う。
非構造化データから価値を引き出す最大の課題のひとつは、組織にとって焦点となるビジネスユースケースに対して、信頼できる有効なトレーニングデータへのアクセスが限られていることだ。
「大量の非構造化データがあっても、モデルを作成し検証するための効果的なトレーニングデータがなければ、進捗と品質は低下する」とハリオットは言う。「LLMの活用はこの点で確かに役立つが、多くのビジネスユースケースは、既存のLLMでは効果的に捕捉できない。」
加えて、「LLMでは、トレーニングデータのバイアスの問題が残る可能性がある」とハリオットは言う。Workhumanには、こうした問題に対処するため、データの注釈、補強、検証を担当する言語学チームがある。「また、大規模で多国籍な顧客と提携し、モデルが意味のある有用な結果をもたらすようにしています」とハリオットは言う。
非構造化データを価値に変えるヒント
ハリオット、コノヴァルをはじめとしたデータの専門家は、非構造化データを扱う際に成功するためのアドバイスを以下のように語っている。
1. イニシアチブをビジネス成果に結びつける。ITリーダーは、非構造化データを活用するイニシアチブがビジネスニーズと緊密に連携しており、経営幹部のスポンサーシップがあることを確認する必要がある、とハリオットは言う。
「非構造化データの独創的なユースケースをチームが持っていても、重要なビジネス成果との関連性が周囲に明らかでなく、支持を失うことがよくある」とハリオットは言う。「そのユースケースがなぜ重要なのか、そして、それがどのように直接的または間接的にビジネス上の利益をもたらすのかについて、組織を教育するのはリーダーの責任である。」
2. 過程を認識する。また、データリーダーは、構造化されていないデータで価値を創造することがいかに困難な課題であるかを考慮し、イニシアチブのマイルストーンを設定し、達成されたことを祝うべきである。
「非構造化データを実用的なものにするには、ビジネスが期待する以上の時間と労力が必要になるかもしれない」とハリオットは言う。「マイルストーンを認識することで、リーダーは他のステークホルダーに進捗状況を可視化し、チームメンバーが非構造化データを実用化するために注いでいる努力のレベルを評価されていると感じられるようにする」。
3. 品質が第一。成功のもう一つの鍵は、データ品質を優先することである。
「ガーベージ・イン、ガーベージ・アウト」という格言ほど適切なものはないとコノヴァルは言う。「データ品質を確保せずに分析に入ることは逆効果になりかねない。我々は常にデータをきれいにし、不要なものを取り除き、品質基準を満たしていることを確認するアプローチをとってきた。」
ゲーム業界では、「誤った情報による決定は、プレーヤーが共感しないような高価な機能開発や、さらに悪いことに、評判を落とすようなバグを生む可能性がある」とコノヴァルは言う。「当社の厳格なデータガバナンスの枠組みは、分析の基盤が揺るぎないものであることを保証している」。
4. 実用的なデータと有益なデータを分ける。ビジネスユーザーが行動できるデータに優先順位をつけることも重要だ。「重要なのは、データ量と、何が実用的で何が有益かを見極めることだ」と、コロケーション・データ・サービス・プロバイダーであるDataBank社のCOO、ジョー・ミナリックは言う。
この重要性を強調するために、ミナリックは非構造化データをシステム監視に利用する例を挙げている。「実用的な側面は、優先順位をつけて迅速に対処しなければならない。システムの非常に多くの側面が監視されているため、ひとつの問題が下流の機器からアラームや情報を発生させ、アラート、アラーム、情報が氾濫することになる。」
5. AIを十分に活用する。ミナリックは、非構造化データストリームを長期にわたって分析する上で、AIと機械学習が果たす貴重な役割を指摘する。「システムの相関関係を構築するのに役立つ。それによって、ノイズを取り除き、根本的な問題に即座にたどり着くことができる」。
例えば、組織は名前付きエンティティ認識(NER)を導入することができる。NERは自然言語処理(NLP)のコンポーネントで、非構造化テキスト内の名前付きエンティティを識別・分類することに重点を置き、”人”、”組織”、”場所 “などのタグを付ける。
「実用的には、エンティティ認識は多くのアプリケーションで重要な役割を果たしています」とミナリックは言う。これには、コンテンツにインデックスを付けて整理する情報検索システム、テキスト内の回答を見つける質問応答システム、認識されたエンティティに基づいてコンテンツをパーソナライズするコンテンツ推薦エンジンなどが含まれる。
「名前付きエンティティを識別・分類することで、NERはデータアナリストやシステムエンジニアに、収集された膨大なデータから貴重な洞察を引き出す力を与える」とミナリックは言う。