オフショア開発は成果物でコミュニケーションその1

最後に、一般的なシステム開発とは異なる事例を紹介します。あるベンチャー企業から、タイ語の音声認識プロジェクトの一環として、現地での音響モデル、言語モデルのデータ採集を依頼されました。

音声認識のモデルを構築する時は、ベースとなるモデルに現場のデータを加え、本番用のモデルを作ります。この時はコールセンター業務向けでしたので、実際の電話から会話を録音し、それを文字に書き起こしたものをベースのモデルに加えます。しかしタイ語のベースモデルが存在しませんでしたので、通常より多くの音声データが必要でした。理論的に最低限必要とされる量のサンプルを得るには、音声の採取と書き起こしを並行作業して一月半かかる計算でした。

タイに入って、まずはコールセンターに録音機材を設置し、20名ほどタイピングスキルのあるアルバイトを雇って録音された会話をテキストに起こし始めました。一日に延べ何十時間分の音声を収録するためデータサイズも大きく、日々多量のファイルを扱います。可能な作業は自動化しないと一日分の仕事がおわりません。最初の3日間ほどでいくつかスクリプトを書き端末のファイル圧縮や収集作業、格納作業を自動化し、また作業者ごとに作業時間と、作業結果を日次で記録、分析できる簡単なシステムを開発しました。

残る問題は、挨拶程度しかタイ語を解さない私がどうやって書き起こしの品質を担保するかです。これが最大の問題でした。

 

Posted in オフショア一般

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>