Project VOICE との協業を収めたドキュメンタリーが公開されました

小野克樹

AILLMProject VOICE当事者開発アクセシビリティ支援技術AACファインチューニング

私が当事者として協業してきた、Google の研究開発プロジェクト Project VOICE の取り組みを収めたドキュメンタリー動画が、公開されました。

あわせて、Project VOICE は iF Design Award の最高賞である Gold Award を受賞し、Google Japan Blog でも今回の協業について発表していただいています。受賞は Google のプロジェクトに対するものですが、審査委員会から「これこそが、人間の尊厳とつながりに貢献するプロダクトデザイン」との評価が寄せられたと聞いています。発話や身体を動かすことが困難な人たちのための技術がこうした形で世界的に評価されたことは、当事者として大きな励みになりました。

ドキュメンタリーでは、頭部スイッチひとつでタブレットを操作する私が、Project VOICE のモデル開発にどう関わってきたかをご覧いただけます。映像だけでは伝わりきらない背景について、少し書き残しておきたいと思います。

Project VOICE とは何か

Project VOICE は、Google が研究開発を進めてきた、発話や身体に困難のある人のためのコミュニケーション支援技術です。

正式名称は Valuing Our Individual Communication Expression。 直訳すれば、「一人ひとりのコミュニケーション表現を大切にする」プロジェクトです。

中核には、Google の大規模言語モデル Gemini の文脈予測能力があります。ユーザーが少ない操作で、より自然な文を組み立てられるよう支援する仕組みです。

昨年、Google はこの技術を オープンソースとして無償公開 しました。誰でも、研究や派生開発、現場での実装に使えるようになっています。

私自身、進行性の神経疾患により、頭部の動きと iPad だけで業務や生活を行っています。発話補助や入力補助に依存する人間として、こうしたツールはまさに、日々の言葉そのものを支えるインフラです。

私が取り組んだこと ― 5万件の自分の会話でモデルを最適化する

今回の協業で私が取り組んだのは、Project VOICE のベースとなる Gemini モデルを、「私自身の言葉」に合わせて最適化することでした。

具体的には、過去に蓄積してきた約 5万件 の自分の会話データを使い、Gemini をファインチューニングしました。

そうしてできあがるのは、汎用的な予測変換ではなく、「私の言い回しを知っているモデル」 です。

これは、小さなようでいて、当事者にとっては大きな違いを生みます。

汎用モデルが提案する「正しい」言い回しは、しばしば自分の口調としては違和感を持ちます。意味は通じても、自分の声ではない。そういう齟齬は、毎日何百回と発生するコミュニケーションの中で、無視できない疲労として積み重なっていきます。

自分のデータで作り直したモデルは、私がよく使う省略の仕方、語尾の癖、文脈の飛び方、相手ごとの言葉遣いの違いを学習しています。その結果、AAC(補助代替コミュニケーション)を「とりあえず通じる道具」から、「自分の声で話せる道具」 に近づけることができました。

発話支援ツールから、社会参加のプラットフォームへ

Project VOICE がこれまでの発話支援技術と違うのは、目指している地点が「言葉が出せる」で止まっていないことです。

言葉が出せるかどうかは、本来ゴールではありません。大切なのは、その言葉で誰かと関わり、考えを交換し、仕事をし、社会と接続できるかどうかです。

私はこの技術を使って、研究発表をし、論文を書き、会社を経営し、講演を行い、開発をしてきました。ファインチューニングした個人化モデルは、単に発話を補助するだけではなく、私が研究者・開発者・経営者として社会に参加するための土台になっています。

これは、Project VOICE の可能性の一例にすぎません。同じ仕組みは、別の身体条件・別の言語環境・別の生活スタイルの人にとっての、それぞれの「個人化された言葉のインフラ」になり得ます。

単なる発話支援ツールから、社会参加を後押しするプラットフォームへ。今回の協業を通じて、その方向性が技術的に成立しうることを、自分自身の使用例を通して確認できたと考えています。

当事者として開発に関わるということ

今回の協業で印象に残っているのは、「当事者を被験者やフィードバック提供者として扱うのではなく、開発の中心に置く」 という姿勢でした。

私は、開発の方針、評価の設計、データの設計、そしてモデルの調整まで、当事者として関わらせてもらいました。これは、これまでの支援技術開発ではあまり多くなかった形だと思います。

支援技術が本当に役に立つかどうかは、極めて細かい感覚に依存します。 ボタンの位置が数ミリずれているか。 予測候補の出る順番が、自分の言葉に合っているか。 予測の「速さ」が、自分の入力リズムと噛み合うか。

こうした粒度の判断は、その身体で生活している当事者でなければ気づきにくい部分です。逆に言えば、当事者が開発に深く関わると、そこに反映される設計判断の解像度は格段に上がります。

この実践は、私が以前 J-Stage 公開の論文「バイブコーディングと当事者開発」で論じた 「能力の再構成」 ― 機能障害は変わらず、社会的障壁も取り除かれていないのに、テクノロジーとの接続によって「能力」の定義そのものが書き換わる、という現象 ― の、ひとつの具体的な手触りでもあったと感じています。

まだ、これからの話

もちろん、すべてが解決したわけではありません。

個人データでのファインチューニングには、プライバシー、データ管理、再学習コスト、評価方法など、整理すべき論点が多くあります。言語、文化、入力デバイス、障害特性ごとに、必要になる調整も大きく異なります。発話支援を必要としているすべての人が、簡単にこのプロセスにアクセスできるわけでもありません。

それでも、Project VOICE がオープンソースとして公開され、当事者が中心となった開発の事例がこうして映像として記録されたことは、こうした課題に向き合うための土台が広がりつつあるという意味で、大きな前進だと感じています。

EqualFrontiers でも、AAC・コミュニケーション AI・個人化言語モデルの研究開発を続けていきます。重度の身体障害があっても、その人の言葉で社会に参加できる。そのための技術を、当事者の側から設計していく仕事を、これからも積み重ねていきます。

最後に、Project VOICE チームの皆さま、共に開発に取り組んでくださったすべての方々、そして応援してくださっているすべての方に、心から感謝申し上げます。

同じ困難を持つ人に届き、その人の世界が少しでも広がっていくことを願っています。


関連リンク

‹ ブログ一覧へ