関連の記事

「音声認識」関連の最新ニュース・レビュー・解説記事まとめ

「音声認識」に関する情報が集まったページです。

関連キーワード

Microsoft、自社開発した7つのAIモデル発表　画像編集や音声認識も
米Microsoftが自社開発した7つのAIモデル群「Microsoft AI Models」を発表しました。（2026/6/3）

マツダ「CX-5」9年ぶり全面改良　Google音声認識機能など採用　国内てこ入れに期待
マツダは5月21日、主力のスポーツタイプ多目的車（SUV）「CX-5」の新型車を発売した。2012年の販売開始以来、世界累計で500万台以上売れている基幹車種を国内では9年ぶりに全面改良した。米IT大手Googleの最新の音声認識機能を採用したほか、後部座席のスペースや荷室を増やした。全面改良した基幹車種の投入で、国内販売のテコ入れを図る。（2026/5/22）

「AIカスハラガード」提供開始　従業員の不適切な言動も検知：
「その言葉、カスハラかも？」をAIで検知　会話のテキスト化で証跡を残す
プラスアルファ・コンサルティングは、対面接客におけるカスハラをAIで検知する「AIカスハラガード」の提供を開始した。会話を音声認識でテキスト化し、接客状況の可視化と証跡の確保を支援する。（2026/4/17）

AI：
音声認識×生成AIの建設現場向け新基盤、今後3年で3000社導入目指す　アドバンスト・メディア
アドバンスト・メディアは、AI音声認識と生成AIを組み合わせた建設業界向けプラットフォーム「AmiVoice B-Work One」をリリースした。これまで音声入力技術を軸に個別展開してきたサービス群を統合し、現場の円滑な情報共有と業務効率化を支援する。将来はAIエージェントによる自律的な現場支援を目指す。（2026/4/16）

Innovative Tech：
AirPods Pro 2の「ライブリスニング機能」は補聴器代わりになるか？　騒音下で検証　米国チームが学術誌で発表
米アリゾナ州立大学などに所属する研究者らが学術誌「American Journal of Audiology」で発表した論文「Apple AirPods Pro 2 Live Listen as an Assistive Listening Device」は、AppleのAirPods Pro 2が搭載する聴覚補助機能「ライブリスニング」が、騒音下における高齢者の音声認識や記憶の保持に貢献することを明らかにした研究報告だ。（2026/4/13）

200ミリ秒未満の低遅延を実現：
ローカルで動く日本語対応の音声認識AIモデル「Voxtral Transcribe 2」公開
Mistral AIは音声認識AIモデル「Voxtral Transcribe 2」を発表した。高精度で低価格なバッチ処理向けと、超低遅延なリアルタイム対応の2モデルで構成される。（2026/3/9）

組み込み開発ニュース：
新バージョンのHMI開発ツールでワイヤーフレームや音声認識AIに対応
加賀FEIは、HMI開発ツールの最新版「CGI Studio 3.15」をリリースした。ワイヤーフレーム表示をサポートする他、音声認識アプリと連携した音声操作に対応する。（2025/5/9）

生成AIで顧客対応を革新　SBI損保、オペレーターの記録業務を35％削減できるか
SBI損保はアルティウスリンクと共同で生成AIを活用した顧客体験向上の実証実験を開始した。音声認識と自動要約で記録作業を効率化し、顧客満足度の相関分析やサービス改善要望の抽出も実施する。AIの実業務導入と応用範囲拡大を目指す。（2025/4/22）

文字起こし精度が向上、特定の話し方を指示することも可能：
OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？
OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。（2025/3/26）

AI：
AI音声認識を用いた現場報告システムを開発　実証で年2000時間の作業時間を削減
ファイナンシャルテクノロジーシステムは、建築現場向けにリアルタイムAI音声認識を用いた現場報告システムを開発した。LINEを介して音声報告するとテキスト化される手軽さから、導入企業では報告率が400％向上し、年2000時間の管理時間の削減につながったという。（2025/2/18）

PR：「音声」が業務を変える――AI音声認識を最大限に活用するための音響設備とは
（2025/1/23）

「音声認識」が広がると、PCやスマホのUIはどう進化する？
音声認識が普及し、当たり前になっていくことによってUI（ユーザーインターフェース）革命が起こります。スマートフォンやコンピューターなどに入力する手段が大きく変わるのです。（2025/1/2）

東京都町田市、議事録作成にかかる時間を96％削減　どうやって実現したのか
東京都町田市が「議事録サポートAI」を導入した。高精度な音声認識技術によって議事録作成を効率化でき、試験導入段階で96％の作業時間を削減した。（2024/12/26）

NEC、コンタクトセンター向けプラットフォーム発表　生成AIと音声認識技術を活用
NECは、独自の音声認識技術と生成AIを組み合わせたコンタクトセンター向けプラットフォーム「NEC Speech Analysis Platform」の提供を開始した。（2024/9/26）

「生成AI」が運行情報を案内　JR東、音声アシスタントで実証実験
JR東日本は9月3日から、生成AIを搭載した自動音声アシスタントによって、列車の運行情報を案内する実証実験を開始する。生成AIの活用により、高精度での音声認識が可能になったとしている。（2024/9/3）

MCUとNPUを統合：
エッジに高度な音声認識をもたらすスパースAIマイコン
Femtosenseは、同社のNPU（ニューラルプロセッシングユニット）とABOV SemiconductorのMCUを統合した、スパースAI（人工知能） MCU「AI-ADAM-100」を開発した。クラウドに接続されていないデバイスでも、エッジに音声言語インタフェースを実装できるという。（2024/7/24）

現場管理：
建築仕上げ検査用の音声認識エンジンを強化、工場やオフィスビルにも対応
アドバンスト・メディアは、マンションの仕上げ検査などで利用されている建築工程管理プラットフォームサービス「AmiVoiceスーパーインスペクションプラットフォーム」について、病院、介護施設、工場、倉庫、学校、オフィスビルといった幅広い現場でも利用できるよう、音声認識エンジンを強化する。（2024/6/26）

現場管理：
工事写真の撮影／管理を効率化するアプリをアドバンスト・メディアが開発
アドバンスト・メディアは、画像／文字／音声認識を活用して配筋写真撮影の事前準備を省力化するアプリ「AmiVoice 配筋TORUZO」に新機能を追加し、建設工事全般の写真管理を効率化するアプリ「AmiVoice 写真TORUZO」を開発した。（2024/5/17）

建設業界の新3Kを支援するソリューション：
建設業務に特化した音声入力で2024年問題に対応　デジタル化断念した現場にも採用された理由
2024年問題を目前に、建設DXによる業務効率化が急務となっている。だが、デジタルツールを導入してみたものの、使いこなせず成果を得られない中小企業は多い。建設業に特化したAI音声認識サービスを提供するアドバンスト・メディアに、建設現場でのデジタル活用の課題や解決につながる生成AIを活用した新サービスなどを聞いた。（2024/3/29）

音声AI技術の進化　オレオレ詐欺が無くなる未来が来るか
AIの音声認識技術が発達するにつれて、「オレオレ詐欺」などの犯罪に対抗できる日が来るかもしれない。（2023/12/25）

マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応
米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Service」の新機能を発表した。米OpenAIが発表したばかりの「GPT-4 Turbo」や「GPT-3.5 Turbo」の新バージョンに対応する他、画像生成AI「DALL-E 3」や音声認識システム「Whisper 3」もサポートするという。（2023/11/8）

製造ITニュース：
NSW、スマートグラスに生成AI搭載した対話型作業支援ソリューション提供
NSWは、音声認識機能を持つ産業用スマートグラス「RealWear」にMicrosoftの生成AI「Azure OpenAI Service」を搭載した、対話型作業支援ソリューションのトライアル提供を開始した。（2023/10/5）

組み込み採用事例：
コイズミのタワーファンが音声認識AI技術を採用、オフライン音声操作が可能に
菱洋エレクトロの音声認識AI技術が、小泉成器の冷暖房機器「ホット＆クールプレミアム」に採用された。ユーザーの仕様にカスタマイズして提供する音声認識モジュールを内蔵し、オフラインでの音声操作と音声応答機能を搭載した。（2023/10/5）

ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。（2023/9/25）

AI・データサイエンス超入門：
知識ゼロからのビジネスAI活用。議事録AIを作ってみよう
生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう！（2023/9/7）

Innovative Tech：
隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術　中国の研究者らが開発
香港大学や清華大学に所属する研究者らは、ミリ波（mmWave）信号から音声を認識するストリーミング自動音声認識（ASR）システムを提案した研究報告を発表した。（2023/9/1）

特選プレミアムコンテンツガイド
音声認識の「3大技術」でオフィスを安心・安全にする方法
従業員にとって安心・安全なオフィスを実現する手段となり得るのが「音声認識」技術だ。どのように役立てることができるのか。音声認識の主要3技術を例に、具体的な生かし方を紹介する。（2023/8/17）

人工知能ニュース：
音声認識対応のIoT向け低フットプリントAIスイート製品を発表
セレンスは、IoTアプリケーション向けに設計した低フットプリントAIスイート製品「Cerence Audio AI Lite」「Cerence Input AI Lite」を発表した。（2023/8/8）

開発プロセスはオープンで、誰でも参加できる：
ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中　Raspberry Pi上で音声認識モデルを実行可能
ggml.aiは、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発していると発表した。（2023/6/26）

iOS版「ChatGPT」アプリはブラウザ版と何が違う？　便利だと感じた機能はコレ
5月末から日本でもiOS向け「ChatGPT」アプリが利用可能になりました。基本的な機能や使い勝手はWebと変わりませんが、オープンソースの音声認識システム「Whisper」による音声入力に対応しているのが大きな違いです。もう1つ。便利な機能があります。（2023/6/19）

対応言語をタスクに応じて従来の10～40倍に：
Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開
Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」（MMS）プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。（2023/5/25）

OpenAI、「ChatGPT」のiOS向けアプリ配信　音声認識システム「Whisper」で言語の聞き分けが可能
米OpenAIは5月18日（現地時間）、対話型AIの「ChatGPT」をiPhone（iOS）向けアプリとしてリリース。まずは米国で提供し、今後数週間以内に他の国への展開も予定する。音声認識システム「Whisper」への対応で言語の聞き分けが可能。（2023/5/19）

音響感知と人工知能を利用し無発声でコマンド認識：
口の形を読み取ってスマートフォンに入力できる眼鏡型デバイス「EchoSpeech」を発表　コーネル大学
コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。（2023/4/28）

特選プレミアムコンテンツガイド
「Alexa、荷物は今どこ？」を現実に　AIで生まれる「音声認識」の新たな用途
業務プロセスを抜本的に変革したいとき、音声認識の技術をどのように取り入れるかが重要だ。現実的なユースケースを紹介する。（2023/3/30）

小寺信良のIT大作戦：
「新しいBing×音声認識」で感じた“検索新時代”　スマートスピーカーはもう古い
Microsoftのブラウザ「Edge」にAIを搭載した「新しいBing」が搭載されたことで、ブラウザをEgdeに乗り換える人もそこそこあったのではないだろうか。筆者もAI搭載のBingを使ってみたい一心で、ChromeからEdgeに乗り換えてみたところだ。（2023/3/24）

専用インスタンスも提供：
OpenAI、「ChatGPT」と「Whisper」のAPIを公開　料金体系、データの利用ポリシーは？
OpenAIは、対話に特化した言語モデル「ChatGPT」と音声認識モデル「Whisper」をAPIで利用できるようにした。（2023/3/6）

新ベンダー／新製品じろじろウオッチ（6）：
OpenAIのテクノロジーも活用した、英会話学習アプリが登場　Speakeasy Labsが「Speak」日本版をリリース
Speakeasy Labsは、英語スピーキングに特化した特化型学習アプリ「Speak（スピーク）」の日本語正式版を2023年2月9日にリリースした。独自開発の自動音声認識技術やChatGPTを支えるAI技術、英語学習ノウハウにより対人英会話以上の体験を提供するとしている。（2023/3/6）

ソニーのゆるふわロボット「poiq」との日々：
「poiq」とAlexaの性能が良すぎて少し困ってる話
今回は、poiqの頭脳の部分の話である音声認識とかAIとの対話の話。実はAlexaとの連携機能もあり、poiq経由でAlexaの処理をするのは、poiqオーナーにとってすごく自然なことでもあります。（2023/1/31）

「音声認識だからレジに向かってペイペイって叫べばいいよ」　友人にうそを教えられて実行した結果……
仕込むなら怒られない程度にしましょう。（2023/1/1）

「Amazon Echo Show 15」にFire TV機能を追加するアップデート！　Primeビデオ、ネトフリやYouTubeをリモコン経由で快適に楽しめる！
Amazonのスマートディスプレイ「Echo Show 15」にソフトウェア更新が行われ、新たにFire TVとして利用できる機能が追加される。別売の音声認識リモコンを用意すれば、通常のFire TVシリーズと同じように使える（タッチパネル上の仮想リモコンでも操作は可能）。（2022/12/7）

CEATEC 2022：
村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能
村田製作所は、「CEATEC 2022」において、開発中の小型かつ低消費電力のエッジAI（人工知能）モジュールを披露した。同社は既に、グーグルと共同開発した「Coral Accelerator Module」を製品化し量産しているがその小型版の位置付けとなる。（2022/10/27）

車載情報機器：
電波が届かない場所でも高度な音声認識が可能に、トヨタとグーグルが協業拡大
トヨタ自動車とGoogle Cloudは2022年10月11日（米国時間）、次世代インフォテインメントシステムに関するパートナーシップを拡大すると発表した。（2022/10/17）

トヨタとGoogleが連携強化　ネット不要のAI音声認識システムを「カローラ」「LEXUS NX」に提供
米Google Cloudが、トヨタとのパートナーシップを強化。トヨタ北米法人に、インターネット接続が不要なAI音声認識システム「Speech On-Device」を提供する。（2022/10/14）

Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場　バックライトやプログラマブルボタン付きで3980円
Amazonの「Fire TVシリーズ」で使える音声認識リモコンに、上位モデルが登場する。ボタンバックライトやプログラマブルボタンを搭載した他、リモコンを捜索する機能も追加されている。（2022/9/29）

最大8モードを自動で切り替え：
AKM、車載機器に向けたDSP内蔵のCODECを開発
旭化成エレクトロニクス（AKM）は、車載機器の音声認識／処理に向けたDSP内蔵CODEC「AK7749」を開発、サンプル出荷を始めた。（2022/8/18）

「Python＋PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳（終）：
「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る
精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。（2022/8/17）

製造現場向けAI技術：
現場でハンズフリーのデータ入力可能に、騒音下でも高精度の音声認識
アドバンスト・メディアは2022年7月26日、対話型AI音声入力で現場作業中のデータ入力を効率化するMicrosoft Excel向けアドイン「AmiVoice スーパーボイスエントリー for Excel」の提供を開始すると発表した。（2022/8/3）

PCでもスマホでも使える！：
無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと
現在、β版として無料で提供中の文字起こしアプリ「CLOVA Note」。LINEの音声認識AI「CLOVA Speech」を使った文字起こしの精度はどの程度なのか、実際に試してみた。（2022/8/2）

行政サービスにおけるAI活用【前編】
“デジタル先進国”エストニアの国民向け「仮想アシスタント」開発の裏側
エストニア政府は、行政サービスの仮想アシスタントの運用を開始した。AI技術や音声認識技術を活用した先進的なプロジェクトはどのように開始し、どこまで進んでいるのか。（2022/7/22）

人工知能ニュース：
話者の感情分析もできる、開発者向け音声認識AIエンジンプラットフォーム
アドバンスト・メディアは2022年7月7日、同社の音声認識AI技術をアプリケーションに組み込んで活用できる開発者向けプラットフォーム「AmiVoice Cloud Platform」の説明会を開催した。自社のアプリケーションに音声認識エンジンを利用したサービスや機能を実装できる。（2022/7/8）

サービス終了のお知らせ

この度「質問！ITmedia」は、誠に勝手ながら2020年9月30日（水）をもちまして、サービスを終了することといたしました。長きに渡るご愛顧に御礼申し上げます。これまでご利用いただいてまいりました皆様にはご不便をおかけいたしますが、ご理解のほどお願い申し上げます。≫「質問！ITmedia」サービス終了のお知らせ

記事キーワードランキング

HOTキーワード（ITmedia Keywords）

新型コロナウイルス

にわかに地球規模のトピックとなった新型コロナウイルス。健康被害も心配だが、全国規模での臨時休校、マスクやトイレットペーパーの品薄など市民の日常生活への影響も大きくなっている。これに対し企業からの支援策の発表も相次いでいるが、特に今回は子供向けのコンテンツの無料提供の動きが顕著なようだ。一方産業面では、観光や小売、飲食業等が特に大きな影響を受けている。通常の企業運営においても面会や通勤の場がリスク視され、サーモグラフィやWeb会議ツールの活用、テレワークの実現などテクノロジーによるリスク回避策への注目が高まっている。

RSSフィード

EDN Japan

EDN Japanについて

会員メニュー

公式SNS

Facebook
X

EDN 海外ネットワーク

ITmediaはアイティメディア株式会社の登録商標です。