Googleがオープンモデル群であるGemma 4を2026年4月2日に公開しました。このモデルはGemini 3と同様の技術を基盤としており、高度な推論や自律的なエージェント機能に特化して設計されています。今回のリリースでは開発者の利便性を考慮し、ライセンスを従来の独自形式から商業的に寛容なApache 2.0へと変更しています。...
Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。 Today we're announcing 3 new world class MAI models, available in Foundry | Microsoft AI https://microsoft.ai/news/today-were-announcing-...
多くのインバウンド(訪日客)の来訪が見込まれる今秋のアジア・アジアパラ大会(愛知・名古屋大会)を見据え、名古屋鉄道は3日、全国有数の「忙しい駅」として知られる名鉄名古屋駅で、駅係員の構内放送を可視化する実証実験を始める。アイシン(愛知県刈谷市)の音声認識アプリを活用し、日本語の放送をリアルタイムで...
名鉄名古屋駅で「音声認識によるリアルタイム翻訳モニター案内」の実証実験が始まります。 日本一カオスな駅、これを「文字化」するのか…! 名古屋鉄道が2026年4月3日より、名鉄名古屋駅で「音声認識によるリアルタイム翻訳モニター案内」の実証実験を始めます。 拡大画像 名鉄名古屋駅(画像:PIXTA) 名鉄名古屋駅は3...
AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。 Qwen3.5-Om...
AI企業のCohereがオープンソースの音声認識(ASR)モデル「Transcribe」を2026年3月26日に発表しました。このモデルは英語、日本語、中国語、韓国語、ベトナム語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、アラビア語に対応しており、Hugging Faceからダウン...
文・murashit 西方の砂漠には、ずたずたに裂けた地図の残骸が今も残っているが、そこに住むものは獣と乞食、国じゅうを探っても在るのは地図学の遺物だけだという。 J. L. ボルヘス「学問の厳密さについて」異星の海を舞台としたアドベンチャーゲーム──そう聞いて、あなたが思い浮かべる光景はなんでしょうか。 生命体は...
情報通信研究機構(NICT)は、研究用に公開した音声コーパスについて、本来非公開のボイスチェック用音声ファイル115人分が含まれており、氏名など人の呼称が漏えいしたと発表した。住所や連絡先、生年月日などは漏えいしていないという。 音声コーパスとは、音声ファイル群と、それに対応する書き起こしなどの付加情報...
はじめに こんにちは、Insight Edge アジャイル開発チームの山崎です。 マルチエージェントシステムを設計する際、多くの設計判断に直面します。議論はシングルステップで十分か、複数ステップに分割すべきか?各ステップに誰を参加させるべきか?プロンプトはどこまで詳細に書くべきか? 今回の記事では、Google ADK + ...
お疲れ様です。 この記事を読んで 正直な感想は絶句です。 この記事の夫になる男性の方が すごく気の毒でならない。 わたくしは親族だった場合 離婚を勧めるかもしれないですけど こういう女性に限って 慰謝料とか言ってくるんだろうなぁって思う。 そして こうしたケースに 本当に大事になってくるのが ICレコーダーだ...
「音声認識」に関連する商品は見つかりませんでした