Voxtral Transcribe 2 consists of two speech-to-text models with transcription quality, diarization, and ultra-low latency.
AI’s Grok Imagine 1.0 adds 10-second 720p video with improved audio and a new API, as regulators scrutinize deepfake and abuse risks on X globally.
動画・音声・画像・PDFなど多様なファイル形式を扱え、自動解像度変換や自動音声文字起こしなどYouTubeの主要な機能を自前のサーバー上で再現できる「MediaCMS」が公開されています。
Agentic Vision is a new capability for Gemini 3 Flash to make image-related tasks more accurate by “grounding answers in visual evidence.” ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する