ドキュメント理解に特化したマルチモーダルOCRモデル「GLM-OCR」を中国のAI企業であるZ.aiが公開しました。GLM-OCRは0.9B(9億)という極めて軽量なパラメータ数でありながら、複雑なドキュメントレイアウトを高精度に解析・抽出することを ...
Jasper Ward is a breaking news reporter in Washington. She primarily covers national affairs and U.S. politics. Jasper was previously based in The Bahamas where she covered the collapse of FTX and the ...
したがって、私が予見するAIの次のボトルネックは規模ではなく、表現である。真の進歩は、言語理解と明示的な空間的・構造的推論を組み合わせ、レイアウトの不変性をエンドツーエンドで保持できるシステムから生まれるだろう。
~GENIAC採択企業のVisual Bank、音声・言語AI開発向けの日本語音声データでASR/LLM開発を支援~ Visual Bank株式会社(東京都港区、代表取締役CEO ...
AIを悪用した数百万件もの被害が報告されているにもかかわらず、「Grok」を開発するxAIは、より強力な新しいAIツールの展開を止めていない。米国時間2月1日、xAIは動画生成AIモデルの新バージョン「Grok Imagine 1.0」をSNS「X」で発表した。
AppleがXcode 26.3のリリース候補(RC)版を2026年2月4日にリリースし、コーディング可能なAIエージェントをより強くサポートする「エージェンティックコーディング」の実装を発表しました。これにより、AnthropicのClaude ...
東京大学 工学系研究科 松尾研究室発の3D×AIのスタートアップ企業bestat(ビスタット)は2026年1月7日、点群データを手軽に扱える3Dモデルへ変換するWebサービス「3D.Core for Point Cloud」を正式ローンチした。