We propose a design of interface for visual-impaired People to access visual information from images utilizing Large Language Models(LLMs), Visual Language Models (VLMs), and Segment-Anything. We use Semantic-Segment-Anything to generate the segmentation of semantic objects in images. The segmentation includes two parts: a term set describing the semantic object, and segmented mask which represents the shape of the semantic object. We provide two methods for the visual-impaired user to access the information of the semantic object and its peripheral information in image. In one method, the LLM summarize the term set to create an description. In the other method, the image with the object masked is provided to Visual Language Models which is prompted to respond with a description. In both methods, the mask can be accessed with dot display after processed for the visual-impaired people to access, and the description is prompted to the user in synthesized voice.
このプロジェクトは、視覚障害者が画像から視覚情報にアクセスするためのインターフェースの設計を提案します。このために、Large Language Models(LLMs)、Visual Language Models(VLMs)、およびSegment-Anythingを利用します。Semantic-Segment-Anythingを使用して、画像内の意味的オブジェクトのセグメンテーションを生成します。セグメンテーションには、意味的オブジェクトを説明する用語セットと、意味的オブジェクトの形状を表すセグメンテーションマスクの二つのパーツが含まれます。視覚障がい者が画像内の意味的オブジェクトとその周辺情報にアクセスするために2つの方法を提供します。その一つ目は、LLMが用語セットを要約して説明を作成します。その二つ目の方法は、オブジェクトがマスクされた画像がVisual Language Modelsに提供され、説明を返すように促されます。両方の方法で、マスクはドット表示でアクセスできるように処理され、説明は合成音声でユーザーに提示されます。
Zhang Zhexin, Yoichi Ochiai.
University of Tsukuba