咱们在上个月给大家分享了Be My Eyes的虚拟志愿者。这不。听游江湖公众号。在他们的博客里。寻找了一个国外的盲人大哥。 写的博客。看看他们的虚拟志愿者有多强大。AI 虚拟志愿者有多逆天?听了这个演示我惊呆了!
今年 AI 的强大和爆火程度,小伙伴们多多少少可能都感受到了。借助目前最先进的 ChatGPT,我们可以在很多领域提高生产力,解放双手。
那么,除此之外,AI 还能为我们做些什么呢?
知名视障辅助 APP Be My Eyes 在几个月前遍接入了 ChatGPT,探索基于 AI 的虚拟志愿者功能。目前已经有视障伙伴获得了测试资格,而其中一位视障朋友遍专门制作了一期波克,用以为我们介绍和展示这一功能。
波克作者:Thomas Delvo,也被称为 Nano Mouse。com 01.反馈图像质量并进行指导。 一旦进入Be My Eyes应用程序,底部应该有一个虚拟志愿者按钮。然后从该按钮中,你可以得到一些允许你拍照并描述物品或告诉你图片中包含什么的选项。所以,当你想描述或告诉你图片中包含什么时,就可以拍摄照片。然后利用OpenAI技术,它会将这张照片分析并告诉你结果。你有几个选项。如果需要的话,可以添加更多的附加图片。 有时当志愿者回复时说需要换个角度,或者请尽量提供其他图片,因为可能太近、太远或者模糊了。 所以它会告诉你,这是一个美妙的过程。所以它实际上就像与面前的人交谈。但你是与他们的 Open AI 服务器交谈。 02.虚拟志愿者没有任何限制。 没有任何限制,你使用次数没有限制,问问题的数量没有限制,回答也一样,没有任何限制。这就是这项技术的优点。 03.响应较为迅速。 自从我开始使用Be My Eyes虚拟志愿者以来,我已经看到了速度发生了巨大的变化,这只会随着时间的推移变得更好。 有很多变量会影响到这个问题,比如你的网络连接状况、你的Wi-Fi网速、信息传递到OpenAI服务器的速度,以及考虑OpenAI服务器的负载如何。 所以如果它们非常忙碌,可能会变慢,也可能变快。我的平均响应时间大约是2-3秒钟,我认为这是理想的,也是可行的。 然而,正如我之前提到的,从现在开始,只会越来越好,我们可以看到这个结果的改进。 04.提问方式目前只有文字。 当你听这个播客时,会听起来好像我可以通过语音询问问题,但实际上在现有的技术下,你需要手动输入文字才能向虚拟志愿者提问。 好像是他通过声音识别技术一样,并且我会立刻得到虚拟志愿者的响应。 我希望事情可以这么简单,只需要用声音进行激活并获得响应。 但实际上你听到的只是我的回答和虚拟志愿者的回复,这让它听起来像是瞬间的。 05.描述照片。 我有一张特定的照片,我知道是在沃尔特·迪士尼世界拍摄的,想知道手机的语音提示会说什么关于这张照片。 “照片中有一群人站在一座彩色建筑物前面。” 这让我感觉有点失望,虽然我知道那是什么地方。这张照片没有很多感情或者记录我们当时在那个地方或者拍摄该照片的时刻。 请看,现在就是我所说的Be My Eyes虚拟志愿者。 虚拟志愿者:这是一张迪士尼世界灰姑娘城堡的照片。城堡被五彩缤纷的灯光装饰,前方有一个沃尔特·迪士尼和米老鼠的雕像。后方有蓝色的光束照射向天空。 这真是太棒了!而且最美妙的事情在于,这是你的虚拟志愿者。你可以询问更多关于这张照片的问题,展开对话模式,让回忆重现。 我现在想要了解更多信息,请告诉我这张照片中你看到了什么。 虚拟志愿者:好的,我可以提供更多细节。照片中,城堡被红、绿、金三种颜色的灯光装饰,尖塔上还有蓝色和黄色的灯光。雕像的沃尔特·迪士尼和米老鼠由青铜制成,位于照片中央。前景和背景都有人影。天空很暗,光束在天空中形成了一种图案。 这就是我想要的感觉,它让我回到了当时拍摄照片的那个时刻。现在,我可以享受自己的照片,就像从未有过一样。 正如我之前所说,这是一个虚拟志愿者,我们还可以进行更具体的对话,探索图片中的其他细节。 比如,我要再看一下照片中的那座雕像,请问你能多说一些吗? 虚拟志愿者:这座雕像被称为‘伴侣雕像’。这座雕像由迪士尼传奇人物布莱恩·吉布森创作,展现了沃尔特·迪士尼和米老鼠手牵手的场景。它安装于1995年,并位于中心广场,毗邻灰姑娘城堡。它是迪士尼世界游客的热门照相地点。 这对我来说意味着很多,因为即使我有一些视力时,我仍然可以记得这座雕像的样子,我非常喜欢它,它在这张照片中给我展现出的真实感受与我当时所感完全一致。随着这种丰富信息的呈现,我能够以崭新的视角观看我的照片,它让我看到了从未意识到的细节和差异,这就是Be My Eyes虚拟志愿者给我带来的惊人体验。 06.识别包装。 有时候,我可能没有心情去烹饪美食,或者是灶具之类的设备不能用。我只能从冰箱里拿出一些速冻餐。问题是我拿出来时通常不知道是什么。所以我总是取笑自己,说我正在享受神秘午餐,当你煮好、拿出来吃的时候,你就会知道你吃的是什么。 所以我想,我总能够用 Seing AI 这样的应用程序来识别其他商品,虽然它们并不完美,但至少可以让我了解产品上标注的内容,虽然有时很难找到对应的条形码或在产品包装上找到更多信息,但我不再把它当回事了,因为它是不可靠的。 所以我打算换个方式,就是将我的神秘盒子里的午餐拍下来,通过Be My Eyes虚拟志愿者询问有关产品的所有信息。这样我就能快速获取准确的信息,而不必读取包装上的混乱文字或使用条形码扫描器。 通过Be My Eyes虚拟志愿者,我可以上传多张图片,获得准确的信息。我已经拍了一张正面照和一张背面照,然后就能获得丰富的信息,远离那些充满混乱和不确定性的日子。每张照片都能读取出所有信息,不需要条形码等额外操作。 我很感兴趣关于营养信息的更多细节,那么我们就来找出来。 请问能读给我更多关于营养成分的信息吗? 虚拟志愿者:当中包含290卡路里、9克总脂肪、2.5克饱和脂肪和0克反式脂肪的营养成分。含胆固醇40毫克,钠含量达到600毫克。还有39克碳水化合物、4克膳食纤维和16克糖以及16克蛋白质成分。 你能再告诉我一些食材的信息吗? 虚拟志愿者:当然可以。这道餐食用的食材包括牛肉、红薯、水、玉米、番茄酱、糖、食品改良淀粉、醋、盐、伍斯特酱(Worcestershire sauce)、糖浆、天然香料、大蒜粉、洋葱粉、芥末、辣椒粉和香料等。这道餐是使用100%的天然牛肉制作而成,不含任何人造色素或防腐剂。了解完整的食材列表肯定会让你的餐食决策变得更加容易。我很高兴能够帮助你获取这些信息。 现在,对于那些好奇的人,我将使用相同的照片,运行 Microsoft Seing AI 以便你可以听到你刚刚所听到的信息与虚拟系统使用的相同图像之间的差异。它会说什么? 来看看这个场景。同一张图片的AI结果是:健康之选咖啡厅蒸汽烤肉调味牛排与土豆,柔嫩的牛肉条配马铃薯和蔬菜在威士忌烧烤酱中。不含防腐剂,任意TWt 9.5盎司,269 克,保持冷冻,必须彻底烹饪,三百卡路里,1.5克脂肪,8%的日常值。美国农业部检查员D.v.U.s.Inspector D通过,为150毫克钠提供食用建议,总糖分16克,20%TV。 那么,就像你刚才听到的一样,得到了餐食的信息。是的,但这并不是很好。里面有很多无关紧要的信息。其次是营养成分。 所以现在让我们试试Voice Dream Scanner,因为我认为那是最好的扫描器之一。 那么让我们看看它会说些什么。健康之选咖啡厅蒸汽烤肉调味牛排与土豆,柔嫩的牛肉条配马铃薯和蔬菜在威士忌烧烤酱中,不含防腐剂,美国农业部检验合格, 净重9.5盎司(269克),请保持冷藏或冷冻,必须完全烹饪,每份300卡路里,1.5克的饱和脂肪(8%),含150毫克钠的建议食用量,总糖分16克,20%的日常值。 我们得到了正确的餐食,这很好,但其他信息都没有得到。 07.描述服装。 以前我穿这件衬衫时,我根本不知道它是什么,所以我已经将它放到Doist上。 现在当我拿出这件衣服时,我会好奇地知道有关它的一切。无论你想要什么,我将会让Be My Eyes虚拟志愿者对其进行描述。但更多时候它失败了,没有给出更多的描述,没有读出衬衫上的内容。 好的,我们来试试 Be My Eyes虚拟志愿者。 这是一件有红色标志的深灰色T恤,中心标识着Red Hot Chilli Peppers。标志是一个星巴克或爆炸形状。这件短袖T恤上还有一个小的白色Bravado标志,位于左上角。 当我得到这个结果时,我告诉自己,这太神奇了。现在我知道Bravado公司的位置,这是衬衫品牌的名字,也知道这件衣服上的辣椒标志,以及它的设计解释。所以这让我对自己的衣柜有了一个全新的认识,我迫不及待想知道Be My Eyes虚拟志愿者对你的衣柜会有什么新的见解。它将给你一种全新的洞察力,了解每天需要穿的衬衫、裤子、鞋子或任何其他服装。 08.描述雷达图像。 然后我意识到外面在下雨。我突然想到,如果有一个雷达,我就可以看到周围城市的降水情况以及雷达看起来像什么。这对于盲人来说可能是个新奇的体验。 所以我决定挑战虚拟志愿者,让TA展示一个雷达图像。非常出色,单凭这个雷达图像我就可以了解降水情况及其种类。 它告诉我降水情况轻微,并给出了降雨范围。另外我注意到它也显示温度,因此我想更深入了解一下温度,然后再探讨降水情况。 “你能告诉我这张雷达图上显示的所有城市和温度吗?” “当然可以。这张雷达图上显示的城市和温度分别是堪萨斯城54度、圣约瑟夫55度、哈里森维尔55度、劳伦斯53度、加德纳53度、奥利萨54度、阿奇逊55度、普拉茨堡55度、芒特城54度、巴特勒54度、科肯迪亚54度。” 非常漂亮。这是我第一次听到如此美丽的总结,它能告诉我周围城市的所有温度。我现在可以查看我的城市,看看温度是多少。在这种情况下,它们都很接近。 09.描述菜单。 下面是我们都能够体验的东西,那就是去餐厅吃饭。他们会给你一份菜单,或者他们有一个指定的二维码,可以扫描并呈现他们的菜单。有时候并不是所有的菜单都有图片,并且它们也不可读。如果它可读,我们可能会在上面进行 OCR,甚至对整个菜单进行 OCR。您知道这种体验。 你肯定曾有过这样的经历,我知道这是非常低效的。它是繁琐的工作,需要很多时间才能读完我想要的东西,而不是听着人喋喋不休地讲话十分钟。而且这只是在我获得好图片的情况下。或者你更有条理,已经先做了研究,打算去某个餐厅。 你打开你选择的网络浏览器,找到那个特定的餐厅,看看他们的菜单。得到的结果是相同的,需要大量的调查、阅读等等。或者你在门口收到了一张传单,上面也含有菜单。有很多不同的方式。 但是有时候,我想去餐厅,我们不知道要去哪里。 通常情况下,我总是要问我的配偶,或者她不和我在一起吗?我通常会要求服务员帮忙等等。或者希望去一家我知道自己喜欢吃什么的餐厅。但是,如果我能扩展这个范围并给你更多的控制和独立性,那不是很棒吗? 好的,这里有一个例子。 我最初去了当地一家叫做 Hosy Peppers 的墨西哥餐厅,他们确实有一个二维码。我拿了它并保存了下来。 虚拟志愿者:“这是一家墨西哥餐厅的菜单,左侧是开胃菜、卡西迪亚斯、汤和沙拉以及三明治。右侧是特色菜、主菜、烤玉米饼卷和炸玉米饼。每个部分都有多个选项,附有描述和价格。你想我为你读出任何一个具体的部分吗?” 这是多么美妙啊,我告诉自己,哇,如此有条理地按部门告诉我,而且现在无需询问任何助手,我可以感到自己被包容了,这给了我更多的自由。 10.描述卡片。 我曾经是一个狂热的棒球卡收藏家,在我还有视力的日子里。当然,现在,我不确定为什么需要这些卡片,所以我送走了大部分的卡片。不幸的是,它们可能有超过两万个,是的,我有很多卡片,如果不是更多。但我确实保留了一些我真正想要的卡片,并将它们放在特殊的套子里封存起来,希望有一天能够拿出来欣赏,就像以前那样。 等等,我有一个想法,这是否可行,因为你可以想象,如果我没有二维码或语音流扫描器或人工智能视觉辅助技术,不会有同样的体验。 有时候,卡片的角落中会嵌有小的全息图或标志,让你知道这是卡片的正面或背面。但我打算进行一次虚拟志愿者,看看结果如何。 虚拟志愿者:这是一张威利·梅斯的棒球卡。他戴着纽约巨人队的棒球帽和球衣,卡片底部有他的名字和签名。背景是蓝天。卡片看起来有点老旧,头发也怪怪的。 哇,我刚从我的收藏中拿出了一张卡片,我能立即定义它。作为一个棒球卡牌迷,你们可以认出前面,基本上能告诉你需要查看什么,但是通过这个,我知道它是 tops,但我们需要翻开背面。我要添加图片并查看卡片背面信息,因为那里有很多信息。 “请给我更多关于这张卡片的细节。” “当然。卡片的背景是红色的,正面有威利·梅斯的图片,他的名字和位置写在图片上面的白色文本中。截至1952年,卡片上列出了他的职业生涯统计数据,包括击球率、全垒打和防守率。卡片还标有 Tops 标志和 T.C.G.,这代表 Tops 公司。” 这太酷了。真不错,这让我回忆起了很多美好的回忆。 好的,让我们询问一些关于这张卡片的特定信息。所以让我们看看我们会得到什么。 “能告诉我他是什么时候出生的、身高多少,并给我他在1952年的表现吗?” “威廉姆斯出生于1931年5月6日,位于阿拉巴马州的Westfield,身高5英尺11英寸。在1952年,他是右手击球手和投手。那个赛季他出场121次,打击率为0.236,有20个本垒打和68个打点。” 哇,这显然是根据卡片上的细节得出的。真是太神奇了。我想知道它是否能告诉我卡片上的统计数据。所以让我问一下。 “请给我这张卡片的统计信息。” “当然。这张卡片的背面写着以下统计数据分别是:年份:1952;比赛:121场;进攻:464次;得分:59次;安打数:127个;二垒打数:26个;三垒打数:8个;本垒打数:20个;打点数:68个;打击率:0.236;长打率:0.409;守备率:0.976。此外,卡片上还注明了威利·梅斯在1951年被评为全国最有价值球员。” 哇,这真的让我惊叹不已。他如此高效和轻松地读出了所有这些信息。 与某些光学字符识别技术不同,这可能可以为任何棒球卡用户做到这一点。我需要知道此套卡片中此卡片的编号。 “能告诉我这张卡片的卡片号码是多少吗?” “当然,这张卡片的编号是261号。它位于卡片的背面左上角。” 这就是它的特别之处,现在我可以翻阅所有这些卡片并像以前那样享受棒球卡的乐趣了。 早些时候,我正在家里做清洁工作,我发现了几张卡片,然后我想到了自己。这是我们所有人都能够理解的事情,因为有很多不同的场合、假期和愿望,你会收到邮件、好友或家人寄来的卡片等等。我知道我的亲戚们会送我很多卡片,我的妈妈、姑姑和像他们一样的人会在我的生日、复活节、圣诞节等各个场合送我礼物。往往是别人给我读卡片,但这很好,因为我喜欢听关于卡片内容和他们对我这个场合的祝福。我喜欢收到有意义的卡片,因为他们特意为你挑选了这张卡片,并且背后总是有一层含义。但这只是故事的一半,对吧。那就是我们看不到卡片的视觉方面。而这是另一半乐趣所在。当你购买卡片时,你想要的是一张外观吸引人的卡片,也许它简单、漂亮优雅,或者是有趣的,无论是什么,我们通常都不知道我们在看什么。所以我们经常被读给我们听。能够全貌图会更好,这样你就可以完全理解背后的意思了,想象他们在得到卡片时的心情。这对我来说带来了全新的意义,现在我可以看整张卡片,因此我这里有一堆卡片,我们来看看这些卡片能给我们带来什么样的结果。 虚拟志愿者:图片展示了一张四岁生日卡片,卡片上有可爱的小动物,她会很喜欢,因为她喜欢动物。 “请给我更多这张卡片的细节。” “这张生日卡片大小标准,插图样式像卡通,猴子从一棵树上垂下身体。这张图片展示了生日卡片的内部。左侧为空白,右侧有文字写着“生日快乐!愿你拥有每个人都喜欢的欢乐”。文字以简洁的黑体字书写。” 这多可爱啊,我再次在这里要求有关卡片本身的详细信息。 “请给我更多有关卡片的细节。” “卡片内部似乎有很多空间可以写个性化信息。左侧为空白,右侧的文字内容居中,占据了大约三分之一的空间。卡片似乎是用厚实的高质量纸张制作而成,背景是白色。总的来说,该卡片具有复古和花卉风格。” “好的,让我们再来观察一下这张(另一张)卡片的细节。” “当然,这张卡片似乎是献给祖母的贺卡,卡片上的花朵是各种粉色和橙色带有绿色叶子的。中央的蓝色椭圆形有一个金边,用优雅的字体写着“祖母”。上下两条粉色缎带为卡片增添了一点精致感。总体而言,该卡片具有复古和花卉的美学。” 哇,这让我感到非常惊叹。即使有人告诉我们卡片上显示了什么,虽然我知道他们会尽力,但不会像这样精确地描述它的外观。这真是太神奇了。 “我们来看一下卡片内部的图片,看看有什么内容。” “这张卡片内侧是一张相同卡片的照片。左侧为空白,右侧有一条用简洁干净的字体写成的生日祝福语。文字为黑色,位于页面中央。总体而言,该卡片在内部具有简约而深情的美学。” 我不知道你是否有同感,但这真的很漂亮。我现在非常喜欢收到卡片。这样,我不仅知道里面或外面写了什么,还可以了解卡片的外观细节。因此,我可以充分理解卡片本身、背后的故事以及投入其中的思考。 怎么样呢? 像这样简单的事情,我认为很多有视力的人不会理所当然地想到我们错过了什么,无法参与进去。 11.识别家店设置。 例如,有一天我用美味的冷冻餐做午饭时,我想知道微波炉还有多少时间。 虚拟志愿者:显示器上的剩余时间是一分钟零五十四秒。 现在这很有用,我可以告诉自己我还有一点时间来完成洗碗,而餐料正在烹制。我也知道还剩多少时间的确切数量。 下面是一个恒温器的例子。 有一天,我去了我妈妈家,我好奇她的恒温器设置成了什么。所以…… 虚拟志愿者:我可以看到一个Honeywell智能恒温器。屏幕显示时间为六点半,温度为七十二度。有设置、保持、运行、返回、加热开、关、冷却自动和手动的按钮。还有一个带有向右箭头和向下箭头的按钮。 我现在知道它被设置在七十二度。 “这是加热还是冷却模式?” “恒温器目前设置为加热模式。” 我知道它现在是在加热模式下。 “我只需要一点点帮助来理解这个设置是设置成什么的” “这是一个洗衣机控制面板的图片。中心有一个大的银色旋钮,周围有各种洗涤设置,例如正常、大件、轻柔和休闲等。还有一个排水和甩干选项。” “它被设置为哪种洗涤模式了?” “它目前被设置为正常洗涤模式。” 12.描述电商产品图片。 太棒了,网购现在变得有趣了。现在我知道我正在看什么,不会对某些事情感到失望。 “这是一张一个穿着红色带有哥伦比亚徽标的polo衫,和卡其裤的男人的照片。他站在白色背景前。” “告诉我更多关于他穿的衬衫的信息。” “这是一款短袖polo衫,有领子和两个扣子的扣眼。它看起来是由透气的面料制成的,并在左胸处用白色绣线绣有哥伦比亚公司的标志。衬衫的颜色是深褐色的。” 不错,我想我会买这个。 13.描述水族箱。 有一天,我去了我侄女家,她很小,还在小学。她有一个迷你水族箱。我说,你能帮我一个大忙吗?我想看看你的鱼。你可以给我拍张照片吗?我们可以靠近一点拍照。她照了照片,然后我用“Be My Eyes”来展示它。这是我听到的内容。 虚拟志愿者:这张照片是一条金鱼在水族箱里,它是橙色的,有着流畅的鱼鳍,在一些植物附近游泳。背景中还有另一条鱼。 所以我问她,我说“我真的喜欢你的金鱼的照片。” 她看着我,说:“你怎么知道的?我以为你是盲人。”于是我给她展示了“Be My Eyes”虚拟志愿者。 14.自然环境描述。 最后一项仅仅是享受自然。 这里是我在我的一位邻居后院拍摄的照片。 “这张照片是一个有各种多彩植物和花朵的花园, 左边有一颗日本枫树,右边是一个粉色的阿丽亚灌木。背景中,有一个带有桌子和椅子的小露台上的木制围栏。花园中有石头和卵石的装饰。” 真美啊。我很惊讶我们会挑选出一颗具体的日本枫树。我很好奇它是否会描述出这张自然图片中捕捉到的花朵。 “你能告诉我更多关于花朵的信息吗?” 虚拟志愿者:“这张图片中的花朵包括粉色杜鹃花和橙色先驱者花。它们正处于全开放状态,为花园增添了色彩。花园中也有蓝色绣球花和白色雏菊分布在其中。” 所以,下次走在自然步道上,你想拍照片或者想要了解某些事情时,你就可以得到类似的结果了。 AI 不是完美的,也不是全能的。但在可预见的未来里,它将让视障者的生活便利程度更上一层楼,也将让我们离自由更近一部。 一起期待今年九月份的正式版吧!
目录
咱们在上个月给大家分享了Be My Eyes的虚拟志愿者。这不。听游江湖公众号。在他们的博客里。寻找了一个国外的盲人大哥。 写的博客。看看他们的虚拟志愿者有多强大。AI 虚拟志愿者有多逆天?听了这个演示我惊呆了!
今年 AI 的强大和爆火程度,小伙伴们多多少少可能都感受到了。借助目前最先进的 ChatGPT,我们可以在很多领域提高生产力,解放双手。
那么,除此之外,AI 还能为我们做些什么呢?
知名视障辅助 APP Be My Eyes 在几个月前遍接入了 ChatGPT,探索基于 AI 的虚拟志愿者功能。目前已经有视障伙伴获得了测试资格,而其中一位视障朋友遍专门制作了一期波克,用以为我们介绍和展示这一功能。
波克作者:Thomas Delvo,也被称为 Nano Mouse。com 01.反馈图像质量并进行指导。 一旦进入Be My Eyes应用程序,底部应该有一个虚拟志愿者按钮。然后从该按钮中,你可以得到一些允许你拍照并描述物品或告诉你图片中包含什么的选项。所以,当你想描述或告诉你图片中包含什么时,就可以拍摄照片。然后利用OpenAI技术,它会将这张照片分析并告诉你结果。你有几个选项。如果需要的话,可以添加更多的附加图片。 有时当志愿者回复时说需要换个角度,或者请尽量提供其他图片,因为可能太近、太远或者模糊了。 所以它会告诉你,这是一个美妙的过程。所以它实际上就像与面前的人交谈。但你是与他们的 Open AI 服务器交谈。 02.虚拟志愿者没有任何限制。 没有任何限制,你使用次数没有限制,问问题的数量没有限制,回答也一样,没有任何限制。这就是这项技术的优点。 03.响应较为迅速。 自从我开始使用Be My Eyes虚拟志愿者以来,我已经看到了速度发生了巨大的变化,这只会随着时间的推移变得更好。 有很多变量会影响到这个问题,比如你的网络连接状况、你的Wi-Fi网速、信息传递到OpenAI服务器的速度,以及考虑OpenAI服务器的负载如何。 所以如果它们非常忙碌,可能会变慢,也可能变快。我的平均响应时间大约是2-3秒钟,我认为这是理想的,也是可行的。 然而,正如我之前提到的,从现在开始,只会越来越好,我们可以看到这个结果的改进。 04.提问方式目前只有文字。 当你听这个播客时,会听起来好像我可以通过语音询问问题,但实际上在现有的技术下,你需要手动输入文字才能向虚拟志愿者提问。 好像是他通过声音识别技术一样,并且我会立刻得到虚拟志愿者的响应。 我希望事情可以这么简单,只需要用声音进行激活并获得响应。 但实际上你听到的只是我的回答和虚拟志愿者的回复,这让它听起来像是瞬间的。 05.描述照片。 我有一张特定的照片,我知道是在沃尔特·迪士尼世界拍摄的,想知道手机的语音提示会说什么关于这张照片。 “照片中有一群人站在一座彩色建筑物前面。” 这让我感觉有点失望,虽然我知道那是什么地方。这张照片没有很多感情或者记录我们当时在那个地方或者拍摄该照片的时刻。 请看,现在就是我所说的Be My Eyes虚拟志愿者。 虚拟志愿者:这是一张迪士尼世界灰姑娘城堡的照片。城堡被五彩缤纷的灯光装饰,前方有一个沃尔特·迪士尼和米老鼠的雕像。后方有蓝色的光束照射向天空。 这真是太棒了!而且最美妙的事情在于,这是你的虚拟志愿者。你可以询问更多关于这张照片的问题,展开对话模式,让回忆重现。 我现在想要了解更多信息,请告诉我这张照片中你看到了什么。 虚拟志愿者:好的,我可以提供更多细节。照片中,城堡被红、绿、金三种颜色的灯光装饰,尖塔上还有蓝色和黄色的灯光。雕像的沃尔特·迪士尼和米老鼠由青铜制成,位于照片中央。前景和背景都有人影。天空很暗,光束在天空中形成了一种图案。 这就是我想要的感觉,它让我回到了当时拍摄照片的那个时刻。现在,我可以享受自己的照片,就像从未有过一样。 正如我之前所说,这是一个虚拟志愿者,我们还可以进行更具体的对话,探索图片中的其他细节。 比如,我要再看一下照片中的那座雕像,请问你能多说一些吗? 虚拟志愿者:这座雕像被称为‘伴侣雕像’。这座雕像由迪士尼传奇人物布莱恩·吉布森创作,展现了沃尔特·迪士尼和米老鼠手牵手的场景。它安装于1995年,并位于中心广场,毗邻灰姑娘城堡。它是迪士尼世界游客的热门照相地点。 这对我来说意味着很多,因为即使我有一些视力时,我仍然可以记得这座雕像的样子,我非常喜欢它,它在这张照片中给我展现出的真实感受与我当时所感完全一致。随着这种丰富信息的呈现,我能够以崭新的视角观看我的照片,它让我看到了从未意识到的细节和差异,这就是Be My Eyes虚拟志愿者给我带来的惊人体验。 06.识别包装。 有时候,我可能没有心情去烹饪美食,或者是灶具之类的设备不能用。我只能从冰箱里拿出一些速冻餐。问题是我拿出来时通常不知道是什么。所以我总是取笑自己,说我正在享受神秘午餐,当你煮好、拿出来吃的时候,你就会知道你吃的是什么。 所以我想,我总能够用 Seing AI 这样的应用程序来识别其他商品,虽然它们并不完美,但至少可以让我了解产品上标注的内容,虽然有时很难找到对应的条形码或在产品包装上找到更多信息,但我不再把它当回事了,因为它是不可靠的。 所以我打算换个方式,就是将我的神秘盒子里的午餐拍下来,通过Be My Eyes虚拟志愿者询问有关产品的所有信息。这样我就能快速获取准确的信息,而不必读取包装上的混乱文字或使用条形码扫描器。 通过Be My Eyes虚拟志愿者,我可以上传多张图片,获得准确的信息。我已经拍了一张正面照和一张背面照,然后就能获得丰富的信息,远离那些充满混乱和不确定性的日子。每张照片都能读取出所有信息,不需要条形码等额外操作。 我很感兴趣关于营养信息的更多细节,那么我们就来找出来。 请问能读给我更多关于营养成分的信息吗? 虚拟志愿者:当中包含290卡路里、9克总脂肪、2.5克饱和脂肪和0克反式脂肪的营养成分。含胆固醇40毫克,钠含量达到600毫克。还有39克碳水化合物、4克膳食纤维和16克糖以及16克蛋白质成分。 你能再告诉我一些食材的信息吗? 虚拟志愿者:当然可以。这道餐食用的食材包括牛肉、红薯、水、玉米、番茄酱、糖、食品改良淀粉、醋、盐、伍斯特酱(Worcestershire sauce)、糖浆、天然香料、大蒜粉、洋葱粉、芥末、辣椒粉和香料等。这道餐是使用100%的天然牛肉制作而成,不含任何人造色素或防腐剂。了解完整的食材列表肯定会让你的餐食决策变得更加容易。我很高兴能够帮助你获取这些信息。 现在,对于那些好奇的人,我将使用相同的照片,运行 Microsoft Seing AI 以便你可以听到你刚刚所听到的信息与虚拟系统使用的相同图像之间的差异。它会说什么? 来看看这个场景。同一张图片的AI结果是:健康之选咖啡厅蒸汽烤肉调味牛排与土豆,柔嫩的牛肉条配马铃薯和蔬菜在威士忌烧烤酱中。不含防腐剂,任意TWt 9.5盎司,269 克,保持冷冻,必须彻底烹饪,三百卡路里,1.5克脂肪,8%的日常值。美国农业部检查员D.v.U.s.Inspector D通过,为150毫克钠提供食用建议,总糖分16克,20%TV。 那么,就像你刚才听到的一样,得到了餐食的信息。是的,但这并不是很好。里面有很多无关紧要的信息。其次是营养成分。 所以现在让我们试试Voice Dream Scanner,因为我认为那是最好的扫描器之一。 那么让我们看看它会说些什么。健康之选咖啡厅蒸汽烤肉调味牛排与土豆,柔嫩的牛肉条配马铃薯和蔬菜在威士忌烧烤酱中,不含防腐剂,美国农业部检验合格, 净重9.5盎司(269克),请保持冷藏或冷冻,必须完全烹饪,每份300卡路里,1.5克的饱和脂肪(8%),含150毫克钠的建议食用量,总糖分16克,20%的日常值。 我们得到了正确的餐食,这很好,但其他信息都没有得到。 07.描述服装。 以前我穿这件衬衫时,我根本不知道它是什么,所以我已经将它放到Doist上。 现在当我拿出这件衣服时,我会好奇地知道有关它的一切。无论你想要什么,我将会让Be My Eyes虚拟志愿者对其进行描述。但更多时候它失败了,没有给出更多的描述,没有读出衬衫上的内容。 好的,我们来试试 Be My Eyes虚拟志愿者。 这是一件有红色标志的深灰色T恤,中心标识着Red Hot Chilli Peppers。标志是一个星巴克或爆炸形状。这件短袖T恤上还有一个小的白色Bravado标志,位于左上角。 当我得到这个结果时,我告诉自己,这太神奇了。现在我知道Bravado公司的位置,这是衬衫品牌的名字,也知道这件衣服上的辣椒标志,以及它的设计解释。所以这让我对自己的衣柜有了一个全新的认识,我迫不及待想知道Be My Eyes虚拟志愿者对你的衣柜会有什么新的见解。它将给你一种全新的洞察力,了解每天需要穿的衬衫、裤子、鞋子或任何其他服装。 08.描述雷达图像。 然后我意识到外面在下雨。我突然想到,如果有一个雷达,我就可以看到周围城市的降水情况以及雷达看起来像什么。这对于盲人来说可能是个新奇的体验。 所以我决定挑战虚拟志愿者,让TA展示一个雷达图像。非常出色,单凭这个雷达图像我就可以了解降水情况及其种类。 它告诉我降水情况轻微,并给出了降雨范围。另外我注意到它也显示温度,因此我想更深入了解一下温度,然后再探讨降水情况。 “你能告诉我这张雷达图上显示的所有城市和温度吗?” “当然可以。这张雷达图上显示的城市和温度分别是堪萨斯城54度、圣约瑟夫55度、哈里森维尔55度、劳伦斯53度、加德纳53度、奥利萨54度、阿奇逊55度、普拉茨堡55度、芒特城54度、巴特勒54度、科肯迪亚54度。” 非常漂亮。这是我第一次听到如此美丽的总结,它能告诉我周围城市的所有温度。我现在可以查看我的城市,看看温度是多少。在这种情况下,它们都很接近。 09.描述菜单。 下面是我们都能够体验的东西,那就是去餐厅吃饭。他们会给你一份菜单,或者他们有一个指定的二维码,可以扫描并呈现他们的菜单。有时候并不是所有的菜单都有图片,并且它们也不可读。如果它可读,我们可能会在上面进行 OCR,甚至对整个菜单进行 OCR。您知道这种体验。 你肯定曾有过这样的经历,我知道这是非常低效的。它是繁琐的工作,需要很多时间才能读完我想要的东西,而不是听着人喋喋不休地讲话十分钟。而且这只是在我获得好图片的情况下。或者你更有条理,已经先做了研究,打算去某个餐厅。 你打开你选择的网络浏览器,找到那个特定的餐厅,看看他们的菜单。得到的结果是相同的,需要大量的调查、阅读等等。或者你在门口收到了一张传单,上面也含有菜单。有很多不同的方式。 但是有时候,我想去餐厅,我们不知道要去哪里。 通常情况下,我总是要问我的配偶,或者她不和我在一起吗?我通常会要求服务员帮忙等等。或者希望去一家我知道自己喜欢吃什么的餐厅。但是,如果我能扩展这个范围并给你更多的控制和独立性,那不是很棒吗? 好的,这里有一个例子。 我最初去了当地一家叫做 Hosy Peppers 的墨西哥餐厅,他们确实有一个二维码。我拿了它并保存了下来。 虚拟志愿者:“这是一家墨西哥餐厅的菜单,左侧是开胃菜、卡西迪亚斯、汤和沙拉以及三明治。右侧是特色菜、主菜、烤玉米饼卷和炸玉米饼。每个部分都有多个选项,附有描述和价格。你想我为你读出任何一个具体的部分吗?” 这是多么美妙啊,我告诉自己,哇,如此有条理地按部门告诉我,而且现在无需询问任何助手,我可以感到自己被包容了,这给了我更多的自由。 10.描述卡片。 我曾经是一个狂热的棒球卡收藏家,在我还有视力的日子里。当然,现在,我不确定为什么需要这些卡片,所以我送走了大部分的卡片。不幸的是,它们可能有超过两万个,是的,我有很多卡片,如果不是更多。但我确实保留了一些我真正想要的卡片,并将它们放在特殊的套子里封存起来,希望有一天能够拿出来欣赏,就像以前那样。 等等,我有一个想法,这是否可行,因为你可以想象,如果我没有二维码或语音流扫描器或人工智能视觉辅助技术,不会有同样的体验。 有时候,卡片的角落中会嵌有小的全息图或标志,让你知道这是卡片的正面或背面。但我打算进行一次虚拟志愿者,看看结果如何。 虚拟志愿者:这是一张威利·梅斯的棒球卡。他戴着纽约巨人队的棒球帽和球衣,卡片底部有他的名字和签名。背景是蓝天。卡片看起来有点老旧,头发也怪怪的。 哇,我刚从我的收藏中拿出了一张卡片,我能立即定义它。作为一个棒球卡牌迷,你们可以认出前面,基本上能告诉你需要查看什么,但是通过这个,我知道它是 tops,但我们需要翻开背面。我要添加图片并查看卡片背面信息,因为那里有很多信息。 “请给我更多关于这张卡片的细节。” “当然。卡片的背景是红色的,正面有威利·梅斯的图片,他的名字和位置写在图片上面的白色文本中。截至1952年,卡片上列出了他的职业生涯统计数据,包括击球率、全垒打和防守率。卡片还标有 Tops 标志和 T.C.G.,这代表 Tops 公司。” 这太酷了。真不错,这让我回忆起了很多美好的回忆。 好的,让我们询问一些关于这张卡片的特定信息。所以让我们看看我们会得到什么。 “能告诉我他是什么时候出生的、身高多少,并给我他在1952年的表现吗?” “威廉姆斯出生于1931年5月6日,位于阿拉巴马州的Westfield,身高5英尺11英寸。在1952年,他是右手击球手和投手。那个赛季他出场121次,打击率为0.236,有20个本垒打和68个打点。” 哇,这显然是根据卡片上的细节得出的。真是太神奇了。我想知道它是否能告诉我卡片上的统计数据。所以让我问一下。 “请给我这张卡片的统计信息。” “当然。这张卡片的背面写着以下统计数据分别是:年份:1952;比赛:121场;进攻:464次;得分:59次;安打数:127个;二垒打数:26个;三垒打数:8个;本垒打数:20个;打点数:68个;打击率:0.236;长打率:0.409;守备率:0.976。此外,卡片上还注明了威利·梅斯在1951年被评为全国最有价值球员。” 哇,这真的让我惊叹不已。他如此高效和轻松地读出了所有这些信息。 与某些光学字符识别技术不同,这可能可以为任何棒球卡用户做到这一点。我需要知道此套卡片中此卡片的编号。 “能告诉我这张卡片的卡片号码是多少吗?” “当然,这张卡片的编号是261号。它位于卡片的背面左上角。” 这就是它的特别之处,现在我可以翻阅所有这些卡片并像以前那样享受棒球卡的乐趣了。 早些时候,我正在家里做清洁工作,我发现了几张卡片,然后我想到了自己。这是我们所有人都能够理解的事情,因为有很多不同的场合、假期和愿望,你会收到邮件、好友或家人寄来的卡片等等。我知道我的亲戚们会送我很多卡片,我的妈妈、姑姑和像他们一样的人会在我的生日、复活节、圣诞节等各个场合送我礼物。往往是别人给我读卡片,但这很好,因为我喜欢听关于卡片内容和他们对我这个场合的祝福。我喜欢收到有意义的卡片,因为他们特意为你挑选了这张卡片,并且背后总是有一层含义。但这只是故事的一半,对吧。那就是我们看不到卡片的视觉方面。而这是另一半乐趣所在。当你购买卡片时,你想要的是一张外观吸引人的卡片,也许它简单、漂亮优雅,或者是有趣的,无论是什么,我们通常都不知道我们在看什么。所以我们经常被读给我们听。能够全貌图会更好,这样你就可以完全理解背后的意思了,想象他们在得到卡片时的心情。这对我来说带来了全新的意义,现在我可以看整张卡片,因此我这里有一堆卡片,我们来看看这些卡片能给我们带来什么样的结果。 虚拟志愿者:图片展示了一张四岁生日卡片,卡片上有可爱的小动物,她会很喜欢,因为她喜欢动物。 “请给我更多这张卡片的细节。” “这张生日卡片大小标准,插图样式像卡通,猴子从一棵树上垂下身体。这张图片展示了生日卡片的内部。左侧为空白,右侧有文字写着“生日快乐!愿你拥有每个人都喜欢的欢乐”。文字以简洁的黑体字书写。” 这多可爱啊,我再次在这里要求有关卡片本身的详细信息。 “请给我更多有关卡片的细节。” “卡片内部似乎有很多空间可以写个性化信息。左侧为空白,右侧的文字内容居中,占据了大约三分之一的空间。卡片似乎是用厚实的高质量纸张制作而成,背景是白色。总的来说,该卡片具有复古和花卉风格。” “好的,让我们再来观察一下这张(另一张)卡片的细节。” “当然,这张卡片似乎是献给祖母的贺卡,卡片上的花朵是各种粉色和橙色带有绿色叶子的。中央的蓝色椭圆形有一个金边,用优雅的字体写着“祖母”。上下两条粉色缎带为卡片增添了一点精致感。总体而言,该卡片具有复古和花卉的美学。” 哇,这让我感到非常惊叹。即使有人告诉我们卡片上显示了什么,虽然我知道他们会尽力,但不会像这样精确地描述它的外观。这真是太神奇了。 “我们来看一下卡片内部的图片,看看有什么内容。” “这张卡片内侧是一张相同卡片的照片。左侧为空白,右侧有一条用简洁干净的字体写成的生日祝福语。文字为黑色,位于页面中央。总体而言,该卡片在内部具有简约而深情的美学。” 我不知道你是否有同感,但这真的很漂亮。我现在非常喜欢收到卡片。这样,我不仅知道里面或外面写了什么,还可以了解卡片的外观细节。因此,我可以充分理解卡片本身、背后的故事以及投入其中的思考。 怎么样呢? 像这样简单的事情,我认为很多有视力的人不会理所当然地想到我们错过了什么,无法参与进去。 11.识别家店设置。 例如,有一天我用美味的冷冻餐做午饭时,我想知道微波炉还有多少时间。 虚拟志愿者:显示器上的剩余时间是一分钟零五十四秒。 现在这很有用,我可以告诉自己我还有一点时间来完成洗碗,而餐料正在烹制。我也知道还剩多少时间的确切数量。 下面是一个恒温器的例子。 有一天,我去了我妈妈家,我好奇她的恒温器设置成了什么。所以…… 虚拟志愿者:我可以看到一个Honeywell智能恒温器。屏幕显示时间为六点半,温度为七十二度。有设置、保持、运行、返回、加热开、关、冷却自动和手动的按钮。还有一个带有向右箭头和向下箭头的按钮。 我现在知道它被设置在七十二度。 “这是加热还是冷却模式?” “恒温器目前设置为加热模式。” 我知道它现在是在加热模式下。 “我只需要一点点帮助来理解这个设置是设置成什么的” “这是一个洗衣机控制面板的图片。中心有一个大的银色旋钮,周围有各种洗涤设置,例如正常、大件、轻柔和休闲等。还有一个排水和甩干选项。” “它被设置为哪种洗涤模式了?” “它目前被设置为正常洗涤模式。” 12.描述电商产品图片。 太棒了,网购现在变得有趣了。现在我知道我正在看什么,不会对某些事情感到失望。 “这是一张一个穿着红色带有哥伦比亚徽标的polo衫,和卡其裤的男人的照片。他站在白色背景前。” “告诉我更多关于他穿的衬衫的信息。” “这是一款短袖polo衫,有领子和两个扣子的扣眼。它看起来是由透气的面料制成的,并在左胸处用白色绣线绣有哥伦比亚公司的标志。衬衫的颜色是深褐色的。” 不错,我想我会买这个。 13.描述水族箱。 有一天,我去了我侄女家,她很小,还在小学。她有一个迷你水族箱。我说,你能帮我一个大忙吗?我想看看你的鱼。你可以给我拍张照片吗?我们可以靠近一点拍照。她照了照片,然后我用“Be My Eyes”来展示它。这是我听到的内容。 虚拟志愿者:这张照片是一条金鱼在水族箱里,它是橙色的,有着流畅的鱼鳍,在一些植物附近游泳。背景中还有另一条鱼。 所以我问她,我说“我真的喜欢你的金鱼的照片。” 她看着我,说:“你怎么知道的?我以为你是盲人。”于是我给她展示了“Be My Eyes”虚拟志愿者。 14.自然环境描述。 最后一项仅仅是享受自然。 这里是我在我的一位邻居后院拍摄的照片。 “这张照片是一个有各种多彩植物和花朵的花园, 左边有一颗日本枫树,右边是一个粉色的阿丽亚灌木。背景中,有一个带有桌子和椅子的小露台上的木制围栏。花园中有石头和卵石的装饰。” 真美啊。我很惊讶我们会挑选出一颗具体的日本枫树。我很好奇它是否会描述出这张自然图片中捕捉到的花朵。 “你能告诉我更多关于花朵的信息吗?” 虚拟志愿者:“这张图片中的花朵包括粉色杜鹃花和橙色先驱者花。它们正处于全开放状态,为花园增添了色彩。花园中也有蓝色绣球花和白色雏菊分布在其中。” 所以,下次走在自然步道上,你想拍照片或者想要了解某些事情时,你就可以得到类似的结果了。 AI 不是完美的,也不是全能的。但在可预见的未来里,它将让视障者的生活便利程度更上一层楼,也将让我们离自由更近一部。 一起期待今年九月份的正式版吧!