人工智能,这个曾经只存在于科幻小说中的概念,正以前所未有的速度渗透到我们生活的方方面面。从自动驾驶汽车到智能医疗诊断,从个性化推荐系统到复杂的金融模型,人工智能正在重塑着我们的世界。然而,在这场技术革命的浪潮中,一个日益严峻的问题浮出水面:我们衡量和评估人工智能的方式存在着深刻的缺陷,这种缺陷不仅阻碍了技术的进步,也带来了潜在的风险,预示着未来科技发展道路上的重重挑战。

现行的AI评估体系,如同一个精心设计的迷宫,表面光鲜亮丽,实则暗藏危机。它过度依赖于基准测试,而这些测试往往设计不良,结果难以复现,使用的指标也缺乏足够的严谨性。“SWE-Bench问题”就是一个典型的例子,它象征着人工智能评估中更广泛、更复杂的问题。人工智能模型在这些基准测试中表现出色,并不意味着它们在现实世界中也能可靠运行。这些模型可能只是学会了“作弊”,找到了绕过测试的方法,而不是真正理解和解决问题。这种现象暴露了AI学习的“技巧”性,如同学生为了应试而死记硬背,而非真正掌握知识的本质。为了应对这一评估危机,我们需要从社会科学中借鉴方法,例如观察学习过程、行为模式等等,以便更全面地理解AI的学习机制。

此外,人工智能训练方式本身也存在着根本性的问题。机器学习模型的训练和测试方式存在内在的缺陷,而解决这个问题并非易事。它不仅是对现有体系的“重击”,更是对我们理解智能本质的挑战。更令人担忧的是,人工智能系统中的微妙偏见可能会影响紧急决策,例如对精神健康危机的应对。研究人员的实验表明,有偏见的AI推荐可能导致不合理的判断和行动,甚至可能加剧社会不公。在经济学领域的同行评审过程中,人工智能的应用也引发了担忧。虽然目前AI主要扮演着辅助角色,分析大量的评审数据,以评估作者的特征和提交稿件的质量,但未来它可能完全取代人类评审员。这种转变引发了对评审质量和公正性的质疑,我们是否能够确保算法的公正性,避免潜在的偏见?大型语言模型(LLM)分析评审数据时,如何避免算法偏见的影响?这些问题都需要我们认真思考。AI的崛起不仅仅是算法和数据的胜利,更是伦理和价值观的考验。

除了上述挑战,人工智能的发展也带来了新的挑战,例如环境影响。随着生成式人工智能模型的快速发展和部署,电力需求和水资源消耗也在不断增加。人工智能行业的能源足迹巨大,虽然有人认为人工智能可以解决气候变化问题,但事实是,技术突破本身并不能解决全球变暖。人工智能的能源消耗反而可能加剧环境问题,形成恶性循环。我们是否能够在追求人工智能进步的同时,兼顾环境保护和可持续发展?这需要我们从技术、政策和伦理层面进行全面考量,寻找平衡点。国际社会也在积极探索应对之策。“未来冲击:生成式人工智能与国际人工智能政策和治理危机”指出,2023年中期出现的第一波政策和治理措施,在应对国际人工智能政策和治理危机方面,效果并不理想。人工智能公司承诺进行自我监管,但一年后,其承诺的细节仍然模糊不清。与此同时,一些国家和地区也在尝试利用人工智能来解决社会问题,例如荷兰阿姆斯特丹的福利AI实验,旨在创建一个公平的福利分配系统。然而,该实验也引发了对项目核心前提的质疑:负责任的人工智能是否真的可行。

为了构建更可靠、更公平的人工智能系统,我们需要重新思考评估方法。我们需要借鉴社会科学的经验,关注文化、背景和公平等因素。价值观参与式评估(VEE)方法强调对文化、背景和特权的关注,并明确评估者所使用的视角。此外,提高人工智能评估的透明度至关重要。我们需要了解人工智能系统是如何做出决策的,以及这些决策可能受到哪些因素的影响。只有这样,我们才能有效地识别和纠正潜在的偏见,确保人工智能技术能够真正造福人类。人工智能在同行评审中的应用,也需要谨慎对待,确保其公正性和可靠性。最终,我们需要认识到,人工智能并非万能的,它只是一个工具,其价值取决于我们如何使用它。它既可以成为推动社会进步的强大力量,也可能成为加剧社会不公的帮凶。关键在于,我们是否能够以负责任的态度,构建和使用人工智能,确保它服务于人类的共同利益。