
我們評估人工智能的方法存在一種吊詭的錯位:我們創(chuàng)造出模仿和強化人類能力的系統(tǒng),然而衡量其成功的標準卻包羅萬象,,唯獨遺漏了那些真正對人類而言有價值的維度,。
科技行業(yè)的數(shù)據(jù)展示界面上滿是有關人工智能的亮眼數(shù)字:處理速度、參數(shù)數(shù)量,、基準測試得分,、用戶增長率。硅谷最頂尖的人才不斷調整算法,,只為拉高這些指標,。然而,在這一堆衡量標準中,,我們卻忽視了一個基本事實:世界上最先進的人工智能,,若無法實實在在地改善人類生活,便毫無價值可言,。
想想早期搜索引擎的故事,。在谷歌嶄露頭角之前,各大公司圍繞網(wǎng)頁索引數(shù)量展開激烈競爭,。然而谷歌之所以能夠異軍突起,,并非因為它擁有規(guī)模最大的數(shù)據(jù)庫,而在于它更深刻地洞察了用戶行為——相關性和可信度比單純的數(shù)量更重要,。
能建立信任的人工智能
當下的人工智能領域,,情形與往昔有著異曲同工之處。各公司競相構建規(guī)模更大的模型,,卻可能忽視了以用戶為核心的設計里那些更微妙的元素,,而這些元素才是真正推動人工智能應用和發(fā)揮影響力的關鍵所在。
改善人工智能評估體系的關鍵在于建立信任機制,。最新研究成果顯示,,那些能夠清晰闡釋自身推理過程的人工智能系統(tǒng)(即便存在偶發(fā)誤差)能贏得用戶更深度的持續(xù)使用。這其中的道理通俗易懂——無論是面對技術還是人際交往,,信任的基石都在于透明度和可靠性,,而非單純的性能指標,。
然而,信任只是基礎,。最有效的人工智能系統(tǒng)通過展現(xiàn)對人類心理的真正洞察,,與用戶建立起真正的情感聯(lián)系。研究揭示出一種極具說服力的模式:當人工智能系統(tǒng)不再局限于執(zhí)行任務,,而是能夠依據(jù)用戶的心理訴求進行調整時,,它們就會成為人們日常生活中不可或缺的一部分。這絕非簡單地編寫幾句看似友好的程序,,而是要打造出真正理解并能回應人類體驗的系統(tǒng),。
于人工智能的應用場景而言,信任的重要性遠超技術實力,。一項針對近1100名消費者展開的,、具有開創(chuàng)性意義的人工智能聊天機器人研究揭示:人們在面對服務失誤時,是否愿意選擇諒解并保持對品牌的忠誠度,,并不取決于人工智能解決問題的快慢,,而在于他們是否信任這個試圖提供幫助的系統(tǒng)。
理解你的人工智能
研究人員發(fā)現(xiàn),,構建這種信任關系需滿足三個至關重要的維度:其一,,人工智能需展現(xiàn)出真正理解問題以及解決問題的能力;其二,,它需流露出善意,,即真誠地希望為用戶提供幫助;其三,,它需在與用戶的互動過程中,,始終如一地保持誠實,以此維系自身的誠信形象,。當人工智能聊天機器人具備這些特質時,,客戶便更傾向于原諒服務中出現(xiàn)的問題,也不太可能向他人抱怨自己的體驗,。
如何讓人工智能系統(tǒng)贏得用戶的信賴呢,?研究發(fā)現(xiàn),一些簡單的舉措就能帶來顯著效果:為人工智能賦予擬人化的特質,,通過編程使其在回復中展現(xiàn)出同理心(“我理解這一定讓你很沮喪”),,以及在數(shù)據(jù)隱私方面保持透明。有這樣一個典型案例,,一位遭遇送貨延遲問題的客戶,,在與名為羅素的聊天機器人溝通時,,羅素不僅認可了客戶的沮喪情緒,,還條理清晰地解釋了問題產生的原因以及解決方案,,客戶對羅素這樣的聊天機器人更有可能保持忠誠度(與只是單純陳述事實、連名字都沒有的聊天機器人相比),。
這一發(fā)現(xiàn)沖擊了“人工智能只需做到快速準確”的普遍假設,。在醫(yī)療保健、金融服務以及客戶支持領域,,那些最為成功的生成式人工智能系統(tǒng),,并非一定是架構最為復雜的,而是那些能夠與用戶建立起真正融洽關系的系統(tǒng),。它們愿意花費時間向用戶闡釋推理過程,,承認用戶心中的顧慮,并且始終如一地滿足用戶需求,。
然而,,傳統(tǒng)衡量標準并不總能反映出這些關鍵的性能維度。我們需要構建新型評估框架:在評估人工智能系統(tǒng)時,,不能僅僅局限于技術嫻熟程度,,還需關注系統(tǒng)營造心理安全感、與用戶建立起真正融洽關系的能力,,而最為關鍵的是,,要看它們能否助力用戶達成目標。
全新的人工智能衡量標準
在Cleo公司,,我們致力于借助人工智能助手來提升人們的財務健康水平,,當下正探索全新的衡量標準。這可能意味著要衡量用戶信任度,、用戶參與深度和質量等因素,,同時,我們還會關注整個對話過程,。對我們而言,,了解公司的人工智能財務助手Cleo能否在每次交互中幫助用戶達成目標至關重要。
構建更為細致的評估框架,,并不意味著要舍棄性能指標,,畢竟性能指標仍是衡量商業(yè)與技術成功的重要指標。只不過,,它們需要與那些能夠更深入衡量對人類產生影響的指標相互平衡,。但這絕非易事,其中一個挑戰(zhàn)在于這些指標存在主觀性,,不同個體對于“好”的評判標準往往大相徑庭,。即便如此,這些指標仍然值得探索。
隨著人工智能越來越深入地融入日常生活,,能夠理解這種轉變的公司才會取得成功,。過往引領我們至今的評估標準,已然無法滿足未來發(fā)展的需求,。是時候開始衡量真正關鍵的要素了:我們不能僅僅聚焦于人工智能的性能表現(xiàn),,更應關注它究竟能在多大程度上助力人類實現(xiàn)蓬勃發(fā)展。
費爾南達·多巴爾(Fernanda Dobal)現(xiàn)任Cleo公司產品總監(jiān),,主要負責公司的人工智能與聊天機器人相關業(yè)務,。
Fortune.com上發(fā)表的評論文章中表達的觀點,僅代表作者本人的觀點,,不代表《財富》雜志的觀點和立場,。(財富中文網(wǎng))
譯者:中慧言-王芳
我們評估人工智能的方法存在一種吊詭的錯位:我們創(chuàng)造出模仿和強化人類能力的系統(tǒng),然而衡量其成功的標準卻包羅萬象,,唯獨遺漏了那些真正對人類而言有價值的維度,。
科技行業(yè)的數(shù)據(jù)展示界面上滿是有關人工智能的亮眼數(shù)字:處理速度、參數(shù)數(shù)量,、基準測試得分,、用戶增長率。硅谷最頂尖的人才不斷調整算法,,只為拉高這些指標,。然而,在這一堆衡量標準中,,我們卻忽視了一個基本事實:世界上最先進的人工智能,,若無法實實在在地改善人類生活,便毫無價值可言,。
想想早期搜索引擎的故事,。在谷歌嶄露頭角之前,各大公司圍繞網(wǎng)頁索引數(shù)量展開激烈競爭,。然而谷歌之所以能夠異軍突起,,并非因為它擁有規(guī)模最大的數(shù)據(jù)庫,而在于它更深刻地洞察了用戶行為——相關性和可信度比單純的數(shù)量更重要,。
能建立信任的人工智能
當下的人工智能領域,,情形與往昔有著異曲同工之處。各公司競相構建規(guī)模更大的模型,,卻可能忽視了以用戶為核心的設計里那些更微妙的元素,,而這些元素才是真正推動人工智能應用和發(fā)揮影響力的關鍵所在。
改善人工智能評估體系的關鍵在于建立信任機制,。最新研究成果顯示,,那些能夠清晰闡釋自身推理過程的人工智能系統(tǒng)(即便存在偶發(fā)誤差)能贏得用戶更深度的持續(xù)使用。這其中的道理通俗易懂——無論是面對技術還是人際交往,信任的基石都在于透明度和可靠性,,而非單純的性能指標,。
然而,信任只是基礎,。最有效的人工智能系統(tǒng)通過展現(xiàn)對人類心理的真正洞察,,與用戶建立起真正的情感聯(lián)系,。研究揭示出一種極具說服力的模式:當人工智能系統(tǒng)不再局限于執(zhí)行任務,,而是能夠依據(jù)用戶的心理訴求進行調整時,它們就會成為人們日常生活中不可或缺的一部分,。這絕非簡單地編寫幾句看似友好的程序,,而是要打造出真正理解并能回應人類體驗的系統(tǒng)。
于人工智能的應用場景而言,,信任的重要性遠超技術實力,。一項針對近1100名消費者展開的、具有開創(chuàng)性意義的人工智能聊天機器人研究揭示:人們在面對服務失誤時,,是否愿意選擇諒解并保持對品牌的忠誠度,,并不取決于人工智能解決問題的快慢,而在于他們是否信任這個試圖提供幫助的系統(tǒng),。
理解你的人工智能
研究人員發(fā)現(xiàn),,構建這種信任關系需滿足三個至關重要的維度:其一,人工智能需展現(xiàn)出真正理解問題以及解決問題的能力,;其二,,它需流露出善意,即真誠地希望為用戶提供幫助,;其三,,它需在與用戶的互動過程中,始終如一地保持誠實,,以此維系自身的誠信形象,。當人工智能聊天機器人具備這些特質時,客戶便更傾向于原諒服務中出現(xiàn)的問題,,也不太可能向他人抱怨自己的體驗,。
如何讓人工智能系統(tǒng)贏得用戶的信賴呢?研究發(fā)現(xiàn),,一些簡單的舉措就能帶來顯著效果:為人工智能賦予擬人化的特質,,通過編程使其在回復中展現(xiàn)出同理心(“我理解這一定讓你很沮喪”),以及在數(shù)據(jù)隱私方面保持透明,。有這樣一個典型案例,,一位遭遇送貨延遲問題的客戶,在與名為羅素的聊天機器人溝通時,羅素不僅認可了客戶的沮喪情緒,,還條理清晰地解釋了問題產生的原因以及解決方案,,客戶對羅素這樣的聊天機器人更有可能保持忠誠度(與只是單純陳述事實、連名字都沒有的聊天機器人相比),。
這一發(fā)現(xiàn)沖擊了“人工智能只需做到快速準確”的普遍假設,。在醫(yī)療保健、金融服務以及客戶支持領域,,那些最為成功的生成式人工智能系統(tǒng),,并非一定是架構最為復雜的,而是那些能夠與用戶建立起真正融洽關系的系統(tǒng),。它們愿意花費時間向用戶闡釋推理過程,,承認用戶心中的顧慮,并且始終如一地滿足用戶需求,。
然而,,傳統(tǒng)衡量標準并不總能反映出這些關鍵的性能維度。我們需要構建新型評估框架:在評估人工智能系統(tǒng)時,,不能僅僅局限于技術嫻熟程度,,還需關注系統(tǒng)營造心理安全感、與用戶建立起真正融洽關系的能力,,而最為關鍵的是,,要看它們能否助力用戶達成目標。
全新的人工智能衡量標準
在Cleo公司,,我們致力于借助人工智能助手來提升人們的財務健康水平,,當下正探索全新的衡量標準。這可能意味著要衡量用戶信任度,、用戶參與深度和質量等因素,,同時,我們還會關注整個對話過程,。對我們而言,,了解公司的人工智能財務助手Cleo能否在每次交互中幫助用戶達成目標至關重要。
構建更為細致的評估框架,,并不意味著要舍棄性能指標,,畢竟性能指標仍是衡量商業(yè)與技術成功的重要指標。只不過,,它們需要與那些能夠更深入衡量對人類產生影響的指標相互平衡,。但這絕非易事,其中一個挑戰(zhàn)在于這些指標存在主觀性,,不同個體對于“好”的評判標準往往大相徑庭,。即便如此,,這些指標仍然值得探索。
隨著人工智能越來越深入地融入日常生活,,能夠理解這種轉變的公司才會取得成功,。過往引領我們至今的評估標準,已然無法滿足未來發(fā)展的需求,。是時候開始衡量真正關鍵的要素了:我們不能僅僅聚焦于人工智能的性能表現(xiàn),,更應關注它究竟能在多大程度上助力人類實現(xiàn)蓬勃發(fā)展。
費爾南達·多巴爾(Fernanda Dobal)現(xiàn)任Cleo公司產品總監(jiān),,主要負責公司的人工智能與聊天機器人相關業(yè)務,。
Fortune.com上發(fā)表的評論文章中表達的觀點,僅代表作者本人的觀點,,不代表《財富》雜志的觀點和立場,。(財富中文網(wǎng))
譯者:中慧言-王芳
There’s a peculiar irony in how we evaluate artificial intelligence: We’ve created systems to mimic and enhance human capabilities, yet we measure their success using metrics that capture everything except what makes them truly valuable to humans.
The tech industry’s dashboards overflow with impressive numbers on AI: processing speeds, parameter counts, benchmark scores, user growth rates. Silicon Valley’s greatest minds tweak algorithms endlessly to nudge these metrics higher. But in this maze of measurements, we’ve lost sight of a fundamental truth: The most sophisticated AI in the world is worthless if it doesn’t meaningfully improve human lives.
Consider the story of early search engines. Before Google, companies competed fiercely on the sheer number of web pages indexed. Yet Google prevailed not because it had the biggest database, but because it understood something deeper about human behavior—that relevance and trustworthiness matter more than raw quantity.
AI that builds trust
Today’s AI landscape feels remarkably similar, with companies racing to build bigger models while potentially missing the more nuanced elements of human-centered design that actually drive adoption and impact.
The path to better AI evaluation begins with trust. Emerging research demonstrates that users engage more deeply and persistently with AI systems that clearly explain their reasoning, even when those systems occasionally falter. This makes intuitive sense—trust, whether in technology or humans, grows from transparency and reliability rather than pure performance metrics.
Yet trust is merely the foundation. The most effective AI systems forge genuine emotional connections with users by demonstrating true understanding of human psychology. The research reveals a compelling pattern: When AI systems adapt to users’ psychological needs rather than simply executing tasks, they become integral parts of people’s daily lives. This isn’t about programming superficial friendliness—it’s about creating systems that genuinely comprehend and respond to the human experience.
Trust matters more than technical prowess when it comes to AI adoption. A groundbreaking AI chatbot study of nearly 1,100 consumers found that people are willing to forgive service failures and maintain brand loyalty not based on how quickly an AI resolves their problem, but on whether they trust the system trying to help them.
AI that gets you
The researchers discovered three key elements that build this trust: First, the AI needs to demonstrate a genuine ability to understand and address the issue. Second, it needs to show benevolence—a sincere desire to help. Third, it must maintain integrity through consistent, honest interactions. When AI chatbots embodied these qualities, customers were significantly more likely to forgive service problems and less likely to complain to others about their experience.
How do you make an AI system trustworthy? The study found that simple things make a big difference: anthropomorphizing the AI, programming it to express empathy through its responses (“I understand how frustrating this must be”), and being transparent about data privacy. In one telling example, a customer dealing with a delayed delivery was more likely to remain loyal when a chatbot named Russell acknowledged their frustration and clearly explained both the problem and solution, compared to an unnamed bot that just stated facts.
This insight challenges the common assumption that AI just needs to be fast and accurate. In health care, financial services, and customer support, the most successful generative AI systems aren’t necessarily the most sophisticated —they’re the ones that build genuine rapport with users. They take time to explain their reasoning, acknowledge concerns, and demonstrate consistent value for the user’s needs.
And yet traditional metrics don’t always capture these crucial dimensions of performance. We need frameworks that evaluate AI systems not just on their technical proficiency, but on their ability to create psychological safety, build genuine rapport, and most importantly, help users achieve their goals.
New AI metrics
At Cleo, where we’re focused on improving financial health through an AI assistant, we’re exploring these new measurements. This might mean measuring factors like user trust and the depth and quality of user engagement, as well as looking at entire conversational journeys. It’s important for us to understand if Cleo, our AI financial assistant, can help a user with what they are trying to achieve with any given interaction.
A more nuanced evaluation framework doesn’t mean abandoning performance metrics—they remain vital indicators of commercial and technical success. But they need to be balanced with deeper measures of human impact. That’s not always easy. One of the challenges with these metrics is their subjectivity. That means reasonable humans can disagree on what good looks like. Still, they are worth pursuing.
As AI becomes more deeply woven into the fabric of daily life, the companies that understand this shift will be the ones that succeed. The metrics that got us here won’t be sufficient for where we’re going. It’s time to start measuring what truly matters: not just how well AI performs, but how well it helps humans thrive.
The opinions expressed in Fortune.com commentary pieces are solely the views of their authors and do not necessarily reflect the opinions and beliefs of Fortune.