以崭新角度切入数据科学
苏嘉欣强调沟通技巧重要
以为能当数据科学家,不是电脑奇才就是数学家,原来凡事总有例外。苏嘉欣(14新亚生物医学工程学)修读的像是与数据毫无关系,但她却认为数学及工程是互通的,「其他工程读的,可能是水管结构与流动,生物医学工程只是由水管换成了血管,个中数理逻辑并没有变。」
苏嘉欣认为数据科学家的说故事能力十分重要。
中大的生物医学工程于2010年开办,苏嘉欣(Winnie)是第一届毕业生,问她为何敢当「开荒牛」,她笑说背后原因竟是不够温柔,「中学时已对心电图、基因、神经学等范畴感兴趣,可惜性格不够温柔,也没有太大耐性,早知不能当上医生或物理治疗师,参观中大开放日认识到将会有生物医学工程这学科,毫不犹豫就选了。」
虽然读书内容均是围绕医学范畴,但Winnie却认为生物医学只是场景,后面工程二字才是重点,「我会用『放诸四海皆准』来形容,正如工程有流体力学(fluid mechanics),我们就有生物流体学(bio-fluid),他们有机械工程(robotics),我们也有生物机械工程(bio-robotics),这正是跨学科(cross-disciplinary)的概念,彼此传授的数学及工程理论是互通的。」她甚至认为读非工程科目的,看待工程会更能跳出框框,「读书时代表中大参加由MIT举办的国际基因工程大赛(iGEM),竟然见到有艺术系及建筑系的学生参赛,前者用舞蹈来演绎蛋白质形状,后者则用建筑模型来建构基因形状,那刻才体会到原来可用另类视角来解读工程,这对日后工作帮助很大。」
读书时参加iGEM比赛的经验,Winnie(前排右二)明白到工程可以不同角度解读。
建立台湾电召车派单系统
最明显例子,要数她毕业后加入GOGOVAN担任数据科学家说起,「当时公司已开发台湾市场,系统应用在香港效率很高,但在台湾用起来数据却总是有点问题。于是我向公司申请飞往台湾了解,最终发现两地电召车辆方法截然不同:香港模式是C2C的,客人直接电召车辆,司机本人接单,但在台湾却是B2C模式,中间有电商营运,经它分单给电单车手,所以整个算法要修动为B2C,才能有效派单。」
在GOGOVAN工作时,Winnie曾与大学物流系合作,研究物流工程相关的机器学习(Machine Learning)应用。
找到问题所在,苏校友回港汇报她的发现时,同事却不理解为何要改动系统,「花了很多时间解释,他们也听不明白台湾市场到底如何运作,突然记起读书时的参赛经验,于是转个角度解说:踫巧上司是波兰人,极为喜欢饮酒,我便探勘(Data Mining)港九新界的酒吧位置并罗列在地图上,假设同事分别管理不同地区酒吧,要如何安排路线,才能令上司可以在短时间内试匀所有酒吧。听完这个说法,大家即时理解台湾的分单机制,最终也推动到系统算法优化研究的工作。」
经此一役,苏嘉欣明白数据科学家要懂得把故事说好,「很多同事没有科技背景,他们不知道数据可以怎么应用,身为数据科学家不能像其他工种般,乖乖地坐在办公室,等上司给予指引,然后完成工作;大部分时间是要自觉发掘公司数据,从中找到痛点并作出改善,要对建立数据模型(data model)充满热诚,还要讲出动听的故事,让同事明白为何要这样做,当中涉及人工智能、机器学习、程式编码等技术,数据科学家只是拿到入场券,沟通技巧亦不能忽略。」
不过即使说服了同事支持自己,但他们不肯用来制做新产品也是徒然,Winnie坦承初入行时曾因此而一度迷惘,直至最后加入现时公司AXA安盛保险后,终于明白个中原因,「不论是GOGOVAN还是后来工作的初创,业务范围不算太广,来到保险公司,涉及的商业范畴变得很大,终于明白以前构思数据项目时,还未考虑公司业务上的需要,才会令项目完成后无人问津,这是在AXA工作最大的学习得着。」
以炒餸作比喻
来到新公司,不单要继续开发新项目,也要推广数据文化,苏校友再次发挥说故事的本领,「负责保险后勤工作的同事,每日要处理很多数据,于是我们团队将之作数据清洗并放上云端,亦整合一堆分析工具,用家毋须写程式码就能自取数据使用。开发完成后,我以炒餸作比喻:食材由农场运到仓库,仿如将数据放上云端,如果你是大厨,懂得处理新鲜食材的,当然可以直接写程式撷取云上的数据,但如果厨艺一般的,我们数据部门已开发好简单工具,等于将食材处理好并包装成即食食物,拿回去可以很快煮好开始吃⋯⋯听完这个故事,各部门同事都跃跃欲试我们的新产品。数据科学家不可以只注重开发,开发后也要花心思吸引用家使用你的产品,才是成功。」
在AXA工作,获派往法国总公司实习,Winnie(右二)与当地数据科学家交流。
参加数据比赛做靓履历才入行
听起来数据科学家像是新兴行业,苏嘉欣却说「这个行业其实一直存在,只是以前唤作研究员或分析员,现时有更好听的名字罢了!事实上,近年数据科学家也真的很抢手,尤其是银行及保险公司也出动高薪掘角,大家也意识到数据的用途。」她提醒想入行的,除了要掌握行业所需技术外,最重要是多做数据项目,「自发做些项目放到网站上,或是多参加不同的数据比赛,公司请人就是看申请人以往做过的项目,是否切合到公司的数据需求。」
苏嘉欣小档案
- 2014年‧香港中文大学工程学士
- 2016年‧香港城市大学工程学硕士
GOGOVAN数据科学家 - 2017年‧ANIWARE数据科学家
- 2018年‧AXA数据科学家
访问原文:《中大校友》季刊第一百一十一期.中大校友事务处 2022
网上阅读《中大校友》9月号
pdf版本:http://alumni.cuhk.edu.hk/zh-Hant/magazine/categories/pdfversion/202209
揭页式ISSUU版本:http://www.alumni.cuhk.edu.hk/magazine/issuu/