02. Mrz 2017

Big Data in der Personalauswahl


Eine aktu­el­le Stu­die unter­sucht, ob ein trai­nier­ter Com­pu­ter mit­tels Text-Mining Kom­pe­ten­zen genau­so gut bewer­ten kann wie ein Mensch.

Schlag­wör­ter wie Big Data, Peop­le Ana­ly­tics und Busi­ness Intel­li­gence ste­hen bei HR der­zeit hoch im Kurs. Kein Wun­der: Nicht nur geben Kan­di­da­ten im Inter­net frei­wil­lig eine Unmen­ge von Infor­ma­tio­nen über sich Preis, auch die Tech­no­lo­gie zum Aus­wer­ten der­art gro­ßer Daten­men­gen hat sich in den letz­ten Jah­ren enorm ver­bes­sert. Big Data ist vor allem für das Recrui­ting inter­es­sant, das sich durch das groß­flä­chi­ge Durch­su­chen von sozia­len Netz­wer­ken wie Face­book und XING eine grö­ße­re Zahl pas­sen­der Kan­di­da­ten ver­spricht. Aber ist Big Data auch in der Per­so­nal­aus­wahl nütz­lich? Mit die­ser Fra­ge hat sich eine Stu­die befasst, die im renom­mier­ten Jour­nal of App­lied Psy­cho­lo­gy erschie­nen ist.

Das Ziel der For­scher bestand dar­in, kur­ze Auf­sät­ze von Bewer­bern durch einen Com­pu­ter bewer­ten zu las­sen, um dadurch auf ver­schie­de­ne Kom­pe­ten­zen zu schlie­ßen. Die Auto­ren nutz­ten hier­für die Daten von 46.000 Kan­di­da­ten, die sich bei einer gro­ßen Ame­ri­ka­ni­schen Regie­rungs­be­hör­de bewor­ben hat­ten. Im Aus­wahl­pro­zess wur­den alle Kan­di­da­ten von drei Per­so­nal­ver­ant­wort­li­chen hin­sicht­lich ver­schie­de­ner Kom­pe­ten­zen, wie z.B. Füh­rungs-, Kom­mu­ni­ka­ti­ons- und Sozi­al­kom­pe­tenz bewer­tet. Grund­la­ge der Bewer­tung waren neben bio­gra­phi­schen Infor­ma­tio­nen und Ergeb­nis­sen von Leis­tungs­tests die soge­nann­ten „Accom­plish­ment Records“. Dies sind kur­ze Auf­sät­ze von ca. 200 Wör­tern über ver­gan­ge­ne Erfol­ge (z.B. „Bit­te beschrei­ben Sie eine Situa­ti­on, in der Sie Füh­rungs­kom­pe­tenz unter Beweis stel­len muss­ten“). Die For­schungs­fra­ge lau­te­te: Kann der Com­pu­ter die Kom­pe­ten­zen genau­so gut bewer­ten wie ein Mensch?

Langwieriges Training

Zunächst muss­te der Com­pu­ter hier­für von den For­schern „trai­niert“ wer­den. Grob gesagt, extra­hiert das Pro­gramm aus den Tex­ten zunächst „Kon­zep­te“, wie z.B. häu­fi­ge Sub­stan­ti­ve oder Phra­sen. Durch die­ses soge­nann­te „Text-Mining“ ent­steht eine Lis­te mit bis zu 5.000 Kon­zep­ten, die dann vom Men­schen auf Syn­ony­me hin über­prüft wer­den muss. Im nächs­ten Schritt wer­den die Kon­zep­te wei­ter zu Kate­go­ri­en und Sub­ka­te­go­ri­en zusam­men­ge­fasst, die eben­falls vom Men­schen über­prüft und ver­bes­sert wer­den müs­sen. Bei­spiels­wei­se kön­nen die Kon­zep­te „Füh­rungs­kraft“, „Team­lei­ter“ und „Vor­ge­setz­ter“ zur Kate­go­rie „Füh­rung“ zusam­men­ge­fasst wer­den. Um die Tex­te aus­zu­wer­ten, kon­trol­liert der Com­pu­ter schlicht, wel­che Kate­go­ri­en im Text vor­kom­men und wel­che nicht. Mit­hil­fe der Kate­go­ri­en wur­den dann sta­tis­ti­sche Model­le errech­net, um auf die Leis­tung der Kan­di­da­ten zu schlie­ßen.

So gut wie ein Mensch?

Tat­säch­lich ließ sich das Pro­gramm so trai­nie­ren, dass es die Kom­pe­ten­zen der Kan­di­da­ten mit der glei­chen Mess­ge­nau­ig­keit wie die Per­so­nal­ver­ant­wort­li­chen erfas­sen konn­te. Was bedeu­tet das für die Pra­xis? Gera­de bei hohen Bewer­ber­zah­len ver­spricht eine sol­che Auto­ma­ti­sie­rung gro­ße Ein­spar­po­ten­zia­le. Die For­scher rech­nen vor, dass die Behör­de pro Jahr ca. 150.000 $ ein­spa­ren könn­te, wenn nur einer der drei Per­so­na­ler durch den Com­pu­ter ersetzt wür­de. Der Com­pu­ter könn­te auch dafür genutzt wer­den, die nicht geeig­ne­ten Kan­di­da­ten her­aus­zu­fil­tern, um so den Kan­di­da­ten­pool zu ver­klei­nern und den Auf­wand für die Per­so­nal­ver­ant­wort­li­chen zu redu­zie­ren.

Bei allem Opti­mis­mus geben die For­scher aber auch eini­ge Pro­ble­me und Hin­der­nis­se zu beden­ken: Ers­tens ist der Auf­wand, eine sol­che Soft­ware ein­zu­füh­ren, beacht­lich. Allein das initia­le Trai­ning des Com­pu­ters nahm in der Stu­die ca. 200 Arbeits­stun­den in Anspruch. Auch benö­tigt man min­des­tens 500 voll­stän­di­ge Daten­sät­ze (inkl. mensch­li­cher Bewer­tung), um das Pro­gramm auf die Belan­ge der Orga­ni­sa­ti­on zu trai­nie­ren.

[A]dvances in text mining capa­bi­li­ties and the deve­lop­ment of pre­dic­tive mode­ling soft­ware pro­grams have the poten­ti­al to usher in a new era of selec­tion scho­l­ar­ship and prac­tice.

Zwei­tens darf nicht ver­ges­sen wer­den, dass die Soft­ware zwar Wör­ter und Phra­sen erken­nen aber kei­ne Seman­tik ver­ste­hen kann. So kam es in der Stu­die ver­ein­zelt zu deut­li­chen Abwei­chun­gen zwi­schen den Bewer­tun­gen von Mensch und Maschi­ne. Beschreibt ein Kan­di­dat z.B. im Auf­satz nicht sei­ne eige­ne Füh­rungs­er­fah­rung, son­dern gibt ledig­lich sei­ne Mei­nung zum The­ma Füh­rung wie­der, bewer­tet der Com­pu­ter dies trotz­dem als gute Leis­tung, solan­ge die ent­spre­chen­den Ter­mi­ni im Text vor­kom­men. Auch der umge­kehr­te Fall ist mög­lich: Nutzt ein Kan­di­dat unge­wöhn­li­che Wör­ter oder Umschrei­bun­gen, kann der Com­pu­ter die­se nicht rich­tig zuord­nen und unter­schätzt die Leis­tung des Kan­di­da­ten.

Der Ein­satz einer sol­chen Soft­ware bei Deut­schen Behör­den und Ver­wal­tun­gen könn­te außer­dem recht­li­che Fra­gen auf­wer­fen: Selbst wenn die Soft­ware in 99% der Fäl­le rich­tig liegt, könn­ten abge­lehn­te Bewer­ber sich dar­auf beru­fen, zu den rest­li­chen 1% zu gehö­ren und auf die­ser Grund­la­ge das Ver­fah­ren anfech­ten. Die DIN 33430, eine Qua­li­täts­norm für die Per­so­nal­aus­wahl, äußert sich zwar (noch) nicht zu Big-Data-Metho­den, ver­langt aber eine nach­voll­zieh­ba­re Doku­men­ta­ti­on des Ver­fah­rens. Bedenkt man, dass zur Vor­her­sa­ge der Leis­tung in die­ser Stu­die mehr als 1.000 Varia­blen berück­sich­tigt und ver­rech­net wur­den, ist die Nach­voll­zieh­bar­keit der soft­ware­ba­sier­ten Aus­wahl zumin­dest frag­lich.

Schluss­end­lich kann die Soft­ware nicht bes­ser sein als die Kri­te­ri­en, die zur Kali­brie­rung genutzt wer­den. Das heißt, der Com­pu­ter ist zwar in der Lage, die Kom­pe­tenz­ein­schät­zung der Per­so­nal­ver­ant­wort­li­chen recht genau zu repro­du­zie­ren, kann jedoch nicht genau­er oder vali­der sein. Es besteht außer­dem die Gefahr, die Soft­ware bei der Ein­füh­rung mit unge­nau­en oder nicht vali­den Daten zu trai­nie­ren und dadurch eben­so unbrauch­ba­re Ergeb­nis­se zu erhal­ten (gar­ba­ge in, gar­ba­ge out).

Zusam­men­ge­fasst kann fest­ge­hal­ten wer­den, dass Big Data in der Per­so­nal­aus­wahl noch eine unter­ge­ord­ne­te Rol­le spielt. Ob sich dies in Zukunft ändern wird, hängt wohl in ers­ter Linie von der Ver­füg­bar­keit erschwing­li­cher und leicht bedien­ba­rer Soft­ware­lö­sun­gen ab. Da der­ar­ti­ge Soft­ware lang­fris­tig zu Per­so­nal­ab­bau füh­ren wird, kann auch mit Wider­stän­den in den Per­so­nal­ab­tei­lun­gen gerech­net wer­den. Bis alle tech­ni­schen, inhalt­li­chen und recht­li­chen Pro­ble­me gelöst sind, wird Big Data in der Per­so­nal­aus­wahl wohl vor­erst ein The­ma für die For­schung blei­ben.


Cam­pi­on, M. C., Cam­pi­on, M. A., Cam­pi­on, E. D., & Rei­der, M. H. (2016). Initi­al inves­ti­ga­ti­on into com­pu­ter sco­ring of can­di­da­te essays for per­son­nel selec­tion. Jour­nal of App­lied Psy­cho­lo­gy, 101(7), 958–975. doi: 10.1037/apl0000108

Wie ist Ihre Meinung?