2020년 2월 국내에 상륙한 코로나와 함께 우리 직장인의 일상에 갑작스럽게 이제껏 경험하지 못했던 재택근무가 찾아왔다. 재택근무가 막 시작될 때만 해도 ‘이게 가능해?’라는 의구심이 강했다. 그런데 지금 2022년에는 재택근무가 자연스러운 일상의 한 부분으로 자리잡고 있다. 물론 재택근무가 코로나 펜데믹 상황에서 시작되기는 했지만 일시적인 대비책이 아니라 하나의 근무 형태로 자리 잡을 수 있다는 예측들이 등장하고 있다. 국내외 많은 기업들이 오프라인 기반의 오피스를 줄이기도 하고, 물리적 제약을 없애서 우수한 인재를 영입하려는 시도가 이어지고 있다. 이렇게 과감한 전략에 따라 ‘재택근무가 효과적인가’에 대한 질문이 등장하고 있다. 많은 회사들이 재택근무의 효과성과 생산성에 대해 분석하고 고민하고 있는 상황이다. 그런데 재택근무가 피할 수 없는 트렌드가 된다면, “재택근무를 어떻게 효과적으로 만들 것인지”도 함께 고민해야 하지 않을까? 재택근무를 효과적으로 만들기 위해서는 가장 먼저 재택근무의 당사자인 직장인들의 의견을 들여다볼 필요가 있다고 생각했다.
직장인들은 재택근무를 어떻게 인식하고, 어떻게 반응하고 있을까? 이것이 이번 블로그 글의 핵심 질문이다. 직장인들이 자유롭게 의견을 나누는 SNS 공간을 살펴보면 그 단서를 찾을 수 있을 것이라 생각했다. 직장인들이 재택근무를 이야기하면서 자주 등장하는 키워드, 혹은 주제들, 변화 양상 등을 확인해서 직장인들의 인식을 파악해보려고 하였다. 이는 결과적으로 재택근무가 효과적으로 정착하기 위한 기초 자료가 될 것이라는 나름의 기대도 갖고 있었다. 분석 주제에 맞게 직장인 대상 익명 SNS 게시판의 텍스트 데이터를 수집했다. ‘재택’이라는 키워드를 포함한 게시글과 댓글 총 11만 건의 데이터를 확보했다. 주제의 제한없이 사용하는 해당 게시판은 직장인들의 일반적인 인식과 관심사를 확인하기에 좋은 데이터 소스였다. 다만, 해당 게시판의 특성 상 회사에 대한 부정적인 의견이 과장되고 확대되어 표현될 수 있어서 이 점을 감안하여 아래 분석 결과를 해석할 필요가 있다.
어떤 키워드들이 주로 등장할까?
재택근무 관련 게시글과 댓글에서는 어떤 키워드들이 주로 사용되고 있는지를 먼저 확인했다. 추출한 데이터에서 명사 키워드를 추출하였고, 각 단어별 출현 빈도를 산출하였다. 키워드 출현 빈도는 아래 워드 클라우드와 차트를 통해 시각화하였다. 워드 클라우드를 보면, ‘회사’, ‘출근’, ‘시간’, ‘ 출근’, ‘업무’ 등 회사생활과 관련된 키워드들이 눈에 띈다. 이는 직장인을 대상으로 한 익명 게시판이어서 나타난 결과이기도 하겠지만, 재택근무의 의사결정 주체인 회사, 직장과 관련된 상황에 대한 이야기가 많이 등장했음을 추측해볼 수 있다. 회사생활을 제외하면 ‘코로나’, ‘친구’, ‘남편’, ‘추천’, ‘운동’ 등 다양한 주제의 이야기가 게시되고 논의되고 있음을 추측해볼 수 있다.
다음으로는 이런 키워드들이 텍스트에서 어떻게 연결되어 있는지를 확인했다. 분석에는 엔그램(n-gram)과 키워드 간의 상관계수를 활용했다. 엔그램은 연이어서 사용된 n개의 단어를 말한다. 동일한 키워드라고 하더라도 연결되는 단어에 따라 의미가 달라지기 때문에 연이어 등장하는 단어쌍을 활용하면 텍스트에서 키워드가 사용되는 대략의 양상을 확인할 수 있지 않을까 기대했다. 데이터에서 추출한 명사 2-gram(bigram) 결과를 보면, 우리-회사, 재택-회사, 회사-재택의 단어 쌍이 많이 등장했다. 해당 바이그램을 포함한 실제 텍스트를 해보면 ‘재택하는 회사’, ‘회사가 재택을 해서’ 식의 서술이 많이 등장했다. 다시 말해서, 어떤 회사가 재택을 하고 있는지, 회사에서 재택을 하다보니 어떤 이슈가 생겼는지에 대한 의견과 그에 대한 반응이 많이 논의되고 있다는 것을 발견할 수 있었다.
Rank | word1 | word2 | n | Rank | word1 | word2 | n |
---|---|---|---|---|---|---|---|
1 | 우리 | 회사 | 683 | 11 | 출근 | 재택 | 287 |
2 | 재택 | 회사 | 612 | 12 | 점심 | 시간 | 286 |
3 | 회사 | 재택 | 605 | 13 | 근무 | 시간 | 285 |
4 | 재택 | 근무 | 560 | 14 | 우리 | 재택 | 234 |
5 | 재택 | 출근 | 484 | 15 | 호재 | 악재 | 220 |
6 | 재택 | 사람 | 427 | 16 | 출퇴근 | 시간 | 219 |
7 | 하루 | 종일 | 410 | 17 | 사람 | 재택 | 215 |
8 | 재택 | 가능 | 383 | 18 | 회사 | 사람 | 211 |
9 | 코로나 | 재택 | 357 | 19 | 거리 | 두기 | 208 |
10 | 코로나 | 때문 | 345 | 20 | 재택 | 업무 | 196 |
그렇다면 동일한 텍스트에서 같이 연결되어 많이 사용되는 단어쌍은 어떤 키워드들일까? 대량의 텍스트 데이터들 내에서 주로 연결되어 등장하는 단어 조합을 보면 그 텍스트의 맥락을 살펴볼 수 있지 않을까 하는 기대를 갖고 키워드 간의 상관계수를 확인해 보았다. 여기서 활용한 지수는 파이 계수(phi coefficient)다. 파이계수는 두 개의 단어가 얼마나 많이 함께 쓰이는지를 각각 사용되는 경우와 비교해서 나타내는 지표다. 파이계수를 통해 두 단어의 연관성을 확인할 수 있고, 텍스트에서 어떤 단어들이 함께 사용되고 있는지를 파악할 수 있다. 두 단어 X와 Y가 있을 때, 텍스트에 두 단어가 모두 있는 경우, 각각 있는 경우, 모두 없는 경우로 나눠볼 수 있고, 이를 표로 나타내면 다음과 같다.
단어 Y 있음 | 단어 Y 없음 | ||
---|---|---|---|
단어 X 있음 | a | b | a+b |
단어 X 없음 | c | d | c+d |
a+c | b+d |
이 경우에 파이 계수는 아래 공식을 통해서 산출할 수 있다. 지수의 범위는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 자주 함께 사용되는 관련성이 높은 키워드라고 해석할 수 있다. 본 분석에서는 두 키워드의 파이계수는 높으나 전체 텍스트에서 등장한 빈도가 너무 낮은 경우는 특정 텍스트의 결과가 과대해석될 가능성이 있어 제외했다.
파이 계수 기반의 분석 결과는 아래와 같이 정리할 수 있다. 분석 결과를 보면 사회적-거리두기와 같이 재택 관련으로 자주 연결될 수밖에 없는 키워드 쌍을 주로 확인할 수 있는데, ‘연봉-이직’ 키워드 쌍이 재택근무 관련 텍스트에서 논의되고 있다는 점이 인상적이다. ‘연봉-이직’은 물론 기존에도 상관성이 높은 단어이지만, 재택 관련 게시물에서도 동일하게 등장하고 있다는 점은 주목할 만하다. 덧붙여 ‘카카오-네이버’가 재택 관련 게시물에서 같이 언급되고 있었는데, 해당 키워드가 등장한 텍스트에서는 국내 IT기업들이 재택근무를 어떻게 하고 있는지를 묻고 답하는 과정에서 함께 언급되고 있었다. 아무래도 IT기업들이 업무 특성 상 재택근무가 가능한 회사로 생각되다보니 이런 결과가 나타나는 것으로 보인다. 침대-눕다, 노래-틀다의 단어쌍도 흥미로운데, 재택근무가 주는 편안한 업무 환경을 체감할 수 있는 단어 조합이다.
Rank | word1 | word2 | phi-coef | Rank | word1 | word2 | phi-coef |
---|---|---|---|---|---|---|---|
1 | 사회적 | 거리두기 | 0.52 | 11 | 건물 | 확진자 | 0.27 |
2 | 인치 | 모니터 | 0.39 | 12 | 단점 | 장점 | 0.27 |
3 | 카카오 | 네이버 | 0.34 | 13 | 틀다 | 노래 | 0.25 |
4 | 백신 | 맞다 | 0.34 | 14 | 점심 | 먹다 | 0.25 |
5 | 마시다 | 커피 | 0.32 | 15 | 댓글 | 달다 | 0.24 |
6 | 눕다 | 침대 | 0.28 | 16 | 에어컨 | 틀다 | 0.24 |
7 | 확진자 | 나오다 | 0.28 | 17 | 삼성 | 인치 | 0.24 |
8 | 키우다 | 강아지 | 0.28 | 18 | 고양이 | 키우다 | 0.24 |
9 | 오전 | 오후 | 0.27 | 19 | 다이어트 | 식단 | 0.24 |
10 | 연봉 | 이직 | 0.27 | 20 | 조언 | 부탁드리다 | 0.24 |
지금까지는 키워드 간의 연관성을 바탕으로 어떤 논의들이 진행되고 있었는지를 간단하게 살펴보았다. 물론 특징적인 몇몇 부분을 확인할 수 있었지만, 어떤 주제의 이야기가 어느 정도의 비중을 가지고 다뤄지고 있는지는 파악하고 결론 내리기에는 뭔가 아직 부족한 점이 있다.
어떤 주제가 논의되고 있는가?
직장인 익명 게시판에서 직장인들은 어떤 주제를 이야기하고 있는지를 좀 더 명확하게 파악하기 위해 토픽모델링 분석을 실시했다. 토픽모델링이란 텍스트의 핵심주제를 찾고 비슷한 내용끼리 분류하는 모형을 의미한다. 다양한 토픽모델링 방법이 있지만, 본 분석에서는 가장 보편적으로 사용하는 LDA(Latent Dirichlet Allocation, 잠재디리클레할당) 기법을 활용하였다.
토픽모델링은 문서와 단어 간의 관계를 이용하며, 모델의 결과를 통해 문서에 사용된 단어가 어느 토픽에서 등장할 확률이 높은지를 산출할 수 있었다. LDA모델은 단어가 토픽을 구성하고, 토픽이 문서를 구성하고 있다고 전제한다. 먼저 하나의 토픽은 여러 단어의 혼합으로 구성된다는 가정에서 출발한다. 이에 따라 하나의 토픽에 존재하는 여러 단어들이 해당 토픽에 각각 등장할 확률값을 가지며, 동시에 같은 단어라도 여러 토픽에 등장할 서로 다른 확률값을 갖는다. 나아가 문서는 여러 토픽의 혼합으로 구성되어 있다. 각각의 문서에는 여러 토픽의 단어가 서로 다른 비율로 들어 있다. 다만 문서를 분류할 때는 단어 확률이 높은 쪽으로 분류한다. 결론적으로는 다량의 문서에서 주제들이 어떻게 분류할 수 있는가에 대한 답을 내리는 과정으로 이해하면 된다.
이번 분석에서는 하나의 게시글에 있는 제목, 본문, 댓글을 하나의 문서(Document)로 구분해서 분석을 실시했다. 적절한 토픽 개수를 선정하기 위해서는 토픽의 개수를 조절하면서 의미가 구분되는 토픽 개수를 선정해야 한다. 해석 가능성을 고려하여 15개로 분류된 모형을 선정하였고, 그 중에 의미가 뚜렷한 10개의 토픽에 아래의 표와 같이 이름을 붙였다. ( 1) 회사생활, 2) 연애, 3) 커리어/이직, 4) 코로나, 5) 가정/육아, 6) 식사, 7) 사무기기, 8) 투자, 9) 건강/헬스, 10) 업무환경)
토픽모델링 분류 결과를 활용해서 특정 토픽에서 특징적으로 등장하는 키워드를 확인할 수 있는데, 10개의 토픽에서는 아래 키워드들이 주로 나타났다.
no. | 토픽명 | 토픽 비중 (%) | 주요 단어 |
---|---|---|---|
1 | 회사생활 | 20.8 | 재택, 출근, 재택근무, 회사, 퇴근, 근무, 사무실, 메신저, 회의, 휴가 |
2 | 연애 | 15.0 | 여자, 남자, 친구, 남친, 연애, 소개팅, 여친, 얘기, 연락, 데이트, 약속 |
3 | 커리어/이직 | 9.0 | 연봉, 이직, 복지, 워라, 면접, 개발자, 개발, 퇴사, 신입, 입사 |
4 | 코로나 | 8.2 | 확진, 백신, 격리, 방역, 접종, 정부, 감염, 단계, 두기, 마스크 |
5 | 가정/육아 | 6.7 | 남편, 아이, 와이프, 육아, 아빠, 엄마, 아기, 맞벌이, 휴직, 부부 |
6 | 식사 | 5.3 | 배달, 커피, 점심, 맥주, 음식, 식비, 메뉴, 소주, 도시락, 반찬, 캡슐 |
7 | 사무기기 | 4.6 | 모니터, 노트북, 인터넷, 인치, 맥북, 그램, 마우스, 모델, 키보드 |
8 | 투자 | 4.0 | 주식, 부동산, 판교, 강남, 종목, 분당, 코인, 금리, 매수, 상승, 하락 |
9 | 건강/헬스 | 3.8 | 운동, 다이어트, 헬스, 식단, 근육, 유산소, 몸무게, 체지방, 피티 |
10 | 업무환경 | 2.8 | 소음, 윗집, 의자, 층간, 허리, 매트, 허먼, 밀러, 옆집, 공사, 아랫집 |
앞서 키워드 빈도분석 결과에서도 확인할 수 있었듯이, 많은 부분이 회사생활과 관련된 내용이었다. 재택근무를 하고 있는지, 하고 있다면 어떻게 하고 있는지를 묻기도 하고, 재택근무를 하면서 회사에서 생기는 갈등 상황들을 나누고 있었다. 연애와 관련된 주제의 게시글도 있었고, 연봉, 이직, 복지와 관련된 커리어/이직 토픽의 주제들도 상당한 비중을 가지고 있었다. 실제 텍스트를 살펴보면 회사의 근무 여건을 나열하면서 ‘재택근무 같은 복지제도’ 와 같이 언급되는데, 이는 직장인들이 재택근무를 회사를 평가하는 기준과 복지제도로 인식하고 있음을 보여주는 부분이다. 다음으로는 펜데믹 상황 관련 주제가 뒤를 이었다. 남편, 아이, 와이프 등과 같이 재택근무와 관련해서 가정 내에서 일어나는 이슈들에 대한 논의가 많았다. 실제 텍스트 내용을 살펴보면, 코로나 상황에서 맞벌이로서의 고통, 재택근무로 인해 가족 구성원끼리 자주 부딪히면서 발생하는 갈등 등이 담겨있었다.
재택근무로 인해서 식사 관련 이슈를 담은 게시글들도 있었다. 해당 토픽이 포함된 텍스트를 보면, ‘재택하는 사람들 점심, 저녁 어떻게 먹나’, ‘식비는 얼마나 나오나’, ‘점심 메뉴 추천’ 등의 내용이 담겼다. 또한 재택근무가 장기화됨에 따라 재택근무용 사무기기를 추천 받거나 구매하는 토픽들도 있었다. 여기에 집에서 근무할 때 발생하는 층간 소음, 불편한 의자에 대한 이야기 등도 등장했다. 이는 재택근무 상황에서 직장인들이 업무 환경에 나름의 스트레스를 받고 있으며, 사무기기 구비 등을 통해서 업무 환경 개선에 관심을 가지고 있음을 보여주는 부분이다.
이러한 분석 결과는 회사에서 재택근무를 어떻게 지원할 것인지에 대한 기초 자료로도 활용할 수 있을 것으로 생각된다. 이미 국내 IT 기업 중에는 재택근무자를 위한 물품 키트를 제공하거나, 밀키트를 배송해주는 등의 복지제도를 운영하고 있는 곳도 있다고 한다. 본 분석 결과를 살펴보면 이런 지원은 재택근무자들이 보다 효과적으로 업무를 할 수 있도록 그들이 어려움을 느끼는 요인을 일부 해소한다는 점에서 큰 의미가 있어 보인다.
본 토픽모델링 분석에는 pyLDAvis 라이브러리를 활용하였다. (R에서는 LDAvis package입니다.) pyLDAvis 라이브러리에서는 LDA 토픽모델링 분석만 아니라 직관적인 시각화 툴을 제공한다. 시각화 결과물은 크게 아래와 같은 버블차트와 bar 차트로 확인할 수 있다. 먼저 버블차트에서 원의 크기는 데이터로부터 생성된 코퍼스 내 단어들이 할당된 토픽들의 비중의 크기를 뜻한다. 또한 분류된 토픽 간의 거리(distance)를 보여준다. 이번 결과에서는 우측 하단에 식사와 건강/헬스 토픽이 서로 가까이 위치하고 있고, 오른쪽 중간 위치에 사무기기와 업무환경 토픽이 비교적 가까운 거리를 보이고 있다는 점이 특징적이다. Bar 차트에서는 해당 relevance term을 기준으로 토픽과 관련이 높은 단어들이 정렬되어 있다. 붉은색 바는 해당 토픽 내에 특정 단어가 등장하는 빈도이고, 파란색 바는 전체 토픽에 특정 단어가 등장한 빈도를 의미한다. 직관적으로 해당 키워드가 특정 토픽에 어느 정도 비중으로 나타나는지를 색 차이를 통해 확인할 수 있다. 각 토픽별로 해당 차트가 도출 가능하며 본 글에서는 예시로 회사생활과 커리어/이직에 해당하는 bar 차트를 표시하였다.
직장인들의 생각은 시간의 경과에 따라 달라졌을까?
2020년 2월 국내 첫 확진자가 발생한 이후, 약 2년 간의 시간이 지났다. 직장인에게 있어 재택근무는 코로나 펜데믹 상황과 함께 큰 화두였다. 그렇다면 이런 코로나 펜데믹 상황이 변화함에 따라 재택근무와 관련된 직장인 익명 게시판의 글의 빈도와 주제는 어떻게 달라졌을까? 2020년 초에 재택근무에 대한 논의점과 2022년의 논의는 분명 달라졌을텐데 어떤 부분이 달라졌을지를 확인해보고자 시계열 분석을 수행했다.
먼저 게시글의 수는 어떻게 변화했을까? 아래 그래프는 코로나 국내 확진자 수와 재택관련 게시글 수의 추이를 비교한 결과다. 재택근무 관련 게시글이 가장 많이 등장한 시기는 2020년 3월로, 국내에 코로나 1차 유행이 시작되면서 재택근무 관련 논의와 관심이 많아지는 시기로 보인다. 재택근무라는 근무 형태가 낯설고 생소했기 때문에 관련 정보를 공유하면서 게시글이 많아졌을 것으로 추정된다. 이후에는 코로나 확진자 수가 이전 대비 급격하게 증가하는 시기인 2020년 8월, 2020년 12월, 2021년 7월에 재택 관련 게시글 수가 급증하고 있음을 확인할 수 있다. 펜데믹 상황의 변곡점에서 재택 관련 논의가 많이 등장하고 있다는 점이 인상적인 부분이다.
그렇다면, 재택근무 관련 게시글의 주제들은 펜데믹 초기와 비교했을 때 어떻게 달라지는 양상을 보일까? 변화 양상을 확인하기 위해 앞서 토픽모델링에서 특징적으로 도출되는 키워드를 포함하고 있는 게시글의 수를 집계하였고, 그 집계치를 바탕으로 월별 순위 변화를 비교했다. 먼저는 회사생활과 관련된 게시글 비중이 시기와 상관없이 가장 많이 등장했다. 분석 결과에서 한 가지 주목할 부분은 백신이나 확진자 등과 관련된 언급은 지속적으로 많은 비중을 차지하고 있지만, 시간이 점점 지나갈수록 순위가 낮아지고 있다는 점이다. 반면에 커리어/이직 관련한 주제들이 2020년에 들어 높은 순위를 차지하고 있음을 확인할 수 있다. 실제 텍스트를 살펴보면, 이직을 고민 중인 회사, 혹은 제안을 받은 회사의 근무 여건을 비교하면서, 재택근무 제도 여부를 고려하는 게시글들이 눈에 띄었다.
정리하면서
텍스트 분석을 활용해서 재택근무와 관련된 직장인들의 인식을 확인하려는 취지에서 위 분석을 진행했다. 주요 분석 결과를 살펴보면 다음과 같이 정리해볼 수 있다. 첫 번째로, 재택근무를 단순히 일시적인 근무 형태가 아니라 회사의 근무 여건, 복지 제도로 인식하는 경향이 드러난다는 점이다. 물론 펜데믹 이후에 재택근무가 일반적인 근무 형태로 자리잡을 수 있을지는 의문이지만, 적어도 직장인들은 재택근무가 가지는 편의성에 공감하고 직장 선택에 있어 고려할 수 있는 조건으로 생각하고 있다는 점은 주목할만 하다. 두 번째로, 직장인들이 재택근무와 관련해서 겪고 있는 애로사항들을 확인할 수 있었다. 가정과 육아에 있어서 겪는 현실적인 문제와 업무 환경과 사무기기가 가지는 불편함, 집에서 식사를 해결해야 한다는 부담감 등을 확인할 수 있었다. 물론 재택근무를 경험한 직장인이라면 당연히 공감할 수 있는 부분이고 어쩌면 당연한 결과일 수도 있다. 하지만 본 결과는 재택근무가 부분적으로 혹은 비슷한 펜데믹 상황으로 인해 불가피하게 실시해야 하는 상황에서 어떻게 구성원들을 지원하고 보다 성과를 만들어 내기 위해서 필요한 것이 무엇인지 고민해볼 수 있다는 점에서 의의가 있다고 생각한다.