세컨 PC를 항상 켜놓고 TV나 자료 다운, 동영상 감상용 등으로 사용하고 있는데 메인 PC를 사용할때면 키보드, 마우스를 이리저리 바꾸고 하는게 귀찮다.
누워서 PC를 조작할때도 무선마우스/키보드 건전지 교체하는것도 귀찮고, 유선 케이블 정리하는 것도 귀찮다.
스마트폰으로 PC원격조작하는 방법도 있었지만 매번 앱을 실행해야한다. PC조작용 리모컨이 가장 편리할 것 같은데 쓸데없이 돈쓰는 것 같은 기분이다.
그러다 얼마전 게임을 음성명령으로 하는 프로그램들을 사용해보다 결국엔 윈도우 시스템 전체를 음성명령으로 자동화하기에 이르렀다..
물론 완전한 음성명령 자동화는 아니다. 그냥 누워서 할 수 있는 간단한 작업들만 일단 해보게됐는데 굉장히 편리하다.
윈도우에는 예전부터 음성인식 기능이 있었다.
한글 윈도우에 있는 음성인식 기능은 STT(Speech to Text)라는 음성을 인식해서 텍스트를 입력하거나 작업을 수행하는 기능이 빠져있다. TTS(Text to Speech) 라는 텍스트를 음성으로 읽어주는 기능만 사용 가능하다.
윈도우 10으로 오면서 음성인식 기능은 코타나라는 이름으로 바뀌고 더 진화된 기술을 탑재했다고 한다. 하지만 한국어는 여전히 지원하지 않는다.
윈도우 10의 STT 기능을 사용하려면 지원하는 언어로된 윈도우를 사용해야 한다. 게다가 미국 영어를 빼면 음성인식률 등의 완성도가 그렇게 좋은 편은 아니라고 한다.
음성인식을 통한 음성명령 기능은 윈도우 PC뿐 아니라 구글의 안드로이드에도 있고, 애플에도 시리라는 이름으로 있다.
개인비서(Personal Assistant)라고 불리는 이 기능은 구글이나 애플과 달리 MS는 한국어를 아직 지원하지 않고 있다.
개발역량이 없는건지 뭔지는 모르겠지만 관련 글들을 찾아보니 한국어 기능을 만들기가 꽤 까다로운 모양이다.
구글이나 애플의 음성인식 엔진도 영어처럼 그렇게까지 완벽하진 않다고 한다.
3사 모두 이런 음성인식 기능들의 최종 목표를 일종의 인격체 수준까지 끌어올리는데 두고 있다고 한다.
예를 들면, 특정 언어로 단어와 문장이 딱 떨어지는 말이 아니라 지금 몇시냐? 현재 시간은? 코타나? 지금 몇시? 외 비슷한 문맥과 목적을 모두 파악해서 관련 작업을 자동화하게 하는거라는 말이다.
이런 걸 인공지능 데이터베이스 작업이라고 하고 모르긴 몰라도 전세계 언어 중에서 한국어가 가장 까다로울것 같다.
간단한 웹 검색만 해봐도 사람들이 사용하는 말은 접미사, 어미, 형용사 뿐 아니라 문법까지 그야말로 천차만별이다.
영어로는 대중적인 두세가지 단어로 검색해보면 되지만 한국어로는 더 복잡하고 영어 표기까지 뒤져봐야된다.
테크놀러지의 대중화라고 하기도 한다.
마이크로소프트의 윈도우도 이런 기술 대중화의 가장 성공적인 모범 사례다.
그렇게 생각하면 코타나 한국어 지연은 개발역량 부족이 맞는듯하다.
한국어 사용자들의 원성과 요청이 많을텐데도 마소는 묵묵부답인데, 그냥 몇가지 단어나 특정 문장 형식만이라도 가능한 코타나라도 빨리 지원되면 좋겠다.
하지만 MS는 버그성 업데이트들을 수없이 내놓으면서도 코타나만은 아직 내놓기가 좀 그런 단계인 것 같다.
더 자세한 것들은 아래 대충 스크랩해둔 내용들을 참고하면 될듯하다.
코타나 지원되는 국가의 로케일로 설정하지 않으면 사용할 수 없어요.
예를 들어 미국으로 하면 음성을 인식하기 위한(영어인식 샘플링 데이타) 데이타가 설치되지만 한국어는 그런게 없습니다.
그리고 사용자가 어떤 질문을 했을 때, 코타나가 그에 대한 대답을 내놓으려면 어떤 정보가 필요한데, 그런 정보는 MS사의 거대한 클라우드 시스템에서 병렬로 수행되는 인공지능 프로그램에 의해서 기본적으로 Bing에 구축되어 있는 빅데이타가 활용된다고 합니다.
사용자의 질문 행태에 따라 필요한 대답을 내놓기 위해선 단순히 음성인식 기능만 구현되면 되는 것이 아니고, 인공지능을 이용하는 전체 시스템이 언어별로 구현돼서 동작되야 하는 그런 구조.
MS에 음성인식이나 인공지능 기술을 다루는 랩이 있다고 하는데, 유감스럽게도 거기에 한국어의 언어적 구조나 문화를 잘 이해하고 있는 한국 출신 프로그래머가 극소수라는 것.
정부에선 우리가 중국 보다 인공지능이 앞선다고 설레발 치고 있지만, 중국 일본에 비하면 우리나라가 이쪽으로 인재풀이 너무 빈약하죠.
IT 강국이라고 해봐야 배우기 쉽고 먹고살기 편한 웹이나 데이타베이스 프로그래밍 쪽 위주고. 구현하기 쉬운 단순한 '음성인식 기능'이 발목을 잡는 게 아니고, 한국적 문화를 이해할 수 있는 '인공지능 시스템'의 구축이 관건.
( https://windowsforum.kr/qna/7527162#comment_7527355 )
좀 편리하게 하자고 음성인식으로 작업하는데 인격체니 뭐니 하는 게 좀 오버스럽지만, 현재 영어와 같은 수준으로 한국어로 구현된다면 확실히 좋을 것 같긴하다. 재밌기도 하고..
아무튼 윈도우 PC에서 음성명령으로 코타나같은 자동화 시스템을 만들려면 일단 지원되는 언어패키지를 설치한 다음에 윈도우 기본 언어를 해당 언어로 한번 바꿔서 관련된 설정을 한 번 해줘야 된다.
그리고 윈도우 기본 표시 언어를 영어로 그대로 사용하거나 한글로 다시 바꿔주면 된다.
코타나를 활용해도 되지만 코타나를 끄고 윈도우7에도 있던 구 제어판의 음성인식(Speech Recognition) 의 예전 STT 음성명령 API 엔진만 이용해도 된다.
코타나 프로그램은 별개로 작동하는 프로그램인 것 같고, 다른 보이스(음성명령) 매크로 응용프로그램들은 모두 제어판 설정이 사용된다.
언어팩을 설치하고 코타나 및 음성명령인식 기능을 활성화하는 방법은 아래 링크 참조.
2018/02/12 - [게임] - 윈도우10 음성인식 명령과 음성명령 프로그램으로 PC 게임하기 (GAVPI 사용법)
△ sf 영화에서 보던 음성명령 장면처럼 pc를 사용할 수 있어서 재밌기도 하다.
사용한 프로그램은 voicemacro 라는 프로그램이다.
이런 음성/키보드//마우스 인식(에뮬레이터) 매크로(자동화) 프로그램들의 사용법은 거의 비슷하다.
아래 링크 글을 참조하면 이런 매크로 프로그램들이 어떻게 작동하는지 대충 알 수 있음.
2018/02/24 - [컴퓨터&인터넷] - 보이스/키보드/마우스 단축키 매크로 종합 프로그램 - Voice Macro
코타나나 기본 음성제어 기능을 사용하지 않고 보이스매크로같은 프로그램으로 PC를 제어할때 불편하거나 주의해야 할점은 다음과 같다.
- 음성명령 정할 때 발음이 비슷하거나 겹치지 않게 해야 하므로 코타나 수준으로 구현하려면 상당한 시간과 노력이 필요할 것 같다.
- 코타나같이 what time? what time is it? 같은 맥락어에 반응하도록 하려면 명령어를 복수 입력하면 된다.
명령어 복수 입력은 ;(세미콜론)을 사용한다. "open windows;start window" (세미콜론 앞뒤로 공백이 있으면 안됨)
하지만 그만큼 단어와 문장들이 다른 명령어들과 겹칠 가능성도 있고 더 정확한 발음과 긴 문장이 필요할 것 같다.
명령어가 길고 복잡하면 인식률이 높아지고 많은 명령어들을 일일이 외우지 않아도 되지만 작업효율은 떨어진다.
가령 '엔터' 하면 너무 짧아 다른 명령어로 오작동하는 경우가 있지만 그만큼 시간은 단축된다.
'프레스 엔터' 같이 두 단어 정도가 가장 무난한듯하다.
- 코타나를 사용할거라면 설정에 있는 비원어민 억양 인식에 체크해서 사용하면 된다.
보이스매크로같은 다른 프로그램을 사용하려면 코타나 설정은 적용되지 않기때문에 까끔 까다로운 발음을 요구하기도 한다. 모니터가 아니라 마니터, 토글이 아니라 타글이다. ㅡㅡ;
보이스매크로에는 각 액션마다 음성인식 엔진을 변경하는 옵션도 있기때문에 영국영어 정도만 추가로 설치해두면 더 나을 것 같다.
- 모든 작업은 기본적으로 윈도우 기본 단축키 + 특정 프로그램 단축키로 이뤄지지만 마우스 작업도 어느정도 가능하다.
- 한글 텍스트 입력은 구글 음성 엔진을 사용하는 에버노트같은 문서 응용프로그램을 설치해서 활용하면 될 것 같다.
(한보이스같은 유료 프로그램들도 있지만 단순 음성을 텍스트로 입력해주는 엔진이고 코타나같은 개인비서 기능의 프로그램은 국내고 해외고 없는것 같다)
- 매크로 프로그램 사용법을 잘 익히면 코타나 못지 않은 자연어 인공지능 구축도 가능할듯하다. ㅡㅡ;
- 마이크는 만원대의 2미터짜리 지향성 핀마이크를 사용했다.
1.5미터짜리 3.5파이 스테레오 연장선에 연결해서 누워서 작업하는데 굉장히 편리하다.
예)
* '팟플레이어' 라고 말하면 팟플이 실행된다. 그후 'open tv' > 'kbs/mbc/sbs' > 'channel down/volume up' > 'close window' 명령어로 tv를 본다.
* '오픈 푸바' > '탭' > '체인지탭' (ctrl+tab 목록탭 이동) > ' 업/다운/페이지다운/페이지업' (트랙 이동) > '엔터' (재생) > '스페이스바'(정지)
* 화면 확대 프로그램은 OneLoupe를 추천.
윈도우 기본 돋보기는 품질은 좋지만 좀 무거워서 저사양PC에서 약간 버벅댄다. oneloupe는 써본 프로그램 중 가장 가볍게 작동한다.
* change window (alt+tab 창간 전환) > left/right (방향키) > this windows (선택)
* 실행되어 있는 창 활성화는 change window(alt+tab)으로 하거나 마우스 매크로로 바로 가능함
만일 특정 프로그램이 활성화되어 있다면 move notepad left(창제목표시줄 왼쪽 좌표) 또는 move notepad right(제목표시줄 최소화표시 있는 곳)를 지정해 바탕화면에 띄우면서 활성화시킴. (매크로 액션 설정에서 프로그램 지정)
(미디어 플레이어들은 옵션 설정에 글로벌핫키라는 항목이 있다. 단축키로 볼륨이나 채널트랙 변경을 할때 창이 활성화되있지 않아도 가능하게 해주는 옵션임)
* minimize all (창 모두 최소화)
* go taskbar (작업표시줄 현재 실행중인 앱 보기 이동) > 방향키 > 엔터
* go taskbar( 윈도우키+T) > tab (알림영역 아이콘으로 이동) > 스페이스바 또는 엔터 (알림영역 활성 아이콘으로 마우스 이동) > right click > 방향키 > 엔터
* go calendar (마우스를 작업표시줄 시계 이동) > move left(마우스 xy좌표이동) 또는 move sound setting > click > 방향키(볼륨조절) > Tab (재생장치 메뉴) > 스페이스바 > 방향키(재생장치 선택) > escape (esc키)
* 오픈 크롬 > 고 구글 > 검색어를 음성으로 (크롬 설정에서 마이크 설정 허용) > 이후 크롬 단축키를 음성명령어에 할당
* 오픈 에버노트 > 음성으로 텍스트 입력 > 카피 올 > 오픈 노트패드 > 페이스트 (붙여넣기) > save as > 복사한 제목 붙여넣기 > 엔터
* 그 외 자주 사용하는 프로그램(크롬 등)의 단축키를 알아두고 적당한 음성명령어 입력.
* 마우스 좌표 이동은 아래처럼 마우스 그리드를 그어놓고 익숙해질때까지 사용하면 될것같다.
명령어는 move one / move one one / move one two ...
* 각 명령어 매크로 액션 앞에 동작 인식 배경음을 설정해두면 음성인식이 정확히 되었는지 알 수 있다.
비프음 사운드파일을 재생해도 되지만 text to speech 를 넣어 음성명령어와 같은 말을 입력해주면 어떤 명령어가 오작동이 자주 생기는지 알 수 있다.
아직까지 계속 테스트해보고 수정 중인데 이 글도 조금씩 업데이트해봐야겠다.
'컴퓨터&인터넷' 카테고리의 다른 글
삼보 버티컬 마우스 TM137U 분해 청소 (0) | 2018.03.11 |
---|---|
게임패드 감도 테스트 및 모니터링 프로그램 - 조이스틱 테스트(JoystickTest) (0) | 2018.03.09 |
안드로이드 스마트폰 lte 환경에서 푸시 알림 안올 때 (0) | 2018.02.28 |
보이스/키보드/마우스 단축키 매크로 종합 프로그램 - Voice Macro (0) | 2018.02.24 |
윈도우 음성인식 기능으로 현재 시간 듣기 (자명종/ 알람) (0) | 2018.02.06 |