o
    yÓ	i'<  ã                   @   sœ   d Z ddlZddlZddlZddlZddlZddlmZmZm	Z	m
Z
 ddlmZ ddlZddlZddlmZ ddlmZ ddlmZ G dd	„ d	ƒZeƒ ZdS )
za
Speech-to-Text Service for MCube Voice Bot
Handles audio transcription using OpenAI Whisper API
é    N)ÚOptionalÚDictÚAnyÚList)Údatetime)ÚConfig)ÚLog)ÚAudioNoiseServicec                	   @   sÜ   e Zd ZdZdd„ Zdededee fdd„Zd	ee dedee fd
d„Z	de
dedee
 fdd„Zde
de
fdd„Zdde
dede
fdd„Zde
dedee fdd„Zdeeeef  dedeeeef  fdd„ZdS )ÚSpeechToTextServicez
    Service for converting audio to text using OpenAI Whisper API.
    Handles audio format conversion and transcription.
    c                 C   sr   t j| _d| _g | _t ¡ | _t j| _	t j
| _t j| _tƒ | _| j	r2t d| j› d| j› d¡ d S t d¡ d S )Nz.https://api.openai.com/v1/audio/transcriptionsu0   ðŸŽ¤ Speech-to-Text Service initialized (Model: z, Language: ú)u4   ðŸŽ¤ Speech-to-Text Service initialized but disabled)r   ZOPENAI_API_KEYÚopenai_api_keyÚwhisper_urlZaudio_bufferÚasyncioZLockZbuffer_lockZSPEECH_TO_TEXT_ENABLEDÚenabledZSTT_LANGUAGEÚlanguageZ	STT_MODELÚmodelr	   Únoise_servicer   Úinfo)Úself© r   ú"services/speech_to_text_service.pyÚ__init__   s   
 zSpeechToTextService.__init__Ú
audio_dataÚ
session_idÚreturnc              
   Ã   sB  | j st d|› ¡ dS ztt |¡}t d|› dt|ƒ› d¡ t|ƒdk r6t dt|ƒ› d¡ W dS |  ||¡I dH }|sLt d|› ¡ W dS t d	|› ¡ |  ||¡I dH }|rx| 	¡ rxt 
d
|› d|dd… › d¡ | 	¡ W S t 
d|› ¡ W dS  ty  } zt d|› d|› ¡ W Y d}~dS d}~ww )a&  
        Transcribe base64 encoded audio data to text using OpenAI Whisper.
        
        Args:
            audio_data: Base64 encoded audio data
            session_id: Session ID for logging
            
        Returns:
            Transcribed text or None if transcription fails
        uA   ðŸŽ¤ Speech-to-text disabled, skipping transcription for session Nu   ðŸŽ¤ Decoded audio for session ú: ú bytesi   u(   ðŸŽ¤ Audio too short for transcription: u2   âš ï¸ Failed to process audio format for session u%   ðŸŽ¤ Calling Whisper API for session u#   ðŸŽ¤ Transcribed audio for session ú: 'é2   ú...'u-   ðŸŽ¤ No speech detected in audio for session u)   âŒ Error transcribing audio for session )r   r   ÚdebugÚbase64Ú	b64decodeÚlenÚ_process_audio_formatÚwarningÚ_call_whisper_apiÚstripr   Ú	ExceptionÚerror)r   r   r   Úaudio_bytesÚprocessed_audioÚtranscriptionÚer   r   r   Útranscribe_audio*   s4   €
 
€þz$SpeechToTextService.transcribe_audioÚaudio_chunksc           	      Ã   s~  | j st d|› ¡ dS z’|sW dS d}|D ]*}zt |¡}||7 }W q tyB } zt d|› d|› ¡ W Y d}~qd}~ww |sPt d|› ¡ W dS t|ƒdk rdt dt|ƒ› d	¡ W dS |  ||¡I dH }|srW dS |  	||¡I dH }|r–| 
¡ r–t d
|› d|dd… › d¡ | 
¡ W S t d|› ¡ W dS  ty¾ } zt d|› d|› ¡ W Y d}~dS d}~ww )a)  
        Transcribe multiple audio chunks by combining them first.
        
        Args:
            audio_chunks: List of base64 encoded audio chunks
            session_id: Session ID for logging
            
        Returns:
            Transcribed text or None if transcription fails
        uH   ðŸŽ¤ Speech-to-text disabled, skipping buffer transcription for session Nó    u0   âš ï¸ Failed to decode audio chunk for session r   u)   âš ï¸ No valid audio chunks for session é@  u1   ðŸŽ¤ Combined audio too short for transcription: r   u,   ðŸŽ¤ Transcribed combined audio for session r   r   r   u6   ðŸŽ¤ No speech detected in combined audio for session u0   âŒ Error transcribing audio buffer for session )r   r   r    r!   r"   r(   r%   r#   r$   r&   r'   r   r)   )	r   r/   r   Zcombined_audioÚchunkr*   r-   r+   r,   r   r   r   Útranscribe_audio_bufferX   sJ   €
€þ 
€þz+SpeechToTextService.transcribe_audio_bufferr*   c              
   Ã   sÌ   zF|   |¡}tjr| j ||¡}|dur|}| j|dd}t|ƒdk r2t dt|ƒ› d¡ W dS t d|› dt|ƒ› d	t|ƒ› d¡ |W S  t	ye } zt 
d
|› d|› ¡ W Y d}~dS d}~ww )uY  
        Process audio format for Whisper API compatibility.
        Converts from MCube format (Î¼-law) to WAV format and applies noise reduction.
        
        Args:
            audio_bytes: Raw audio bytes
            session_id: Session ID for logging
            
        Returns:
            Processed audio bytes in WAV format
        Nr1   )Úsample_ratei€>  u   ðŸŽµ WAV file too short: r   u(   ðŸŽµ Processed audio format for session r   z -> u.   âŒ Error processing audio format for session )Ú_mulaw_to_pcmr   ZAUDIO_NOISE_REDUCTION_ENABLEDr   Zprocess_audio_chunkÚ_create_wav_filer#   r   r    r(   r)   )r   r*   r   Úpcm_dataZprocessed_pcmZwav_datar-   r   r   r   r$   ‘   s$   €
&€þz)SpeechToTextService._process_audio_formatÚ
mulaw_datac                 C   s>   g d¢}t ƒ }|D ]}|| }| |jdddd¡ q	t|ƒS )uº   
        Convert Î¼-law encoded audio to PCM.
        
        Args:
            mulaw_data: Î¼-law encoded audio bytes
            
        Returns:
            PCM audio bytes
        (   i„‚ÿÿi„†ÿÿi„Šÿÿi„Žÿÿi„’ÿÿi„–ÿÿi„šÿÿi„žÿÿi„¢ÿÿi„¦ÿÿi„ªÿÿi„®ÿÿi„²ÿÿi„¶ÿÿi„ºÿÿi„¾ÿÿi„Áÿÿi„Ãÿÿi„Åÿÿi„Çÿÿi„Éÿÿi„Ëÿÿi„Íÿÿi„Ïÿÿi„Ñÿÿi„Óÿÿi„Õÿÿi„×ÿÿi„Ùÿÿi„Ûÿÿi„Ýÿÿi„ßÿÿiáÿÿiâÿÿiãÿÿiäÿÿiåÿÿiæÿÿiçÿÿièÿÿiéÿÿiêÿÿiëÿÿiìÿÿiíÿÿiîÿÿiïÿÿiðÿÿiÄðÿÿiDñÿÿiÄñÿÿiDòÿÿiÄòÿÿiDóÿÿiÄóÿÿiDôÿÿiÄôÿÿiDõÿÿiÄõÿÿiDöÿÿiÄöÿÿiD÷ÿÿiÄ÷ÿÿiDøÿÿi¤øÿÿiäøÿÿi$ùÿÿidùÿÿi¤ùÿÿiäùÿÿi$úÿÿidúÿÿi¤úÿÿiäúÿÿi$ûÿÿidûÿÿi¤ûÿÿiäûÿÿi$üÿÿidüÿÿi”üÿÿi´üÿÿiÔüÿÿiôüÿÿiýÿÿi4ýÿÿiTýÿÿitýÿÿi”ýÿÿi´ýÿÿiÔýÿÿiôýÿÿiþÿÿi4þÿÿiTþÿÿitþÿÿiŒþÿÿiœþÿÿi¬þÿÿi¼þÿÿiÌþÿÿiÜþÿÿiìþÿÿiüþÿÿiÿÿÿiÿÿÿi,ÿÿÿi<ÿÿÿiLÿÿÿi\ÿÿÿilÿÿÿi|ÿÿÿiˆÿÿÿiÿÿÿi˜ÿÿÿi ÿÿÿi¨ÿÿÿi°ÿÿÿi¸ÿÿÿiÀÿÿÿiÈÿÿÿiÐÿÿÿiØÿÿÿiàÿÿÿièÿÿÿiðÿÿÿiøÿÿÿr   i|}  i|y  i|u  i|q  i|m  i|i  i|e  i|a  i|]  i|Y  i|U  i|Q  i|M  i|I  i|E  i|A  i|>  i|<  i|:  i|8  i|6  i|4  i|2  i|0  i|.  i|,  i|*  i|(  i|&  i|$  i|"  i|   iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  iü  i<  i¼  i<  i¼  i<  i¼  i<  i¼  i<  i¼
  i<
  i¼	  i<	  i¼  i<  i¼  i\  i  iÜ  iœ  i\  i  iÜ  iœ  i\  i  iÜ  iœ  i\  i  iÜ  iœ  il  iL  i,  i  iì  iÌ  i¬  iŒ  il  iL  i,  i  iì  iÌ  i¬  iŒ  it  id  iT  iD  i4  i$  i  i  éô   éä   éÔ   éÄ   é´   é¤   é”   é„   éx   ép   éh   é`   éX   éP   éH   é@   é8   é0   é(   é    é   é   é   r   é   ÚlittleT)Ú	byteorderZsigned)Ú	bytearrayÚextendÚto_bytesÚbytes)r   r8   Zmulaw_tabler7   ZbyteZ	pcm_valuer   r   r   r5   ¸   s   #z!SpeechToTextService._mulaw_to_pcmr1   r7   r4   c                 C   s&  d}d}|| | d }|| d }t  ¡ }| d¡ | t|ƒd jddd¡ | d	¡ | d
¡ | djddd¡ | djddd¡ | |jddd¡ | |jddd¡ | |jddd¡ | |jddd¡ | |jddd¡ | d¡ | t|ƒjddd¡ | |¡ | ¡ S )zÐ
        Create WAV file from PCM data.
        
        Args:
            pcm_data: PCM audio data
            sample_rate: Sample rate in Hz
            
        Returns:
            WAV file bytes
        é   rN   rO   s   RIFFé$   é   rQ   )rR   s   WAVEs   fmt rP   s   data)ÚioÚBytesIOÚwriter#   rU   Úgetvalue)r   r7   r4   ZchannelsZbits_per_sampleZ	byte_rateZblock_alignZ
wav_bufferr   r   r   r6   î   s(   




z$SpeechToTextService._create_wav_filec           
   
   Ã   s  zÖdd| j › i}t ¡ }|jd|ddd | d| j¡ | d| j¡ | d	d
¡ t ¡ 4 I dH š—}|j| j||tj	ddd4 I dH šm}|j
dkr|| ¡ I dH }t d|› d|dd… › d¡ | ¡ W  d  ƒI dH  W  d  ƒI dH  W S | ¡ I dH }t d|› d|j
› d|› ¡ t dt|ƒ› d¡ 	 W d  ƒI dH  W d  ƒI dH  W dS 1 I dH s¹w   Y  W d  ƒI dH  W dS 1 I dH sÐw   Y  W dS  tjyê   t d|› ¡ Y dS  ty }	 zt d|› d|	› ¡ W Y d}	~	dS d}	~	ww )zö
        Call OpenAI Whisper API for transcription.
        
        Args:
            audio_data: WAV audio data
            session_id: Session ID for logging
            
        Returns:
            Transcribed text or None if failed
        ZAuthorizationzBearer Úfilez	audio.wavz	audio/wav)ÚfilenameZcontent_typer   r   Zresponse_formatÚtextNé   )Útotal)ÚheadersÚdataZtimeoutéÈ   u&   ðŸŽ¤ Whisper API response for session r   éd   r   u"   âŒ Whisper API error for session r   z - u(   ðŸŽ¤ Audio data size that caused error: r   u$   âŒ Whisper API timeout for session u*   âŒ Error calling Whisper API for session )r   ÚaiohttpZFormDataZ	add_fieldr   r   ZClientSessionZpostr   ZClientTimeoutÚstatusr`   r   r    r'   r)   r#   r   ÚTimeoutErrorr(   )
r   r   r   rc   rd   ZsessionZresponser,   Z
error_textr-   r   r   r   r&     sN   €ÿ
ü
 ÷ÿñÿ2ÿ€þz%SpeechToTextService._call_whisper_apiÚaudio_segmentsc           
   
   Ã   s¾   z>g }|D ])}|  d¡}|  d¡}|r/|  ||¡I dH }|||t|o&| ¡ ƒdœ}| |¡ qt dt|ƒ› d|› ¡ |W S  ty^ }	 zt 	d|› d|	› ¡ g W  Y d}	~	S d}	~	ww )	a  
        Transcribe multiple audio segments in batch.
        
        Args:
            audio_segments: List of audio segments with metadata
            session_id: Session ID for logging
            
        Returns:
            List of transcribed segments with text
        r   Ú	timestampN)rk   r   r,   Z
has_speechu   ðŸŽ¤ Batch transcribed z segments for session u-   âŒ Error in batch transcription for session r   )
Úgetr.   Úboolr'   Úappendr   r   r#   r(   r)   )
r   rj   r   Ztranscribed_segmentsZsegmentr   rk   r,   Ztranscribed_segmentr-   r   r   r   Úbatch_transcribeE  s,   €

ü
€€þz$SpeechToTextService.batch_transcribeN)r1   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Ústrr   r.   r   r3   rV   r$   r5   Úintr6   r&   r   r   ro   r   r   r   r   r
      s    .9'6&21r
   )rs   r   r!   rZ   ZjsonZwaveÚtypingr   r   r   r   r   rg   ZaiofilesZconfigr   Zservices.log_utilsr   Zservices.audio_noise_servicer	   r
   Zspeech_to_text_servicer   r   r   r   Ú<module>   s"      
Y